本系列博客为学习《机器学习实战》学习笔记与代码实现
目录:
- k-近邻算法实现“电影、约会网站、手写数字识别”分类
- 决策树原理及分类实战
- 基于概率论的分类方法:朴素贝叶斯
- logistic逻辑回归、最优化算法
- 支持向量机(SVM)
- 二分K-均值聚类算法
- 使用Apriori算法进行关联分析
- 主成成分分析-PCA(principal component annlysis)
- 奇异值分解-SVD(Singular Value Decomposition)
简介:
1.3机器学习的主要任务
书中基于鸟的四种特征:体重、翼展、脚蹼、后背颜色 来确定这只鸟属于那种类别,这个例子介绍了机器学习如何
解决分类问题,它的主要任务是将实例数据划分到合适的分类中。机器学习的另一项任务是回归,它主要用于预测
数值型数据。大多数人可能见过回归的例子---数据拟合曲线;
分类和回归都是“监督学习”。
无监督学习,数据没有类别信息,也不会给定目标值。在无监督学习中,将数据集合分成由类似的对象组成的多个
类的过程称为“聚类”;将寻找描述数据统计值的过程称之为“密度估计”。此外,无监督学习还可以减少数据特征的
维度,以便我们可以使用二维或三维图形更加直观地展示数据信息
用于执行分类、回归、聚类和密度估计的机器学习算法
监督学习
k-近邻算法 线性回归
朴素贝叶斯算法 局部加权线性回归
逻辑回归 y=wx+b 向量最优化
支持向量机 Ridge回归
决策树 lasso最小回归系数估计
无监督学习
K-均值 最大期望算法
DBSCAN Parzen窗设计
1.4如何选择实际可用的算法,必须考虑下面两个问题:
1.使用机器学习算法的目的,想要算法完成何种任务,比如预测明天下雨的概率还是对投票者按照兴趣分组;
2.需要分析或收集的数据是什么:
如果目标变量是离散型,如是/否、1/2/3、A/B/C、或红/黄/黑等则可以选择分类器算法;
如果目的变量是连续型的数值,如0.0~100.00、-999~999等则需要选择回归算法。
如果不想预测目标变量的值,则可以选择无监督学习算法,进一步分析需要将数据划分为离散的组。
如果唯一的需求就是将一堆杂乱数据分组,则使用聚类算法;
如果还需要估计数据与每个分组的相似程度,则需要使用密度估计算法。
大多数情况下上面的选择方法都能帮助读者选择恰当的机器学习算法。
其实最最重要的问题就是数据,我们应该充分了解数据,对数据了解的越充分,越容易创建符合实际需求的应用程序。