一.机器学习(machine learning)
1.它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能
2.研究的主要内容是学习算法(learning algorithm)(在计算机上从数据中产生模型(model)或者说学习器(learner)的算法)
3.简而言之,机器学习:根据已有的经验(旧的数据),生成一个包含参数的学习模型,要求面对新的情况时(新的数据),该学习模型能表现良好
4.假设用 P 来评估计算机程序在某任务类 T 上的性能,若一个程序通过利用经验 E 在 T 中任务上获得了性能改善,则我们就说关于 T 和 P ,该程序对 E 进行了学习
二.基本术语
1.关于数据
(1)特征向量(feature vector)、样本(sample)、示例(instance)、记录:对于一个事件或对象的描述
(2)数据集:记录的集合
(3)特征(feature)、属性(attribute):反映事件或对象在某方面的表现或性质的事项
(4)属性空间、样本空间、输入空间:属性张成的空间
(5)例:D={(色泽=青绿,敲声=清脆),(色泽=浅白,根蒂=蜷缩)}表示一个关于西瓜的数据集,其中有两个样本,有三个属性,属性空间是以三个属性(色泽,根蒂,敲声)为三个坐标轴张成的三围空间
(6)标记(label):关于示例结果的信息,
(7)样例(example):拥有标记信息的示例
(8)输出空间、标记空间(label space):所有标记张成的空间
(9)例:D={((色泽=青绿,敲声=清脆),好瓜),((色泽=浅白,根蒂=蜷缩),坏瓜)}表示一个关于西瓜的数据集,其中有两个样例,有三个属性,有两种标记,这两个标记的集合也被称为标记空间
2.关于训练:根据训练数据学习算法
(1)学习(learning)、训练(training):从数据中学的模型的过程,通过执行某个学习算法来完成,训练时对应有训练集,训练数据,训练样本
(2)假设(hypothesis):学的模型对应了关于数据的某种潜在规律
(3)真相、真实(ground-truth):潜在规律自身
3.关于预测:根据模型,测试新数据
(1)测试(testing):学的模型后,使用其进行预测的过程
(2)测试样本(testing sample)、测试示例、测试例:被预测的样本
4.经验风险最小化:检查多个样本并尝试找出可最大限度地减少损失的模型
5.损失:是对糟糕预测的惩罚,是一个数值,表示对单个样本而言模型预测的准确程度
(1)如果模型预测完全准确,则损失为0
(2)线性回归训练模型的目标是从所有样本中找出一组平均损失较小的权重和偏差
(3)损失函数:L1损失:基于模型预测的值与标签的实际值之差的绝对值;平方损失(L2损失):每个样本的平均平方损失(均方误差MSE)
三.机器学习的分类
1.监督学习(supervised learning):训练数据有标记信息
(1)分类:标记信息呈现离散状态。KNN、朴素贝叶斯、逻辑回归、随机森林、支持向量机、决策树、神经网络
(2)回归:标记信息呈现的是连续值。线性回归、Adaboost、Gradient Boosting、神经网络
2.无监督学习(unsupervised learning):训练数据无标记信息,给定一些数据,自动找出数据的结构、规律,关联规则的抽取
(1)聚类:自动对数据进行分类,手动给定类的标记,
3.半监督学习(Semi-Supervised Learning):是监督学习与无监督学习相结合的一种学习方法。使用大量未标记的数据以及少量标记数据。
4.强化学习 (Reinforcement Learning, RL):解决计算机从感知到决策控制的问题,强调基于环境而行动,已取得最大化利益,一般用于需要连续决策的领域。
四.机器学习的目标
1.使学得的模型能很好的适用于新样本,而不仅仅在训练样本上工作的很好
2.泛化(generalization)(从特殊到一般):学得模型的适用于新样本的能力
3.一般来说,训练样本越多,得到的信息越多,越有可能得到强泛化能力的样本
五.假设空间
1.归纳学习:从具体的事实归结出一般性规律
2.机器学习是从样本中学习,显然是归纳学习
3.假设空间:所有假设组成的空间,通常来说特别大,比如三个属性分别有3,3,4种可能取值,则面临的假设空间规模为:4*4*5+1=81,(因为要加上∅)
4.版本空间:可能有多个假设与训练集一致,则存在一个与训练集一致的‘假设集合‘,称之为版本空间
六.归纳偏好
1.归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好
2.比如:存在多个模型能反映训练样本,但是他们对于新的样本却又不同的输出,表示不同模型对不同假设的偏好
3.奥卡姆剃刀原则(Occam's razor):若有多个假设与观察一致,则选最简单的那个
4.‘没有免费的午餐’定理(No Free Lunch Theorem)(NFL):在所有问题同等重要的情况下,无论学习算法怎样,他们的期望性能相同
5.总结:要结合具体的问题,对比学习算法的性能,因为在某些问题上表现良好的学习算法,在其他问题上可能表现很糟糕