1. 引言
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
在计算机系统中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型(model)”的算法,即“学习算法(learning algorithm)”。
2. 基本术语
(1)数据集(data set):示例(或样本)的集合;
(2)示例(instance)/样本(sample):关于一个事件或对象的描述;
(3)属性(attribute)/特征(feature):反映事件或对象在某方面的表现或性质的事项;
(4)属性值(attribute value):属性上的取值;
(5)属性空间(attribute space)/样本空间(sample space)/输入空间:属性张成的空间;
(6)特征向量(feature vector):由于示例的不同属性有着不同的属性值,在属性空间上每个点都对应一个坐标向量,因此也可把一个示例成为一个特征向量;
(7)维数(dimensionality):每个示例属性描述的个数;
(8)学习(learning)/训练(training):从数据中学得模型的过程,这个过程通过执行某个学习算法来完成;
(9)训练数据(training data):训练过程中使用的数据;
(10)训练样本(training sample):训练数据中的每个样本;
(11)训练集(training set):训练样本组成的集合;
(12)假设(hypothesis):学得模型对应了关于数据的某种潜在规律;
(13)真相/真实(ground-truth):学得模型对应了关于数据的某种潜在规律本身;
(14)学习器(learner):模型;
(15)标记(label):关于示例结果的信息;
(16)样例(example)拥有了标记信息的示例;
(17)标记空间(label space)/输出空间:所有标记的集合;
(18)分类(classification):欲预测的是离散值的学习任务
①二分类(binary classification):只涉及两个类别的分类,通常称其中一个类为“正类”(positive class),另一个类为“反类”(negative class),样本空间通常为Y={-1,+1}或{0,1};
②多分类(multi-class classification):设计多个类别的分类,样本空间通常为|Y|>2;
(19)回归(regression):欲预测的是连续值的学习任务,样本空间通常为Y=R,R是实数集;
(20)测试(testing):学得模型后使用其进行预测的过程;
(21)测试样本(testing sample):预测时被预测的样本;
(22)聚类(clustering):将训练集中的样本分成若干组,每个组称为一个“簇”(cluster);
(23)监督学习(supervised leaning)/有导师学习:如分类和回归;
(24)无监督学习(unsupervised learning)/无导师学习:如聚类;
(25)泛化(generalization):学得模型适用于新样本的能力。
3. 假设空间
(1)归纳(induction):从特殊到一般的“泛化”(generalization)过程,即从具体的事实归结出一般性规律;
(2)演绎(deduction):从一般到特殊的“特化”(specialization)过程,即从基础原理推演出具体状况;
(3)归纳学习(inductive learning):广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念(concept),因此亦称为“概念学习”或“概念形成”;
我们可以把学习过程看作一个在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”(fit)的假设,即能够将训练集中的样本判断正确的假设。
(4)版本空间(version space):存在着一个与训练集一致的“假设集合”。
4. 归纳偏好
(1)归纳偏好(inductive bias)/偏好:机器学习算法在学习过程中对某种类型假设的偏好;
任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习效果。
(2)奥卡姆剃刀(Occam’s razor):一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”;
归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设。在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能够取得好的性能。
(3)没有免费的午餐(No Free Lunch Theorem):由于所有可能函数的相互补偿,最优化算法的性能是等价的。该定理暗指,没有其他任何算法能够比搜索空间的线性列举或者纯随机搜索算法更优。该定理只是定义在有限的搜索空间,对无限搜素空间结论是否成立尚不清楚。
5. 发展历程
(1)20世纪50-70年代初:推理期。那时人们以为只要能赋与机器逻辑推理能力,机器就具有智能;
(2)20世纪70年代中期开始:知识期。要使机器具有智能,就必须设法使机器拥有知识;
(3)20世纪80年代开始:广义的归纳学习(涵盖了监督学习、无监督学习等)
①20世纪80年代:符号主义学习。其代表包括决策树(decision tree)和基于逻辑的学习;
典型的决策树学习以信息论为基础,以信息熵的最小化为目标,直接模拟了人类对概念进行判定的树形流程。
基于逻辑的学习的著名代表是归纳逻辑程序设计(Inductive Logic Programming,简称ILP),ILP具有很强的知识表达能力,可以较容易地表达出复杂数据关系,而且领域知识通常可方便得通过逻辑表达式进行描述。
②20世纪90年代中期之前:基于神经网络的连接主义学习。与符号主义学习能产生明确的概念表示不同,连接主义学习产生的是“黑箱”模型,其最大的局限是“试错性”;
③20世纪90年代中期:统计学习(statistical learning)。代表性技术是支持向量机(Support Vector Machine,简称SVM)以及更一般的“核方法”(kernel methods)。
6. 应用现状
(1)应用计算机科学的诸多分支学科领域;
(2)为交叉学科提供重要技术支撑
数据库领域的研究为数据挖掘提供数据管理技术,而机器学习和统计学的研究为数据挖掘提供数据分析技术。统计学主要是通过机器学习对数据挖掘发挥影响,而机器学习领域和数据库领域则是数据挖掘的两大支撑。
总结体会
机器学习通过对于输入的足够多的样本进行数据计算、分析,然后得出一个具有对这种类型的样本值普遍适应的模型,这种模型能够对于新的测试样本值进行分析从而得出合理的预测值。机器学习的重点与难点,就是如何通过数据得出模型,这也是需要长期研究和学习的。
本章的学习让我了解到什么是机器学习,以及机器学习的基本术语与研究方法,希望通过今后的学习,能够更深刻地理解到机器学习的精髓。