本篇是针对经典教材《机器学习》及DataWhale小组出版的配套工具书《机器学习公式详解》的学习笔记,主要以查缺补漏为主,因此对于一些自己已经熟悉的概念和内容不再进行整理。由于水平实在有限,不免产生谬误,欢迎读者多多批评指正。
第一章 绪论
基本概念
独立同分布:若假设样本空间中的全体样本服从某种(未知的)分布,而我们的每个具体的样本都是通过独立采样获得的,则称这些样本“独立同分布”(independent and identically distributed,简称i.i.d.)。独立同分布是机器学习的基本假设之一。
假设空间与版本空间:在不考虑与观察样本匹配的情况下,针对特征取值组合的所有可能的假设共同构成了假设空间。机器学习的过程可以看作一个在假设空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设。这些与“现实”相符的假设的集合被称为版本空间(version space)。
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好(inductive bias)。归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。
“没有免费的午餐”定理:假设所有“问题”出现的机会相同、或所有问题同等重要,则不同学习算法(甚至包括随机输出的函数)之间的期望性能均相同,这就是“没有免费的午餐”定理(NFL定理)。但是在实际情况中,我们只会关心和研究一部分具体的、与事实符合的问题,此时某些学习算法就会体现出更好的预测和泛化性能。因此脱离具体问题去讨论“什么学习算法更好”是没有意义的。
第二章 模型评估与选择
误差与模型评估
机器学习的最终目标是获得泛化误差小的模型,但由于新样本总是未知的,我们能做的只是最小化模型的经验误差(训练误差)。不过,这样得到的模型尽管在训练集中表现出色,但往往导致过拟合而缺乏良好的泛化能力。为此,我们常常从已知的样本集中划出一部分作为测试集(假设测试集样本也是从样本真实分布中独立同分布采样而得),测试集被用于测试模型对新样本的判别能力,其不应与训练集所含样本类似,以保证对模型泛化能力检测的效果。
参考资料:
- 《机器学习》 周志华 著
- 《机器学习公式详解》 谢文睿 秦州 著
- https://www.bilibili.com/video/BV1Mh411e7VU?p=1 《机器学习公式详解》(南瓜书)与西瓜书公式推导直播合集