机器学习基本知识
总结自李航《统计学习方法》、周志华《机器学习》和国外书籍《机器学习实战》
一、机器学习基本知识
机器学习的概念这里不再赘述,有很多解释,总的来说,就是从已有经验中总结规律,抽象知识,使其具有基本的判断,推理能力等等的过程。
机器学习有三要素:模型(能够大致拟合问题的假设空间)、策略(从假设空间中选取最优假设的策略)、算法(达到目标的最优化计算算法)
模型中,可以分类为生成式模型(目标条件概率分布,还原联合分布,速度快,隐变量仍适用)和判别式模型(目标函数或者联合分布,准确率高,抽象能力好,简化)
策略中,常用损失函数(loss function代价函数)来度量错误程度,常见的损失函数有0-1损失,平方损失,绝对损失,对数损失,一般用L(Y,p(Y|X))表示。损失中,有期望损失(expected loss/risk)和经验损失(empirical loss/risk),期望误差是泛化能力的体现,数据集足够大的情况下,根据大数定理,经验风险接近于期望风险,由于数据集的缺陷,往往无法直接获得期望损失,且,N为样本容量,d为假设空间样本。机器学习中,有两种策略,经验风险最小化ERM=minRemp和结构风险最小化。条件概率分布、对数似然损失函数的条件下,ERM等价于MLE,条件概率分布、对数似然损失函数,且复杂度由先验概率表示的条件下,SRM等价于MAP。分析SRM的表达式可知,相当于对ERM进行正则化了,正则化是复杂度的递增函数,J(f)表示模型复杂度,而目前大多数机器学习的损失过程都是SRM,就是在经验误差和模型复杂度之间权衡,获得泛化能力很好的模型。
二、相关曲线
正则化的出现是由于欠拟合和过拟合的出现,如图所示:
测试和训练来自于交叉验证,分成训练集,测试集,验证集。验证集用来模型选择,测试集评估模型,训练集用来训练模型。对数据集的操作,还有S-fold,leave-one-out,留出法,自助法。
方差,偏差,泛化误差的关系,如图:
期望泛化误差,偏差表示算法拟合能力,方差表示数据扰动的影响,噪声表示学习的难度,总之,泛化性能=算法能力+数据充分性+本身难度。
,f(x;D)预测输出,yD数据集标记,y真实标记。f^(x)期望预测,关于预测输出的期望值。
P-R曲线用来比较算法的优劣
TP正正;FN正负;FP负正;TN负负;准确率,召回率,此外还有,特别的,
如果算法的PR曲线被其他算法包住,则该算法性能比另一算法差,存在交叉,则通过PR曲线包围的面积来衡量算法优劣,但不好计算,其实通过平衡点(P=R)来表示,平衡点取值大,算法就好。
ROC曲线和AUC曲线:
实际过程中,ROC曲线不会很光滑,得到离散的AUC曲线,对样例进行某种排序,得到AUC曲线,具体请百度
其评判准则和PR曲线一致,依据包围面积来衡量好坏。
总结:一些ML的基本概念,和一些衡量指标,经常用到。