1 统计学习
统计学习由监督学习、非监督学习、半监督学习和强化学习等组成,本书主要讨论监督学习。
1.1 监督学习:
监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。
方法=模型+策略+算法
1.2 三要素
统计学习三要素之一:模型
在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。
统计学习三要素之二:策略
“策略即从假设空间中选取参数最优模型,模型的分类或预测结果与实际情况的误差越小,模型就越好”
损失函数度量模型一次预测的好坏,风险函数(期望损失)即损失函数的期望用来度量平均意义下模型预测的好坏,但风险函数无法计算;
模型关于训练数据集的平均损失称为经验风险(经验损失),当样本数量无限大时,经验损失就趋近于期望损失,但样本数目有限。
经验风险最小化策略:认为经验风险最小的模型是最优模型。样本容量足够大时学习效果好,但样本容量很小时,容易产生过拟合。例极大似然估计。
结构风险最小化(正则化)策略:为了防止过拟合提出的,在经验风险的基础上加上表示模型复杂度的罚项。用大于等于0的系数平衡经验风险和模型复杂度的关系。例贝叶斯估计,正则化是结构风险最小化策略的实现,作用是选择经验风险和模型复杂度同时较小的模型,正则化符合奥卡姆剃刀原理(简单有效“如无必要,勿增实体”)。
这样监督学习问题就转变成为经验风险或结构风险的最优化问题。
统计学习三要素之三:算法
“算法是指学习模型的具体计算方法,也就是如何求解全局最优解,并使求解过程高效,本质就是计算机算法,怎么去求数学问题的最优化解”
正规方程或梯度下降
1.3 统计学习步骤
实现统计学习方法的步骤如下:
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选取的准则,即学习的策略;
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选取最优模型;
(6)利用学习的最优模型对新数据进行预测分析。
2 模型
2.1 模型评估和模型选择:
评估:训练误差和测试误差
选择:正则化和交叉验证(简单交叉验证【训:测=7:3】,s折交叉验证【切分为s个互不相交子集,用s-1训练剩下的测试;将这一过程对可能的s中选择重复进行;选出平均测试误差最小的模型】,留一交叉验证(s=n;数据缺乏使用))或简单分为训练集(训练模型),验证集(模型选择)和测试集(模型评估)
2.2 生成模型和判别模型:
生成方法:由数据学习联合概率分布P(x,y),然后求条件概率分布p(Y|X)作为预测的模型,即生成模型;典型的有:朴素贝叶斯法和隐马尔可夫模型。
特点:(1)还原出联合概率分布(2)学习收敛速度更快,即当样本数量增加时,学习到的模型可以更快的收敛于真实模型(3)当存在隐变量时,仍可以使用生成方法学习。
判别方法:由数据直接学习决策函数f(X)或条件概率分布P(Y|X)作为预测的模型,即判别模型。
特点:(1)直接学习条件概率或决策函数,直接面对预测,往往准确率更高(2)可以对数据进行各种程度的抽象、定义特征并使用特征,简化学习问题。
3 监督学习类型
3.1 分类问题
在监督学习中,当输出变量Y取有限个离散值时,X可以是离散也可以是连续的,预测问题便成为分类问题,本书主要讨论二分类问题。
评价分类器性能的指标一般是分类准确率。
为了解决正负样本不平衡问题,引入精确率与召回率。
“TP-将正类预测为正类数;FN-将正类预测为负类数;FP-将负类预测为正类数;TN-将负类预测为负类数”
精确率定义为:P=TP/(TP+FP)召回率定义为:P=TP/(TP+FN)
但两个指标不好选模型,因此引入F1指标。
F1=2PR/(P+R)
3.2 标注问题
“标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目的在于学习一个模型,使它能够对观测序列给出标记序列作为预测”
标注问题常用的统计学习方法有:隐马尔可夫模型、条件随机场
实例:
1.自然语言处理中的词性标注:给定一个由单词组成的句子,对这个句子中的每一个单词进行词性标注,即对一个单词序列预测其对应的词性标记序列。(单词序列->词性标记序列)
2.信息抽取:从英文文章中抽取基本名词短语,为此要对文章进行标注。标记开始B,结束E,其他O。(英文句子->标记序列)
3.3 回归问题
(函数拟合)选择一条函数曲线使其很好的拟合已知数据且很好地预测未知数据。
最常用的损失函数是平方损失函数,此时可用最小二乘法($ heta=(x^T*X)^{-1}*X^T*y$)或梯度下降法求解。