模型估计与模型选择
模型估计
当损失函数给定时,基于损失函数的模型的训练误差和模型的测试误差就成为了学习方法评估的标准。测试误误差反映了学习方法对未知的测试数据集的预测能力,又被称为泛化能力。
过拟合:一味的追求提高训练数据的预测能力,所选模型的复杂度则往往会比真模型更高,但会造成过拟合。为了防止过拟合,进行选出最优的模型,以便于选出误差最小的模型,使用正则化和交叉验证。
正则化
是结构风险最小化策略的实现。一般是模型复杂度的单调递增函数,模型越复杂,正则化项就越大。
有L1范式和L2范式
! L1和L2对比
交叉验证
如果给定的样本数据充足,进行模型的选择的一种简单方法是随机地将数据集切分为三部分,分为训练集、验证集和测试集。
1.简单交叉验证
首先随机地给数据分成训练集和测试集,然后用训练集在各种参数下进行训练模型,从而得到不同的模型,在测试集上评价各个模型的测试误差,选出测试误差最小的模型。
2.S折交叉验证
首先随机地将已给的数据切分为S个互不相交、大小相同的子集;然后用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重读进行,最后选出S次评测中平均测试误差最小的模型。
泛化能力
是指该方法学习得到的模型对未知数据的预测能力,是学习方法本质上重要的性质,现实中采用最多的方法是通过测试误差来评价学习方法的泛化能力。
泛化误差上界:它是样本容量的函数,当样本容量增加时,泛化上界趋于0;它是假设空间容量的函数,假设空间容量大,模型就越难学,泛化误差就越大。
生成模型与判别模型
1.判别模型由数据直接学习决策函数或条件概率分布作为预测的模型,称为判别模型。主要关心给定输入X,应该 预测 什么样的输出Y,典型例子有:k近邻、感知机、决策树、逻辑斯蒂回归、最大熵模型、支持向量机、提升方法和条件随机场等。
2.生成模型:由数据学习联合概率分布,然后求出条件概率分布P(X|Y)作为预测的模型。因为模型表示了给定X 产生 输出Y的生成关系,典型的有朴素贝叶斯、隐马尔可夫模型
监督学习的应用
分类问题
精确率、召回率、覆盖率
TP-将正类预测为正类数
FN-将正类预测为负类数
FP-将负类预测为正类数
TN-将负类预测为负类数
精确率:TP/(TP+FP)
召回率:TP/(TP+FN)
精确率和召回率的调和均值:2TP/(2TP+FP+FN)
标注问题
标注问题在信息提取、自然语言处理等领域被广泛应用,是这些领域的基本问题。例如,在自然语言处理中的词性标注就是一个典型的标注问题,给定一个由单词组成的句子,对这个句子中的每一个单词进行词性标注,即对一个单词序列预测其对应的词性标记序列。
常见的有:隐马尔可夫模型、条件随机场
回归问题
回归模型正是表示从输入变量到输出变量之间映射的函数。回归学习常见的损失函数是平方损失函数,在此情况下,回归问题可以由著名的最小二乘法求解。