- 1. 模型选择的典型方法是正则化与交叉验证
正则化: 正则化是结构风险最小化策略的实现,是在经验风险上加上一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如正则化项可以是模型参数向量的范数。
正则化的作用: 选择经验风险与模型复杂度同时较小的模型
交叉验证: 在数据充足的情况下,会直接将数据分为训练集、验证集、测试集。
训练集用于训练模型,验证集用于选择模型,测试集用于对模型进行评估。通常的情况下,会选择对验证集有最小预测误差的模型。
- 2. 生成模型与辨别模型
生成模型:由数据学习联合概率分布p(x,y), 然后求出条件概率分布p(y|x),作为预测的模型。之所以成为生成方法,是因为模型给定了输入X产生输出y的生成关系。典型的模型为朴素贝叶斯和马尔科夫模型
生成学习的特点:(1)可以还原出联合概率分布p(x,y),而辨别方法不能。(2)生成学习的学习收敛速度更快,即但样本量增加的时候,学到的模型可以跟快地收敛于真实模型。(3)当存在隐变量时,仍可以用生成方法学习,此时辨别方法就不能用。
辨别模型:有数据直接学习决策函数f(x)或条件概率分布p(y|x)作为预测的模型。
辨别模型的特点:(1)直接面对预测,往往准确率更高(2)可以对数据进行各种程度上的抽象,定义特征并使用特征,可以简化学习问题