- 统计学习由 监督学习,非监督学习,半监督学习和强化学习组成。
- 监督学习方法主要包括 分类、标注 与 回归问题
- 回归问题:输入变量 和 输出变量 均为连续变量的预测问题
- 分类问题:输出变量为有限个离散变量的预测问题
- 标注问题:输入与输出变量均为变量序列的预测问题
- 统计学习三要素:模型,策略,算法
- 损失函数度量模型一次预测的好坏
- 风险模型度量平均意义下模型预测好坏
- 泛化误差反应了学习方法的泛化能力
- 泛化能力是有该方法学到的学习到的模型对位置数据的预测能力
- 泛化误差就是对学习到的模型的期望风险
- 泛化误差上界的性质:
(1)它是样本容量的函数,样本容量增加,泛化上界趋向于0
(2)它是假设空间容量的函数,假设空间越容量大,模型越南学,泛化误差上界就越大。 - 监督学习方法可以分为生成方法和判别方法,所学到的模型分别称为生成模型和判别模型
- 生成方法的特点:
(1)可以还原联合概率分布P(X,Y)
(2)学习收敛速度快 - 判别方法的特点:
(1)直接学习的是条件概率P(Y|X)或决策函数f(X),直接面对预测,准确率更高
(2)可以对数据进行各种程度的抽象、定义特征并使用特征,因此可以简化学习问题 - 分类 是监督学习的一个核心问题
- 评价分类器性能的一般指标是 分类精确率
- 二类分类问题常用的评价指标是精确率和召回率,分类器在测试数据集上的预测或正确或不正确,4种情况出现的总数分别记作
TP------将正类预测为正类数
FN------将正类预测为负类数
FP------将负类预测为正类数
TN------将负类预测为负类数 - 精确率定义:P =
- 召回率定义:R =
- F1是精确率和召回率的调和均值
= +
F1 = - 标注常用的统计学习方法有:隐马尔科夫模型,条件随机场
- 回归模型是表示从输入变量到输出变量之间映射的函数
- 回归问题的学习等价于函数拟合
- 回归问题分为学习和预测两个过程。
- 回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由著名的最小二乘法求解
统计学方法:k近邻法、感知机、朴素贝叶斯法、决策树、逻辑斯蒂回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型、条件随机场。