【机器学习基础】
模型的 vc dimension 如何衡量?
如何根据网络结构衡量模型容量?有效容量和模型容量之间的关系?
统计学习理论中边界不用于深度学习之中,原因?
1、边界通常比较松,
2、深度网络的容量估计非常困难,主要原因是受优化算法的能力限制!
深度学习中正则化:偏向于范数较小的权重!原因?
validation集必要的原因!超参数的存在。
超参数的必要性:
1、很难优化(情况少见)
2、是控制模型容量的参数,不能放入train set优化,否则结论一定是模型越复杂越好。
验证集存在的意义在于挑选超参数。
偏差和方差:
最小化的是均方误差,也就是偏差 + 方差,在欠拟合阶段,偏差比较高,在过拟合截断,方差比较高。
监督学习:
大部分基于估计概率分布 p(y|X),
例如,对于线性回归来说,p(y|X; theta) = N(y: theta . x, I)
支持向量机:重要创新 核技巧。
深度学习的挑战:
1、维数灾难:随着X维数的增长,在一些高维区域中没有点。
2、先验:复杂任务先验不一定平滑,可能引入不平滑的先验来解决统计问题。
3、流形学习: