1.监督学习(supervised learning)&非监督学习(unsupervised learning)
监督学习:处理具有若干属性且返回值不同的对象。分为回归型和分类型:回归型的返回值是连续的,分类型的返回值是离散的。
非监督学习:将具有若干属性的相同对象分为不同的群体。
2.线性回归模型(监督学习)
2.1 一些符号
m——训练样本数目
x——输入变量
y——输出变量
(x,y)——一个训练样本
(x(i),y(i))——第i个训练样本
h——假设(hypothesis)——预测函数
n——训练样本特征数目
$x_{i}$——训练样本的第i个特征对应的向量
$x^{(i)}$——第i个训练样本所有特征对应的向量
$x_{j}^{(i)}$——第i个训练样本的第j个特征
2.2 cost function
$Jleft ( heta _{0}, heta _{1} ight )= frac{1}{2m}sum_{i=1}^{m}left ( h_{ heta }left ( x^{(i)} ight )-y^{(i)} ight )^{2}$
$h_{ heta }(x)= heta _{0}+ heta _{1}x$
2.3 梯度下降算法(gradient descent)
2.3.1 单特征:
$ heta _{i}:= heta _{i}-alpha frac{partial }{partial heta _{i}}Jleft ( heta _{0}, heta _{1} ight ) (simultaneously for i=0 and i=1)$
$Jleft ( heta _{0}, heta _{1} ight )= frac{1}{2m}sum_{i=1}^{m}left ( h_{ heta }left ( x^{(i)} ight )-y^{(i)} ight )^{2}$
$h_{ heta }(x)= heta _{0}+ heta _{1}x$
即
$ heta _{0}:= heta _{0}-alpha frac{1}{m}sum_{i=1}^{m}left (h_{ heta }(x^{(i)})-y^{(i)} ight )$
$ heta _{1}:= heta _{1}-alpha frac{1}{m}sum_{i=1}^{m}left (h_{ heta }(x^{(i)})-y^{(i)} ight )cdot x^{(i)}$
2.3.2 多特征:
$ heta _{i}:= heta _{i}-alpha frac{partial }{partial heta _{i}}Jleft ( heta ight ) (simultaneously for i=0 to n)$
$ heta = egin{pmatrix} heta _{0}
\ heta _{1}
\ heta _{2}
\...
\ heta _{n}
end{pmatrix}$
$x^{(i)} = egin{pmatrix}x_{0}^{(i)}
\x_{1}^{(i)}
\x_{2}^{(i)}
\...
\x_{n}^{(i)}
end{pmatrix}(x_{0}^{(i)}=1)$
$Jleft ( heta ight )= frac{1}{2m}sum_{i=1}^{m}left ( h_{ heta }(x^{(i)})-y^{(i)} ight )^{2}$
$h_{ heta }(x^{(i)})= heta ^{T}x^{(i)}$
即
$ heta_{j}:= heta_{j}-alpha frac{1}{m}sum_{i=1}^{m}(h_{ heta}(x^{(i)})-y^{(i)})cdot x_{j}^{(i)}$
2.3.3
批处理梯度下降("Batch" Gradient Descent):梯度下降的每一步都要用到所有训练样本的数据
2.4 优化方法
2.4.1 特征缩放(feature scaling)
$x_{j}^{(i)}:=frac{x_{j}^{(i)}-mu_{j}}{S_{j}}$
$mu_{j}$为训练样本的第j个特征的平均值
$S_{j}$为训练样本的第j个特征的标准差(max-min)
2.4.2
(1)工作正确性检验
随着迭代次数(iteration)的增加,代价函数$J( heta)$不可能增加
当$J( heta)$减少量小于$varepsilon $时,认为代价函数已收敛
(2)学习速率($alpha$)选取
$alpha$过小:收敛过慢
$alpha$过大:无法保证每次迭代$J( heta)$都不增加;无法保证收敛(solution:减小$alpha$)
3 多项式回归
3.1
直接把f(x)作为一个整体当成$x^{(i)}_{j}$,即可把非线性回归转化为线性回归
3.2 数学方法直接求出最优解
3.3