正规函数
标签(空格分隔): 正规函数 吴恩达
正规函数是除了梯度下降之外,另一种求解最优值的方法。
本篇博客首先介绍正规函数方法,然后将其与梯度下降做一对比。
对于(m)个训练数据((x^{(1)},y^{(1)}),cdots,(x^{(m)},y^{(m)})), (n)个特征,可以抽取出如下形式:
[X=egin{bmatrix} x^{(1)}_0 & x^{(1)}_1 cdots & x^{(1)}_n \\ x^{(2)}_0 & x^{(2)}_1 cdots & x^{(2)}_n \\ vdots & vdots & vdots \\ x^{(m)}_0 & x^{(m)}_1 cdots & x^{(m)}_n
end{bmatrix}]
[y = egin{bmatrix} y^{(1)} \\ vdots \\ y^{(m)} end{bmatrix}
]
则求解过程等价于解方程:
[X heta = y
]
这个方程的解为:
[ heta = (X^TX)^{-1}X^Ty
]
此处只给出结论,并不做证明(事实上是因为我不会。。),但有几点需要说明:
- ((X^TX)^{-1})可能不存在,但在实际的机器学习中这种情况很少见,如果出现,通常要么是有冗余属性(例如,房子面积出现了两次,一次以平方米为单位,一次以平方英尺为单位),要么是训练集数据规模远小于属性个数。
- 一些数值方法能给出逆矩阵的近似解(或者广义逆)。
正规矩阵跟梯度下降对比如下:
梯度下降 | 正规函数 |
---|---|
需要选则参数 $alpha $ | 不需要选则参数 |
需要多次迭代 | 不需要多次迭代 |
当数据规模较大时,依然有效 | 当数据规模较大时,运算量太大 |