zoukankan html css js c++ java

3. Linear Regression with Multiple Variables

前面还有一章主要讲解，基本的Linear Algebra线性代数的知识，都比较简单，这里就直接跳过了。

Speaker: Andrew Ng

1. Multiple featues

训练集的特征变成了多个，就是有多个 $x$ 的输入变量，对应一个 $y$ 的输出变量，但仍然是线性的关系。

其中columns为 n 类特征，rows为 m 个samples， $x^{(i)}$ 代表 i 个sample数据， $x_{j}^{(i)}$ 代表第 i 个sample数据的第 j 个特征的值。

接下来我们定义在多变量下的 $h_ heta(x)$ ：

$h_ heta(x)= heta_0x_0+ heta_1x_1+...+ heta_nx_n$

其中针对通常的情况认为 $x_0$ 为1，这里通过向量表示为：

$heta=egin{bmatrix} heta_0\ heta_1\...\ heta_nend{bmatrix}$ $X=egin{bmatrix}x_0\x_1\...\x_nend{bmatrix}$

那么 $h_ heta(x)= heta^{T}X=X^{T} heta$

2. Gradient descent for multiple variable

下面来看一下多变量下梯度下降算法的定义：

Hypothesis : $h_ heta(x)= heta_0x_0+ heta_1x_1+...+ heta_nx_n$

Parameters : $heta_0, heta_1,..., heta_n$ 共n+1个参数

Cost Function : $J( heta)=J( heta_0, heta_1,..., heta_n) = frac{1}{2m}sum_{i=1}^{m}(h_ heta_(x^{(i)})-y^{(i)}))^{2}$

Gadient Descent :

Repeat {

$heta_j:= heta_j-alpha frac{partial}{partial heta_j} J( heta)$ simultaneously update for every $j=0,1,...,n$

}

原来单变量的梯度下降算法与现在对变量的梯度下降算法比较，最关键的就是一定要同时进行更新。

3. Gradient descent in practice I : Feature Scaling

这部分主要讲解Feature Scaling特征尺度对于梯度下降算法的影响。

如果对于sample中的不同特征所处的范围差异很大，就像左图所示，那么使用梯度下降算法需要很长的时间才能找到局部最优解。

如果对于sample中的特征尺度进行数据标准化处理，例如把特征值处理到-1到1的范围内，那么梯度下降算法找寻局部最优解的时间就会大大减少。

在PPT中数据标准化的处理方法如下， $x_i:=frac{x_i-mu_i}{s_i}$ ，其中 $s_i$ 是range (max-min) , 或者是 $x_i$ 的标准差Standard Deviation.

其他的数据标准化处理搜索可以找到很多，这里

4. Gadient descent in pratice II : Learing rate

梯度下降：

$heta_j:= heta_j-alpha frac{partial}{partial heta_j} J( heta)$

怎样保证梯度下降算法是正确在运行的，如何去选择一个合适的Learning Rate。

梯度下降算法收敛所需要的迭代次数是根据不同的模型而不同，通过绘制代价函数和迭代次数的关系图，或是把代价函数的变化值同阈值作比较，例如0.001，来判断收敛。

梯度下降算法还受到Learnin rate的影响，如果 $alpha$ 过小，收敛速度会非常慢，需要迭代很多次，如果 $alpha$ 过大，迭代可能使代价函数不收敛跳过局部最优值。

通常可以尝试以下的Learning rate: ..., 0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1, ...

5. Features and polynomial regression

这里讲解多项式回归。对于线性回归可能并不能应用到所有数据，有些模型可能需要曲线来进行回归。比如Quadratic二次或Cubic三次模型。

例如: $h_ heta(x)= heta_0x_0+ heta_1x_1+ heta_2x_2^{2}+ heta_3x_3^{3}$ 以及下图所示

我们可以令 $X_2=x_2^{2},X_3=x_3^{3}$ ，这样又变成了线性回归模型。当采用梯度下降时候，要记得进行特征尺度变换。

6. Normal equation

Normal equation是从线性代数的角度来求解方程，找到代价函数最小的参数，即求解

$frac{partial J( heta)}{partial heta}=0$

即希望 $H_ heta(x)=y$ ，那么我们的训练矩阵为 $X$ ，训练集结果为 $y$ ，那么可以进行如下推导:

$X^{T} heta=y$

$XX^{T} heta=Xy$ (两边同乘以 $X$ 化为方阵)

$(XX^{T})^{-1}(XX^{T}) heta=(XX^{T})^{-1}Xy$ (两边同乘以 $(XX^{T})^{-1}$ )

即 $heta=(XX^{T})^{-1}Xy$ 。

这里需要注意的是， $XX^{T}$ 可能是奇异矩阵、不可逆矩阵，一般使用Matlab或Octave时候使用pinv伪逆来进行计算。

如果遇到不可逆，我们可以考虑精简特征表示，或者特征太多(m <= n) ，而sample比较少，那么考虑删除特征，或者采用Regularization方式。

下面是对梯度下降算法和Normal equation的方法进行对比：


Gradient Descent	Normal Equation
需要选择合适的Learning rate	不需要设置参数
需要多次迭代Iteration	一次运算得到结果
可以适用于特征数量n很大的情况	如果特征数量n很大，运算时间代价就会很大，因为矩阵逆的计算时间复杂度为O（n^3）通常来说对于n小于10000可以考虑使用Normal Equation
适用于各种类型的模型	适用于线性模型，不适合逻辑回归模型或一些其他模型

参考：

http://files.cnblogs.com/gyj0715/courseramlnotes.pdf

http://www.cnblogs.com/elaron/archive/2013/05/20/3088894.html

查看全文

相关阅读:
（转载）VS2010/MFC编程入门之十九（对话框：颜色对话框）
（转载）VS2010/MFC编程入门之十八（对话框：字体对话框）
（转载）VS2010/MFC编程入门之十七（对话框：文件对话框）
（转载）VS2010/MFC编程入门之十六（对话框：消息对话框）
VS2010/MFC编程入门之十四（对话框：向导对话框的创建及显示）
（转载）VS2010/MFC编程入门之十五（对话框：一般属性页对话框的创建及显示）
（转载）VS2010/MFC编程入门之十三（对话框：属性页对话框及相关类的介绍）
Android笔记之AsyncTask
Android笔记之线程使用
 Android笔记之活动指示器使用

原文地址：https://www.cnblogs.com/tiny656/p/3602181.html