【吴恩达机器学习笔记】线性回归模型之多变量线性回归

zoukankan html css js c++ java

【吴恩达机器学习笔记】线性回归模型之多变量线性回归
文章目录
1.多变量线性回归模型(Linear Regression with Multiple Variables)
1.1 假设函数(Hypothesis function)
1.2 代价函数(Cost function)
1.3 批量梯度下降法(Batch Gradient Descent Algorithm)
2.梯度下降算法中的实用技巧
2.1 特征缩放(Feature Scaling)
2.1.1 特征缩放目的：
2.1.2特征缩放方法
2.2 选择合适的学习率α
2.2.1 确保梯度下降法正常工作。
2.2.2 如何选择合适的α
3.特征选取和多项式回归
3.1 特征选取
3.2 多项式回归(Polynomial regression)
4.正规方程组(Normal equations)
4.1 正规方程组介绍
4.2 正规方程与梯度下降法的比较
4.3 正规方程的特殊情况(选看)
5.代价函数及梯度下降的python实现(python 3.6)
5.1 代价函数
5.1 梯度下降法
1.多变量线性回归模型(Linear Regression with Multiple Variables)

1.1 假设函数(Hypothesis function)

$h_θ(x) = θ_0 + θ_1x_1 + θ_2x_2 + ... + θ_nx_n$
为了表示方便，定义 $x_0=1(即x_0^{(i)}=1)$ ，从而
$h_θ(x) = θ_0x_0 + θ_1x_1 + θ_2x_2 + ... + θ_nx_n = θ^Tx$
其中θ、x均为(n+1)维的列向量
注：模型参数(Parameters): $θ_1,θ_2,...θ_n o$ θ((n+1)维列向量)

1.2 代价函数(Cost function)

$J(θ) = frac{1}{2m}sum_{i=1}^{m}(h_θ(x^{(i)})-y^{(i)})^2$
其中，θ为m维的向量， $x^{(i)}$ 表示特征向量x在第i条样本的取值， $y^{(i)}$ 则表示第i条样本的标签值。

代价函数的向量形式：
$J(θ) = frac{1}{2m}(Xθ-vec y)^T(Xθ-vec y)$
其中， $X = egin{bmatrix} cdots & (x^{(1)})^T & cdots \ cdots & (x^{(2)})^T & cdots \ & vdots & \ cdots & (x^{(m)})^T & cdots end{bmatrix}, qquad vec y = egin{bmatrix} y^{(1)} \ y^{(2)} \ vdots \ y^{(m)} end{bmatrix}$ , $x^{(i)}$ 为行向量，X为m*(n+1)维的矩阵， $vec y$ 为m维列向量，θ为(n+1)维的列向量。

1.3 批量梯度下降法(Batch Gradient Descent Algorithm)

更新公式：
repeat until convergence{
$θ_j = θ_j - α fracpartial{partial θ_{j}}J(θ)(for j = 0,1,2,...,n+1)$
}(同步更新 $θ_j$ )

将代价函数代入更新公式：
repeat until convergence{
$θ_j = θ_j - α frac{1}{m}sum_{i=1}^{m}(h(θ)(x^{(i)})-y^{(i)})x_j^{(i)}(for j = 0,1,2,...,n+1)$
}(同步更新 $θ_j$ )

进而将假设函数代入更新公式，有更新公式的向量形式：
repeat until convergence{
$θ_{j} = θ_{j} - α frac{1}{m}(Xθ-vec{y})x_j$
}(同步更新 $θ_j$ )
其中， $X = egin{bmatrix} cdots & (x^{(1)})^T & cdots \ cdots & (x^{(2)})^T & cdots \ & vdots & \ cdots & (x^{(m)})^T & cdots end{bmatrix}, qquad vec y = egin{bmatrix} y^{(1)} \ y^{(2)} \ vdots \ y^{(m)} end{bmatrix}$ , $x^{(i)}$ 为行向量，X为m*(n+1)维的矩阵， $vec y$ 、 $x_j$ 为m维列向量，θ为(n+1)维的列向量。

2.梯度下降算法中的实用技巧

2.1 特征缩放(Feature Scaling)

2.1.1 特征缩放目的：

特征缩放即使每个特征的值的范围在一个类似 $-1leq x_{i}leq1$ 的范围内。特征缩放的目的是使梯度下降法收敛得更快一些，因此这个-1和1并不是严格要求，也就是说特征缩放不需要那么精确，即各特征范围在一个相似的范围内即可。例子如下:
$0leq x_{1}leq3 ✔，-2leq x_{2}leq0.5 ✔$
$-100leq x_{3}leq100 ✖(过大)，-0.0001leq x_{3}leq0.0001 ✖(过小)$

2.1.2特征缩放方法

(1)方法一：
$x_i = frac{x_i}{max(x_i)}$
(2)方法二：均值归一化(Mean normalization)
$x_i = frac{x_i - μ_i}{S_i}$
其中 $μ_i$ 为数据集中 $x_i$ 的均值， $S_i$ 为数据集中特征 $x_i$ 的取值范围(即max-min)或者样本中 $x_i$ 的标准差

2.2 选择合适的学习率α

2.2.1 确保梯度下降法正常工作。

如果梯度下降法正常工作的话，每一步迭代之后J(θ)都应下降，如下图

该图主要有两个作用：
(1)看梯度下降法是否正常工作
(2)判断梯度下降法何时收敛(还有一些自动测试是否收敛的方法，例如将代价函数的变化值与某个阀值 $epsilon$ (例如 0.001)进行比较，在某次迭代中变化值小于该阈值 $epsilon$ ，即已收敛。但是选择一个合适的 $epsilon$ 比较困难，故通常用上图判断较好。)

梯度下降算法的每次迭代受到学习率 α 的影响：
- α 过小，梯度下降法收敛会很慢(只要α足够小，J(θ)在每次迭代之后都会变小)
- α 过大，J(θ)不会在每次迭代中都变下，或者收敛很慢，甚至不收敛
2.2.2 如何选择合适的α

通常可以考虑尝试些学习率：
```
   ..., 0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1, ...
```
根据选择的学习率α画出上述J(θ)随着迭代次数变化的图，选择一个使J(θ)快速下降的一个α值，取最大可能值或者比最大可能值略小一些的α值。

3.特征选取和多项式回归

3.1 特征选取

选择合适的特征，有时可以得到更好的模型。数据和特征决定了机器学习的上限,而模型和算法只是逼近这一上限。

3.2 多项式回归(Polynomial regression)

线性回归并不适用于所有数据，有时我们需要曲线来适应我们的数据，比如一个三次方
模型:
$h_θ(x) = θ_0 + θ_1x + θ_2x^2 + θ_3x^3$
只需令 $x_1 = x,x_2 = x^2, x_3 = x^3$ ,则 $h_θ(x) = θ_0 + θ_1x_1 + θ_2x_2 + θ_3x_3$ ,这样即可用多元线性回归方法来求解。

4.正规方程组(Normal equations)

4.1 正规方程组介绍

正规方程组方法是一种求解上述多元线性回归模型中θ的解析解法，对于某些线性回归问题，它会使我们更好地求得θ的最优值。
公式：
$θ = (X^TX)^{-1}X^Ty$
注：
- (1)使用正规方程求解θ时，不用特征缩放
- (2)正规方程原理：令 $fracpartial{partial θ_{j}}J(θ) = 0$ (for every j)解出 $(θ_0, θ_1, ..., θ_n)$ 即θ的最优解。
4.2 正规方程与梯度下降法的比较

总结一下，只要特征变量的数目并不大，正规方程是一个很好的计算参数 θ 的替代方
法。具体地说，只要特征变量数量小于10000，通常使用标准方程法，而不使用梯度下降法。

4.3 正规方程的特殊情况(选看)

正规方程需要求解 $θ = (X^TX)^{-1}X^Ty$ ，但有些时候 $X^TX$ 不可逆：
- (1)有冗余特征(即有线性相关的特征)，此时去掉冗余特征即可。
- (2)特征过多(比如 $mleq n$ ),此时删掉一些特征或者用正则化(regularization)
5.代价函数及梯度下降的python实现(python 3.6)

5.1 代价函数

代价函数的向量形式：
$J(θ) = frac{1}{2m}(Xθ-vec y)^T(Xθ-vec y)$
```
def computeCost(X, y, theta):
	inner = np.power(((X*theta)-y),2)
	Cost = np.sum(inner)/(2*len(X))
    return Cost
```
5.1 梯度下降法

梯度下降法更新公式的向量形式：
repeat until convergence{
$θ_{j} = θ_{j} - α frac{1}{m}(Xθ-vec{y})x_j$
}(同步更新 $θ_j$ )
```
def gradientDescent(X, y, theta, alpha, iters):
    temp = np.matrix(np.zeros(theta.shape))
    parameters = int(theta.ravel().shape[1])
    cost = np.zeros(iters)
    
    for i in range(iters):
        error = (X * theta) - y
        for j in range(parameters):
            term = np.multiply(error, X[:,j])
            temp[0,j] = theta[0,j] - ((alpha / len(X)) * np.sum(term))
        theta = temp
        cost[i] = computeCost(X, y, theta)
    return theta, cost
```
查看全文

相关阅读:
Redis 系列之CentOS下Redis的安装
 Redis 系列之CentOS下Redis的安装
 Redis 系列之CentOS下Redis的安装
 Redis 系列之CentOS下Redis的安装
 55种网页常用小技巧
 xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!

原文地址：https://www.cnblogs.com/siplifyit/p/12109229.html

【吴恩达机器学习笔记】线性回归模型之多变量线性回归

文章目录

1.多变量线性回归模型(Linear Regression with Multiple Variables)

1.1 假设函数(Hypothesis function)

1.2 代价函数(Cost function)

1.3 批量梯度下降法(Batch Gradient Descent Algorithm)

2.梯度下降算法中的实用技巧

2.1 特征缩放(Feature Scaling)

2.1.1 特征缩放目的：

2.1.2特征缩放方法

2.2 选择合适的学习率α

2.2.1 确保梯度下降法正常工作。

2.2.2 如何选择合适的α

3.特征选取和多项式回归

3.1 特征选取

3.2 多项式回归(Polynomial regression)

4.正规方程组(Normal equations)

4.1 正规方程组介绍

4.2 正规方程与梯度下降法的比较

4.3 正规方程的特殊情况(选看)

5.代价函数及梯度下降的python实现(python 3.6)

5.1 代价函数

5.1 梯度下降法