- Introduction
- 线性回归
- 逻辑回归
- 神经网络
- 算法分析与优化
- SVM(支持向量机)
- K-Means
- 特征降维
- 异常检测
- 推荐系统
- 大规模机器学习
- 案例--光学字符识别
本书为斯坦福吴恩达教授的在 coursera 上的机器学习公开课的知识笔记,涵盖了大部分课上涉及到的知识点和内容,因为篇幅有限,部分公式的推导没有记录在案,但推荐大家还是在草稿本上演算一遍,加深印象,知其然还要知其所以然。
本书涉及到的程序代码均放在了我个人的 github 上,采用了 python 实现,大部分代码都是相关学习算法的完整实现和测试。我没有放这门课程的 homework 代码,原因是 homework 布置的编程作业是填空式的作业,而完整实现一个算法虽然历经更多坎坷,但更有助于检验自己对算法理解和掌握程度。
2. 线性回归
2.1 回归问题
- 积累知识: 我们将储备的知识称之为训练集 Training Set,很好理解,知识能够训练人进步
- 学习:学习如何预测,得到输入与输出的关系。在学习阶段,应当有合适的指导方针,江山不能仅凭热血就攻下。在这里,合适的指导方针我们称之为学习算法 Learning Algorithm
- 预测:学习完成后,当接受了新的数据(输入)后,我们就能通过学习阶段获得的对应关系来预测输出。
- 有手段能评估我们的学习正确性。
- 当学习效果不佳时,有手段能纠正我们的学习策略。
2.2 线性回归与梯度下降
- 特征(feature):xi, 比如,房屋的面积,卧室数量都算房屋的特征
- 特征向量(输入):x,一套房屋的信息就算一个特征向量,特征向量由特征组成,xj(i) 表示第 i 个特征向量的第 j 个特征。
- 输出向量:y,y(i) 表示了第 i 个输入所对应的输出
- 假设(hypothesis):也称为预测函数,比如一个线性预测函数是:
上面的表达式也称之为回归方程(regression equation),θ 为回归系数,它是我们预测准度的基石。
之前我们说到,需要某个手段来评估我们的学习效果,即评估各个真实值 y(i) 与预测值 hθ(x(i)) 之间的差异。最常见的,我们通过最小均方(Least Mean Square)来描述误差:
误差评估的函数在机器学习中也称为代价函数(cost function)。
首先可以明确的是,该手段就是要反复调节 θ 是的预测 J(θ) 足够小,以及使得预测精度足够高,在线性回归中,通常使用梯度下降(Gradient Descent)来调节 θ:
数学上,梯度方向是函数值下降最为剧烈的方向。那么,沿着 J(θ) 的梯度方向走,我们就能接近其最小值,或者极小值,从而接近更高的预测精度。学习率 α 是个相当玄乎的参数,其标识了沿梯度方向行进的速率,步子大了容易扯着蛋,很可能这一步就迈过了最小值。而步子小了,又会减缓我们找到最小值的速率。在实际编程中,学习率可以以 3 倍,10 倍这样进行取值尝试,如:
对于一个样本容量为 mm 的训练集,我们定义 θ 的调优过程为:
重复直到收敛(Repeat until convergence):
我们称该过程为基于最小均方(LMS)的批量梯度下降法(Batch Gradient Descent),一方面,该方法虽然可以收敛到最小值,但是每调节一个 θj,都不得不遍历一遍样本集,如果样本的体积 m 很大,这样做无疑开销巨大。但另一方面,因为其可化解为向量型表示,所以就能利用到并行计算优化性能。
鉴于批量梯度下降的性能问题,又引入了随机梯度下降(Stochastic Gradient Descent):
可以看到,在随机梯度下降法中,每次更新 θj 只需要一个样本:(x(i),y(i))(x(i),y(i))。即便在样本集容量巨大时,我们也很可能迅速获得最优解,此时 SGD 能带来明显的性能提升。
2.3 程序示例--梯度下降
可以看到,bgd 运行的并不慢,这是因为在 regression 程序中,我们采用了向量形式计算 θ,计算机会通过并行计算的手段来优化速度。
在学习率为 0.010.01 时,随机梯度下降法出现了非常明显的抖动,同时,随机梯度下降法的速度优势也并未在此得到体现,一是样本容量不大,二是其自身很难通过并行计算去优化速度。
2.4 正规方程(Normal Equation)
前面论述的线性回归问题中,我们通过梯度下降法来求得 J(θ) 的最小值,但是对于学习率 α 的调节有时候使得我们非常恼火。为此,我们可通过正规方程来最小化 J(θ):
其中,X 为输入向量矩阵,第 0 个特征表示偏置(x0=1),y 为目标向量,仅从该表达式形式上看,我们也脱离了学习率 α 的束缚。
2.5 特征缩放
Standardization 又称为 Z-score normalization,量化后的特征将服从标准正态分布:
其中,μ,δ 分别为对应特征 xi 的均值和标准差。量化后的特征将分布在 [−1,1] 区间。
Min-Max Scaling
Min-Max Scaling 又称为 normalization,特征量化的公式为:
量化后的特征将分布在 [0,1][0,1] 区间。
大多数机器学习算法中,会选择 Standardization 来进行特征缩放,但是,Min-Max Scaling 也并非会被弃置一地。在数字图像处理中,像素强度通常就会被量化到 [0,1][0,1] 区间,在一般的神经网络算法中,也会要求特征被量化到 [0,1][0,1] 区间。
中,我们添加了 Standardization 和 Normalization 的实现:![](https://images.cnblogs.com/OutliningIndicators/ContractedBlock.gif)
2.6 多项式回归
通过程序我们也知道,该函数得到的是直线拟合,精度欠佳。现在,我们可以考虑对房价特征 size 进行平方,以及获得更加精准的 size 变化:
2.7 程序示例--多项式回归
下面,我们有一组温度(temperature)和实验产出量(yield)训练样本,该数据由博客 Polynomial Regression Examples 所提供:
接下来,我们使用了多项式回归,添加了 2 阶项:
因为 x 与 x2 数值差异较大,所以我们会先做一次特征标准化,将各个特征缩放到 [−1,1] 区间
2.8 欠拟合与过拟合
为了解决欠拟合和过拟合问题,引入了局部加权线性回归(Locally Weight Regression)。在一般的线性回归算法中,对于某个输入向量 x,我们这样预测输出 y:
在 LWR 中,我们对一个输入 x 进行预测时,赋予了 x 周围点不同的权值,距离 x 越近,权重越高。整个学习过程中误差将会取决于 x 周围的误差,而不是整体的误差,这也就是局部一词的由来。
通常,w(i) 服从高斯分布,在 x 周围呈指数型衰减:
其中,τ 值越小,则靠近预测点的权重越大,而远离预测点的权重越小。
另外,LWR 属于非参数(non-parametric)学习算法,所谓的非参数学习算法指的是没有明确的参数(比如上述的 θ 取决于当前要预测的 x),每进行一次预测,就需要重新进行训练。而一般的线性回归属于参数(parametric)学习算法,参数在训练后将不再改变。
LWR 补充自机器学习实战一书,后续章节中我们知道,更一般地,我们使用正规化来解决过拟合问题。
2.9 程序示例--局部加权线性回归
现在,我们在回归中又添加了 JLwr()
方法用于计算预测代价,以及 lwr()
在测试程序中,我们分别对 ττ 取值 0.10.1 和 11,得到了不同的拟合曲线:
3. 逻辑回归
3.1 0/1 分类问题
利用线性回归中的预测函数 hθ(x),我们定义阈值函数来完成 0/1 分类:
下面两幅图展示了线性预测。在第一幅图中,拟合曲线成功的区分了 0、1 两类,在第二幅图中,如果我们新增了一个输入(右上的 X 所示),此时拟合曲线发生变化,由第一幅图中的紫色线旋转到第二幅图的蓝色线,导致本应被视作 1 类的 X 被误分为了 0 类:
3.2 逻辑回归
上一节我们知道,使用线性回归来处理 0/1 分类问题总是困难重重的,因此,人们定义了逻辑回归来完成 0/1 分类问题,逻辑一词也代表了是(1)和非(0)。
其中,z=θTx 是分类边界,且 g(z)=1/(1+e−z)。
g(z) 称之为 Sigmoid Function,亦称 Logic Function,其函数图像如下:
可以看到,预测函数 hθ(x) 被很好地限制在了 0、1 之间,并且,sigmoid 是一个非常好的阈值函数:阈值为 0.5,大于 0.5 为 1 类,反之为 0 类。函数曲线过渡光滑自然,关于 0.5 中心对称也极具美感。
决策边界,顾名思义,就是用来划清界限的边界,边界的形态可以不定,可以是点,可以是线,也可以是平面。Andrew Ng 在公开课中强调:“决策边界是预测函数 hθ(x) 的属性,而不是训练集属性”,这是因为能作出“划清”类间界限的只有 hθ(x),而训练集只是用来训练和调节参数的。
对于分类任务来说,我们就是要反复调节参数 θ,亦即反复转动决策边界来作出更精确的预测。假定我们有代价函数 J(θ),其用来评估某个 θθ 值时的预测精度,当找到代价函数的最小值时,就能作出最准确的预测。通常,代价函数具备越少的极小值,就越容易找到其最小值,也就越容易达到最准确的预测。
3.3 利用正规化解决过拟合问题
不放弃特征,而是拉伸曲线使之更加平滑以解决过拟合问题,为了拉伸曲线,也就要弱化一些高阶项(曲线曲折的罪魁祸首)。由于高阶项中的特征 x 无法更改,因此特征是无法弱化的,我们能弱化的只有高阶项中的系数 θi。我们把这种弱化称之为是对参数 θ 的惩罚(penalize)。Regularization(正规化)正是完成这样一种惩罚的“侩子手”。
如下例所示,我们将 θ3 及 θ4 减小(惩罚)到趋近于 0,原本过拟合的曲线就变得更加平滑,趋近于一条二次曲线(在本例中,二次曲线显然更能反映住房面积和房价的关系),也就能够更好的根据住房面积来预测房价。要知道,预测才是我们的最终目的,而非拟合。
为了在最小化 J(θ) 的过程中,也能尽可能使 θ 变小,我们将上式更改为:
其中,参数 λλ 主要是完成以下两个任务:
- 保证对数据的拟合良好
- 保证 θθ 足够小,避免过拟合问题。
λλ 越大,要使 J(θ)J(θ) 变小,惩罚力度就要变大,这样 θθ 会被惩罚得越惨(越小),即要避免过拟合,我们显然应当增大 λλ 的值。