【统计学习】随机梯度下降法求解感知机模型

zoukankan html css js c++ java

【统计学习】随机梯度下降法求解感知机模型

1. 感知机学习模型

感知机是一个二分类的线性分类问题，求解是使误分类点到超平面距离总和的损失函数最小化问题。采用的是随机梯度下降法，首先任意选取一个超平面w0和b0，然后用梯度下降法不断地极小化目标损失函数，极小化过程中不是一次使所有误分类点的梯度下降，而是一次随机选取一个误分类点使其梯度下降。假设误分类点集合M是固定的，那么损失函数L(w,b)的梯度：

随机选取一个误分类点，对w和b进行更新：

其中n是步长，又称为学习率(learning rate)，这样通过迭代可以使损失函数L(w,b)不断减小，直到训练集中没有误分类点。直观的解释：当一个实例点被误分类，即位于超平面的错误一侧时，则调整w和b的值，使分离超平面向该误分类点的一侧移动，以减少该误分类点与超平面间的距离，直至超平面越过该分类点使其正确分类[1]。注意：当训练数据集线性可分时，这个迭代是收敛的，也就是经过有限次数的迭代是可以找到最优的超平面的[1]。下面就详细讲解这个迭代的过程。

2.感知机算法的原始形式

输入：

训练数据集 T={(x₁,y₁),(x₂,y₂),...,(x_n,y_n)}，其中x₁∈Rⁿ，y_i={+1,-1},i=1, 2, ..., n，学习率η(0 < η<= 1)

输出：

w, b；感知机模型 f(x) = sign(w·x + b)

过程:

1，选取初值w, b

2，在训练集中取数据(x_i,y_i)

3，若 y_i(w·x_i+ b) <= 0 即分类不正确，则：

w= w + ηy_ix_i

b= b + ηy_i

注：因为此时分类不对，所以y_i= -1

4，转至步骤2，直到训练数据集中无误分类点

3.感知机算法的对偶形式

在原始形式中有公式：

w= w + ηy_ix_i

b= b + ηy_i

那么假设一共修改了n次，则w，b关于(x_i⁽¹⁾,x_i⁽²⁾)的增量分别为：

a_iy_ix_i和 a_iy_i(a_i= n_iη)

即：

若η=1，则a_i就是第i个点由于误分类而进行更新的次数，即a_i = n_i。

a_i越大 => 实例点更新次数越多 =>越难正确分类，换句话说：这样的实例对学习结果影响更大！

算法如下：
输入：

线性可分数据集 T={(x₁,y₁),(x₂,y₂),...,(x_n,y_n)}，其中x₁∈Rⁿ，y_i={+1,-1},i=1, 2, ..., n，学习率η(0 < η<= 1)

输出：

感知机模型 f(x) = sign( a_iy_ix_i·x + b)

过程:

1，令a = 0，b = 0

2，在训练集中取数据(x_i,y_i)

3，若

则：

a_i= a_i + η

b= b + ηy_i

4，转至2直到无误分类数据

而由于对偶形式的训练实例仅以内积形式出现

所以我们预先将训练集中实例间的内积计算出来并以矩阵形式存储，即：产生Gram矩阵（格拉姆矩阵）

G = [ x_i, y_i ]_n*n

[1] 李航，《统计学习方法》，第2章，2.3节

查看全文

相关阅读:
Linux kernel 之 uart 驱动解析
 按键驱动程序（异步通知）
常用Linux运维命令
 进程上下文、中断上下文及原子上下文
 Linux 设备驱动开发 —— platform设备驱动应用实例解析
 C++中rapidxml用法及例子（源码）
hpp.h与.h的区别
 使用Visual Studio扩展插件Visual assist X给代码插入注释模板
 VC++ MFC SDI/MDI Ribbon程序的停靠窗格被关闭后如何再次显示
 “ping某个IP地址，如果ping不通则在dos窗口或弹出MsgBox提示原因”的批处理bat命令

原文地址：https://www.cnblogs.com/tenderwx/p/6680119.html

【统计学习】随机梯度下降法求解感知机模型

1. 感知机学习模型

2.感知机算法的原始形式

3.感知机算法的对偶形式