zoukankan      html  css  js  c++  java
  • 机器学习十讲学习笔记第三讲

    点到平面的距离

    • 直线方程:w1x1+w2x2+w0=0w1x1+w2x2+w0=0

    • 点到直线距离d=|w1x1+w2x2+w0|w21+w22√d=|w1x1′+w2x2′+w0|w12+w22

    • 欧式空间超平面:w1x1+w2x2+...+wdxd+w0=0w1x1+w2x2+...+wdxd+w0=0

    • 点到超平面距离:

      d=|w1x1+w2x2+wdxd+w0|w21+w22+...+w2d−−−−−−−−−−−−−−√=wTx+w0||w||2d=|w1x1′+w2x2′+wdxd′+w0|w12+w22+...+wd2=wTx′+w0||w||2

    梯度下降

    • 求解无约束最优化问题的经典方法,机器学习和深度学习中应用最广泛的模型求解算法

    • 如果实值函数g(w)g(w)在点aa处可微且有定义,那么函数g(w)g(w)在点aa处沿着梯度相反的方向g(a)−∇g(a)下降最快

    • 优化问题:

      minwg(w)minwg(w)
    • 假设初始值为w(0)w(0),梯度下降法用以下迭代公式更新参数:

      w(t+1)w(t)ηtg(w(t))w(t+1)←w(t)−ηt∇g(w(t))
    • 其中ηtηt是学习率,取值范围(0,1)(0,1)

    随机梯度下降

    • 机器学习中,优化目标和梯度具有特定结构:
    L(W)=i=1nl(yi,f(xi;w))L(w)=i=1nl(yi,f(xi;w))=i=1nLi(w)L(W)=∑i=1nl(yi,f(xi;w))∇L(w)=∑i=1n∇l(yi,f(xi;w))=∑i=1n∇Li(w)
    • 更新参数只用一个样本的梯度,即随机梯度下降法
    w(t+1)w(t)ηtLi(w(t))w(t+1)←w(t)−ηt∇Li(w(t))
    • 收敛充分条件t=1ηt=∑t=1∞ηt=∞,t=1η2t<η∑t=1∞ηt2<η
    • 需要随着迭代次数的增加降低学习率

    最大似然估计

    • "似然":likelihood可能性
    • 最大似然法,一种求解概率模型参数的方法
    • 最早是遗传学家以及统计学家罗纳德·费雪在1912年至1922年间开始使用
    • 假设有nn个从概率模型pθ(x)pθ(x)独立生成的样本xini=1xii=1n
    • 似然函数L(θ)=ni=1pθ(x)L(θ)=∏i=1npθ(x)
    • 通过最大化L(θ)L(θ)求解模型参数的方法叫做最大似然法
    dNLL(θ)L(θ)=∏θm(1−θ)nNLL(θ)=−mlogθ−nlog(1−θ)dNLL(θ)dθ=−mθ+n1−θ,可得θ=mm+n

    如何做分类

    • 线性回归:f(x)=wTx,y(,+)f(x)=wTx,y∈(−∞,+∞)

    • 二分类中,y1,1y∈−1,1,用回归的方法做分类,在回归结果上添加映射函数H(f)H(f):

      H(f)={+1,f>01,f0H(f)={+1,f>0−1,f≤0
    • HH的其他选择:

      • H(f)=tanh(f)H(f)=tanh(f)
      • H(f)=σ(f)=11+efH(f)=σ(f)=11+e−f

    感知机、支持向量机和逻辑回归

    • 线性可分训练集D=xi,yini=1,y{1,1}D=xi,yii=1n,y∈{−1,1}
    • 感知机:
      • 找到一条直线,将两类数据分开即可
    • 支持向量机:
      • 找到一条直线,不仅将两类数据正确分类,还使得数据离直线尽量远
    • 逻辑回归:
      • 找到一条直线使得观察到的训练集的“可能性”最大

    感知机

    • f(x)=wTx,w=(w1,w2,...,wd,w0)Tf(x)=wTx,w=(w1,w2,...,wd,w0)T为系数,模型为
    y=H(f(x))={+1,wTx>01,wTx0y=H(f(x))={+1,wTx>0−1,wTx≤0
    • 决策超平面为:wTx=0wTx=0
    • 线性可分训练集D=(x1,y1),...,(xn,yn)D=(x1,y1),...,(xn,yn),点(xi,yi)(xi,yi)到决策超平面的距离为
    di=|wTxi|||w||2=yiwTxi||w||2yiwTxi||w||2=1di=|wTxi|||w||2=yiwTxi||w||2→yiwTxi不妨令||w||2=1
    • 优化目标:误分类样本离超平面距离之和最小

    感知机算法

    • 输入:训练数据X,yX,y,学习率ηη,迭代步数TT
    • 初始化参数W(0)W(0)
    • fort=1,...,Tfort=1,...,T
      • 找出误分类样本集合MM;
      • MM中随机采样一个样本ii
      • 更新参数w(t+1)w(t)+ηtyixiw(t+1)←w(t)+ηtyixi
    • 输出ww

    支持向量机

    • 线性可分训练集D=(x1,y1),..,(xn,yn),(xi,yi)D=(x1,y1),..,(xn,yn),点(xi,yi)到决策超平面的距离为di=yiwTxi||w||2di=yiwTxi||w||2

    • 间隔:训练集中离超平面最小距离miniyiwTxi||w||2miniyiwTxi||w||2

    • 间隔最大化

    maxwminiyiwTxi||w||2maxw1||w||2miniyiwTximaxwminiyiwTxi||w||2⇔maxw1||w||2miniyiwTxi
    • 不妨令miniyiwTxi=1miniyiwTxi=1,则上述目标等价于
    maxw1||w||2minw12||w||22maxw1||w||2⇔minw12||w||22
    • 非线性:核技巧,映射trick,将数据点从2维空间映射到3维空间,使得数据线性可分

    逻辑回归

    • f(x)=wTx,w=(w1,w2,...,wd,w0)Tf(x)=wTx,w=(w1,w2,...,wd,w0)T为系数
    • 训练集D={xi,yi}ni=1,y{1,1}D={xi,yi}i=1n,y∈{−1,1},概率解释:
      • p(y=1|x)=11+ewTxp(y=1|x)=11+e−wTx
      • p(y=1|x)=1p(y=1|x)=11+ewTxp(y=−1|x)=1−p(y=1|x)=11+e−wTx
    • 考虑到y{1,1}y∈{−1,1},则样本(xi,yi)(xi,yi)概率为:
    p(yi|xi)=11+eyiwTxi
  • 相关阅读:
    @RequestParam,@PathParam,@PathVariable,@QueryParam注解的使用区别
    关于android studio 出现Error:Execution failed for task ':app:preDebugAndroidTestBuild'. 的解决办法
    opencv:轮廓匹配
    opencv:图像轮廓计算
    opencv:图像轮廓发现
    opencv:联通组件扫描
    opencv:自适应阈值
    opencv:全局阈值
    opencv:二值图像的概念
    opencv:边缘提取
  • 原文地址:https://www.cnblogs.com/52bb/p/14490086.html
Copyright © 2011-2022 走看看