zoukankan      html  css  js  c++  java
  • [机器学习实战] Logistic回归

    1. Logistic回归:

      1)优点:计算代价不高,易于理解和实现;

      2)缺点:容易欠拟合,分类精度可能不高;

      3)适用数据类型:数值型和标称型数据;

    2. 分类思想:

      根据现有数据对分类边界线建立回归公式,以此进行分类。

      这里借助sigmoid函数,其特点为当z为0时,sigmoid函数值为0.5;随着z的增大,对应的sigmoid值将逼近1;

      而随着z的减小,sigmoid值将逼近0。

        σ(z) = 1/(1 + e-z)

      上述 z = w0x0 + w1x+ w2x+ .... + wnxn,其中x是分类器的输入数据(即特征数据),w是要计算的最佳参数。

      利用sigmoid函数性质,当sigmoid值大于0.5则被分到类1,当sigmoid值小于0.5则被分到0。那么上述问题就可以抽象为

      当w0,w1,w2...wn为何值时(即最佳回归系数),可以满足对于任意一条特征数据,将数据带入simoid函数可以获得分类。

      对于w(最佳回归系数)来说,可以使用梯度上升算法进行计算,梯度上升算法的迭代公式:

        w := w + φΔwf(w)

      该公式将一直被迭代,直到停止条件,比如迭代次数达到指定值。其中φ称为步长,Δwf(w)总是指向函数值增长最快的方向。

      理论上最终平衡时,w + φΔwf(w) ≈ w,即收敛变得稳定。

    3. 一般流程:

      1)收集数据:采用任意方法收集数据;

      2)准备数据:由于涉及距离计算,需要数据类型为数值型;

      3)分析数据:任意方法;

      4)训练数据:为了找到最佳分类回归系数;

        a. 使用梯度上升算法:

          

        b. 使用随机梯度上升算法:

          

        随机梯度上升算法与梯度上升算法效果相当,但占用更少的计算资源,刺猬,随机梯度上升是一个在线算法,

        它可以在新数据来到时完成参数更新,不需要重新读取整个数据集来进行批处理运算。

      5)测试算法:

      6)使用算法:输入数据。  

    4. 应用:

      从疝气病症预测马的死亡率。

  • 相关阅读:
    4/5邀请赛的选拔赛,闷声滚大粗
    4.5邀请赛的选拔赛,闷声滚大粗
    hdu3068&&hdu3294,回文串,Manacher算法
    hdu3068&&hdu3294,回文串,Manacher算法
    BC78,hdu5655,5656。%%%%CA娘
    BC78,hdu5655,5656。%%%%CA娘
    深度懵逼计算机系统。。。DataLab。。
    深度懵逼计算机系统。。。DataLab。。
    设置ecShop网店用户名和email均可登录
    ecshop新建增加独立页面的方法
  • 原文地址:https://www.cnblogs.com/foreverstars/p/7245472.html
Copyright © 2011-2022 走看看