zoukankan      html  css  js  c++  java
  • 机器学习进度09(逻辑回归)

    逻辑回归:

    逻辑回归的应用场景

    • 广告点击率
    • 是否为垃圾邮件
    • 是否患病
    • 金融诈骗
    • 虚假账号

    看到上面的例子,我们可以发现其中的特点,那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器

     逻辑回归的原理

     

    输出结果解释(重要):假设有两个类别A,B,并且假设我们的概率值为属于A(1)这个类别的概率值。现在有一个样本的输入到逻辑回归输出结果0.6,那么这个概率值超过0.5,意味着我们训练或者预测的结果就是A(1)类别。那么反之,如果得出结果为0.3那么,训练或者预测结果就为B(0)类别。

    所以接下来我们回忆之前的线性回归预测结果我们用均方误差衡量,那如果对于逻辑回归,我们预测的结果不对该怎么去衡量这个损失呢?我们来看这样一张图

    损失以及优化

    损失

    逻辑回归的损失,称之为对数似然损失,公式如下:

    • 分开类别:
    •  

       

       优化

      同样使用梯度下降优化算法,去减少损失函数的值。这样去更新逻辑回归前面对应算法的权重参数,提升原本属于1类别的概率,降低原本是0类别的概率。

    逻辑回归API

    • sklearn.linear_model.LogisticRegression(solver='liblinear', penalty=‘l2’, C = 1.0)
      • solver:优化求解方式(默认开源的liblinear库实现,内部使用了坐标轴下降法来迭代优化损失函数)
        • sag:根据数据集自动选择,随机平均梯度下降
      • penalty:正则化的种类
      • C:正则化力度

    默认将类别数量少的当做正例

    LogisticRegression方法相当于 SGDClassifier(loss="log", penalty=" "),SGDClassifier实现了一个普通的随机梯度下降学习,也支持平均随机梯度下降法(ASGD),可以通过设置average=True。而使用LogisticRegression(实现了SAG)

    案例:癌症分类预测-良/恶性乳腺癌肿瘤预测

     

     

    分类的评估方法

    精确率与召回率

    混淆矩阵

    在分类任务下,预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合,构成混淆矩阵(适用于多分类)

     

     

    分类评估报告API

    • sklearn.metrics.classification_report(y_true, y_pred, labels=[], target_names=None )
      • y_true:真实目标值
      • y_pred:估计器预测目标值
      • labels:指定类别对应的数字
      • target_names:目标类别名称
      • return:每个类别精确率与召回率

    ROC曲线与AUC指标

    知道TPR与FPR

    • TPR = TP / (TP + FN)
      • 所有真实类别为1的样本中,预测类别为1的比例
    • FPR = FP / (FP + FN)
      • 所有真实类别为0的样本中,预测类别为1的比例

    ROC曲线

    • ROC曲线的横轴就是FPRate,纵轴就是TPRate,当二者相等时,表示的意义则是:对于不论真实类别是1还是0的样本,分类器预测为1的概率是相等的,此时AUC为0.5

     

     

  • 相关阅读:
    装饰器
    内置函数
    文件操作
    函数
    数据结构[总结笔记]
    汉诺塔解题思路
    springboot事物
    mysql5.7.29 zip包安装教程
    mysql常用语句【转载】
    springboot+mysql+jpa+sharding-jdbc+druid读写分离
  • 原文地址:https://www.cnblogs.com/dazhi151/p/14318761.html
Copyright © 2011-2022 走看看