zoukankan      html  css  js  c++  java
  • 百面机器学习笔记(二)

    一、评价指标的局限性

    1、常用模型评价指标:准确率,精确率,召回率,均方根误差。

    准确率=分类正确的样本数/总的样本数

    精确率=将正类预测为正类数/将正类预测为正类数+将负类预测为正类数

    召回率=将正类预测为正类数/将正类预测为正类数+将正类预测为负类数

    均方根误差=

    2、准确率的局限性:(1)、不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的主要因素--》平均准确率  用P/R曲线来更加准确的全面的评估模型。

    3、平方根误差的意外:,存在偏离程度非常大的离散点时,即使离散点很少,也会让指标变差。

    解放方案:(1)、如果认定为噪声点,则要在图像预处理的时候过滤掉 (2)、如果不是噪声点的话,则需要考虑在建模的时候将离散点加进去,进一步提高模型的预测能力。(3)、可以找一个合适的指标来评估模型,比如平均绝对百分比误差,它相当于将每个点的误差进行了归一化,降低了个别离散点带来的绝对误差的影响。

    二、ROC曲线

    什么时ROC曲线?

    ROC曲线的横坐标为假阳性率FPR,纵坐标为真阳性率TPR,FPR和TPR的计算方法分别为:

    FPR=FP/N    TPR=TP/P   (P为真实的正样本的个数,N为真实的负样本的个数,TP为P个正样本中被分类正确的个数,FP为N个负样本中被预测为正样本的个数)

    (10个水果,3个橙子-》判断有2个橙子-》真阳性率为2/3,假阳性率为1/7)

  • 相关阅读:
    二维数组传递参数问题
    常用软件
    mybatis项目采用mybatis-plus开发,报:Invalid bound statement (not found) 异常,详细解决方案
    PowerDesigner一键导出数据库设计表结构
    微信即将有自己的输入法,真的是要保护用户隐私吗?
    字段解析之OopMapBlock(4)
    字段解析(3)
    字段解析之伪共享(2)
    字段解析(1)
    常量池解析(2)
  • 原文地址:https://www.cnblogs.com/lyp1010/p/13385300.html
Copyright © 2011-2022 走看看