zoukankan      html  css  js  c++  java
  • 机器学习模型评估指标总结

     常用机器学习算法包括分类、回归、聚类等几大类型,以下针对不同模型总结其评估指标

    一、分类模型

    常见的分类模型包括:逻辑回归、决策树、朴素贝叶斯、SVM、神经网络等,模型评估指标包括以下几种:

    (1)二分类问题

      (a)混淆矩阵

        准确率A:预测正确个数占总数的比例

        精准率P:正例样本中有多少被预测正确了

        召回率R:预测的正例样本中有多少是正确的

        F1 Score(精准率与召回率集成):2P*R/(P+R)

      (b)ROC曲线:ROC曲线应尽量偏离参考线,越靠近左上越好

      (c)AUC:ROC曲线下面积,参考线面积为0.5,AUC应大于0.5,且偏离越多越好

      (d)Lift曲线:表示“运用该模型”与“未运用该模型即随机选择”所得结果的比值,Lift应该移植大于1,且Lift(提升指数)越大,模型预测效果越好

    (2)多分类问题

      评价多分类模型一般采用准确率作为评估指标

    二、回归模型

    常见的回归模型包括线性回归、多项式回归、Lasso回归、岭回归、弹性网络、SVM、神经网络,评估指标见以下总结

    (1)MSE

      均方误差,SSE/m,值越小代表拟合效果越好,用来衡量不同模型对于同一数据集的拟合效果

    (2)R^2

      决定系数,1-SSE/SST,用于度量模型的解释能力,是相关系数的平方,取值范围为0~1,越接近1表示模型参考价值越高,在scikit-learn中LinearRegression.score就是使用的决定系数,也可以使用专门的库metrics.r2_score

    (3)修正的R^2

      在多元线性回归中,决定系数会虚高,加一个自变量就会增大,加公式进行修正  1-[SSE/(n-p-1)/[SST/(n-1)],得到修正的决定系数

    三、聚类模型

    常见的聚类模型有KMeans、密度聚类、层次聚类等,主要从簇内的稠密成都和簇间的离散程度来评估聚类的效果,评估指标包括:

    (1)轮廓系数 Silhouette Corfficient

      轮廓系数由凝聚度和分离度共同构成,组内SSE越小,组间SSB越大,聚类效果越好,轮廓系数在-1~1之间,值越大,聚类效果越好

    (2)协方差系数 Calinski-Harabaz Index

      类别内部数据协方差越小越好,类别之间协方差越大越好,这样协方差系数会越高。

  • 相关阅读:
    文件分段后,进行分片上传逻辑
    总结几个最近处理问题中使用http协议的代码
    openresty(nginx)中使用lua脚本获取请求IP地址的代码
    线上Storm的worker,executor,task参数调优篇
    async/await
    DataTables.Queryable Sample
    关闭 XXXXX 前你必须关闭所有会话框
    关于P/Invoke的闲话
    Windows 2008 Scheduled tasks result codes
    MySQL 8.0.13的使用心得
  • 原文地址:https://www.cnblogs.com/dearL/p/9484728.html
Copyright © 2011-2022 走看看