百面机器学习笔记（二）

zoukankan html css js c++ java

百面机器学习笔记（二）

一、评价指标的局限性

1、常用模型评价指标：准确率，精确率，召回率，均方根误差。

准确率=分类正确的样本数/总的样本数

精确率=将正类预测为正类数/将正类预测为正类数+将负类预测为正类数

召回率=将正类预测为正类数/将正类预测为正类数+将正类预测为负类数

均方根误差=

2、准确率的局限性：（1）、不同类别的样本比例非常不均衡时，占比大的类别往往成为影响准确率的主要因素--》平均准确率用P/R曲线来更加准确的全面的评估模型。

3、平方根误差的意外：，存在偏离程度非常大的离散点时，即使离散点很少，也会让指标变差。

解放方案：（1）、如果认定为噪声点，则要在图像预处理的时候过滤掉（2）、如果不是噪声点的话，则需要考虑在建模的时候将离散点加进去，进一步提高模型的预测能力。（3）、可以找一个合适的指标来评估模型，比如平均绝对百分比误差，它相当于将每个点的误差进行了归一化，降低了个别离散点带来的绝对误差的影响。

二、ROC曲线

什么时ROC曲线？

ROC曲线的横坐标为假阳性率FPR，纵坐标为真阳性率TPR，FPR和TPR的计算方法分别为：

FPR=FP/N TPR=TP/P (P为真实的正样本的个数，N为真实的负样本的个数，TP为P个正样本中被分类正确的个数，FP为N个负样本中被预测为正样本的个数)

（10个水果，3个橙子-》判断有2个橙子-》真阳性率为2/3，假阳性率为1/7）

查看全文

相关阅读:
假期12
假期11
第十六章 IP子网的划分
 第十五章链路聚合基本原理及其基本配置
 第十四章交换机端口技术
 第十七章 nginx动静分离和rewrite重写
 第十六章四层负载均衡
 第十五章 nginx七层负载均衡
 第十四章 nginx代理配置
 每日日报

原文地址：https://www.cnblogs.com/lyp1010/p/13385300.html

最新文章
10.16
10.15
10.14
10.13
10.12
10.11
mtu探测
 tCP Fast Open tcpdump
网络性能优化GSO/GIO研究
 TCP/IP的底层队列