zoukankan      html  css  js  c++  java
  • 异常值处理

    异常值是模型优化的关键点之一,离均值远的是异常值,可是多远才算足够远呢,其实不同的模型有着不同的考量,基于模型所受的影响不同,所以所能忍受的异常值也不同。

    1、异常值的类型

    从二维的角度来说,其实异常值有三种类型,一是影响垂直方向Y的异常值,叫垂直特异性,对应探测该类异常的指标为标准化残差(学生化残差也可以);二是同时影响x和Y的异常值,对应探测该类异常的指标为COOK值,三是影响水平方向的X的异常值,叫杠杆值,对应探测该类型异常的指标为杠杆率。

     2、不同模型关注异常值的类型及处理方法

    从x,y变量的角度区分不同模型对异常值的处理。一是对于没有Y的模型,只有一系列X,通过描述性分析,制作箱型图来探测异常值,此种情况下对于单变量的异常值一般不删除,仅仅是警惕即可。二是对于有Y的模型,对于y为线性的,如线性回归模型,该模型主要关注垂直特异性(具体原因与估计产生的标准差有关),因而主要是将标准化残差与+-2进行比较,超过的即为异常值;对于y为二分类变量,如logistic模型,三类异常值都要考虑,因而需要结合标准化残差、COOK值、杠杆率三个指标一起考虑,由此引出了偏离残差(界值为8)、皮尔森卡方(界值为100),此种情况异常值要删除。三是没有x、y之分的模型,x、y同等重要,通过聚类分析中的二维散点图探测异常值,如果是在数据挖掘中,异常值有些可能不要删除,而是重点检查,因为异常值代表着消费者行为中的小众行为,也许就是VIP行为。

  • 相关阅读:
    八张图读懂未来“互联网+”的六大趋势
    跑一段代码遍历所有汉字
    PHP业务逻辑层和数据访问层设计
    漫谈社区PHP 业务开发
    以Apache服务器、php语言为例 详解动态网站的访问过程
    sublime text
    《产品经理的20堂必修课》
    检测文件是否有bom头
    利用开源框架Volley来下载文本和图片。
    往SD卡中写文件的方法。
  • 原文地址:https://www.cnblogs.com/fionacai/p/5742808.html
Copyright © 2011-2022 走看看