zoukankan      html  css  js  c++  java
  • 异常值处理

    异常值是模型优化的关键点之一,离均值远的是异常值,可是多远才算足够远呢,其实不同的模型有着不同的考量,基于模型所受的影响不同,所以所能忍受的异常值也不同。

    1、异常值的类型

    从二维的角度来说,其实异常值有三种类型,一是影响垂直方向Y的异常值,叫垂直特异性,对应探测该类异常的指标为标准化残差(学生化残差也可以);二是同时影响x和Y的异常值,对应探测该类异常的指标为COOK值,三是影响水平方向的X的异常值,叫杠杆值,对应探测该类型异常的指标为杠杆率。

     2、不同模型关注异常值的类型及处理方法

    从x,y变量的角度区分不同模型对异常值的处理。一是对于没有Y的模型,只有一系列X,通过描述性分析,制作箱型图来探测异常值,此种情况下对于单变量的异常值一般不删除,仅仅是警惕即可。二是对于有Y的模型,对于y为线性的,如线性回归模型,该模型主要关注垂直特异性(具体原因与估计产生的标准差有关),因而主要是将标准化残差与+-2进行比较,超过的即为异常值;对于y为二分类变量,如logistic模型,三类异常值都要考虑,因而需要结合标准化残差、COOK值、杠杆率三个指标一起考虑,由此引出了偏离残差(界值为8)、皮尔森卡方(界值为100),此种情况异常值要删除。三是没有x、y之分的模型,x、y同等重要,通过聚类分析中的二维散点图探测异常值,如果是在数据挖掘中,异常值有些可能不要删除,而是重点检查,因为异常值代表着消费者行为中的小众行为,也许就是VIP行为。

  • 相关阅读:
    关于jsp页面是放在webroot目录下和web-inf下优缺点
    eclipse查看jar包中class的中文注释乱码问题的解决
    如何在eclipse里使用git
    ****JFinal 部署在 Tomcat 下推荐方法
    jfinal框架教程-学习笔记(二)
    Struts2 标签库讲解
    struts2 标签库 介绍
    VC无闪烁刷屏技术的实现【转】
    小知识:SPI四种模式区别【转】
    如何在Android 或Linux 下,做Suspend /Resume 的Debug【转】
  • 原文地址:https://www.cnblogs.com/fionacai/p/5742808.html
Copyright © 2011-2022 走看看