异常点检测的目的是找到数据集中和大多数数据不同的数据,常用的异常点检测算法一般分为三类。
第一类是基于统计学的方法来处理异常数据,这种方法一般会构建一个概率分布模型,并计算对象符合该模型的概率,把具有低概率的对象视为异常点。比如特征工程中的RobustScaler方法,在做数据特征值缩放的时候,它会利用数据特征的分位数分布,将数据根据分位数划分为多段,只取中间段来做缩放,比如只取25%分位数到75%分位数的数据做缩放,这样减少了异常数据的影响。
第二类是基于聚类的方法来做异常点检测。这个很好理解,由于大部分聚类算法是基于数据特征的分布来做的,通常我们聚类后发现某些聚类簇的数据样本量比其他簇少很多,而且这个簇里的数据特征均值分布之类的值和其他簇也差异很大,这些簇里的样本点大部分时候都是异常点。比如BIRCH聚类算法原理和DBSCAN密度聚类算法都可以在聚类的同时做异常点的检测。
第三类是基于专门的异常点检测算法来做。这些算法不像聚类算法,检测异常点只是一个赠品,他们的目的就是专门检测异常点的,这类算法的代表是One Class SVM 和Isolation Forest。
第一类代表方法有箱形图与3sigma原则,倾向于一维数据。运用3sigma原则时,需要保证数据符合正态分布或近似正态分布。在这个过程中运用的方法大致可分为两类,检验正态性与数据转化。正态性检验包括频率或频数直方图、QQ图、t检验等,kaggle等比赛中常用的数据转化有box_cox。
Box-Cox变换是统计建模中常用的一种数据变换,用于连续的响应变量不满足正态分布的情况。在做线性回归的过程中,不可观测的误差可能是和预测变量相关,于是给线性回归的最小二乘法估计系数的结果带来误差,为了解决这样的方差齐性问题,所以考虑对相应因变量做Box-Cox变换,变换之后,可以一定程度上减小不可观测的误差和预测变量的相关性。
正态性检验
def draw_distribute1(self,data): fig = plt.figure(figsize = (10,6)) ax2 = fig.add_subplot(2,1,2) # 创建子图2 data.hist(bins=30,alpha = 0.5,ax = ax2) data.plot(kind = 'kde', secondary_y=True,ax = ax2) plt.title("%s库存比频数直方图"%(self.comp[0])) plt.savefig(r'%s\%s2.png'%(root,self.comp[0]), bbox_inches='tight') plt.grid() plt.show() # 绘制直方图 # 呈现较明显的正太性 def draw_distribute3(self,data): sm.qqplot(data.values,line='s') plt.title("%s库存比转化QQ图"%(self.comp[0])) #stats.probplot(data.values, dist="norm", plot=plt) plt.savefig(r'%s\%s1.png'%(root,self.comp[0]), bbox_inches='tight') plt.show()
##BOX_COX转化
x = stats.boxcox(new_data['RATIO'].values,stats.boxcox_normmax(new_data['RATIO'].values))
df = pd.DataFrame(data) df.plot.box(title="hua tu") plt.grid(linestyle="--", alpha=0.3) plt.show()