数据处理 - 走看看

zoukankan html css js c++ java

数据处理

一缺失值处理

　　1 删除 dropna

　　2 填充 / 替换

　　　　1）用中位数，众数，平均数

　　　　2）用临近值替换 fillna / replace

　　　　3）lagrange插值法

　　　　　　　　from scipy.interpolate import lagrange

　　　　　　　　可以写个函数，实现用lagrange差值

二异常值处理

　　1 找到异常值

　　　　1）3σ原则

　　　　　　在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴

　　　　　　3σ原则为

　　　　　　数值分布在（μ-σ,μ+σ)中的概率为0.6827

　　　　　　数值分布在（μ-2σ,μ+2σ)中的概率为0.9545

　　　　　　数值分布在（μ-3σ,μ+3σ)中的概率为0.9973

　　　　　　可以认为，Y 的取值几乎全部集中在（μ-3σ,μ+3σ)区间内，超出这个范围的可能性仅占不到0.3%

　　　　2）箱型图分析

　　　　　　相对来说箱型图可能用的比较多，而且，3σ原则特别极端才会显示。

　　2 处理异常值

　　　　采用缺失值一样的方式处理

三数据标准化

　　1）0-1标准化

　　　　（series - min）/ (max-min)

　　　　标准化数据
　　　　经过处理的数据符合标准正态分布，即均值为0，标准差为1

　　2）Z-score 标准化

　　　　Z分数（z-score）,是一个分数与平均数的差再除以标准差的过程 → z=(x-μ)/σ，其中x为某一具体分数，μ为平均数，σ为标准差

　　　　Z值的量代表着原始分数和母体平均值之间的距离，是以标准差为单位计算。在原始分数低于平均值时Z则为负数，反之则为正数
　　　　数学意义：一个给定分数距离平均数多少个标准差

　　　　什么情况用Z-score标准化：

　　　　在分类、聚类算法中，需要使用距离来度量相似性的时候，Z-score表现更好

四数据连续属性离散化 discretization

　　1）等宽法

　　　　pd.cut(x,bins,labels)

　　　　　　注意：1）x 为series，返回值类型是series。 x为列表，返回值类型为 Categorical。这里我们用到的是 Categorical，因为有codes属性和　　　　　　　　　　categories属性

　　　　　　　　　2）bins 可以接受int，和列表，代表不同含义。

　　　　　　　　　3) labels 可以设置不同组的名称

　　2）等频法

　　　　pd.qcut()

　　　　　　每个区间是等数量的。

　　　　

查看全文

相关阅读:
刷新aspx页面的六种方法
 关于 Visual Studio 2012 新建的网站项目在 Visual Studio 2010 中的兼容性问题
 Bing Maps 辅助工具 —— MapCruncher 简单使用学习
 学习使用Bing Maps Silverlight Control（七）：自定义导航工具栏
 学习使用Bing Maps Silverlight Control（五）：离线使用和自定义地图模式
 使用参数初始化Silverlight程序
 WPF中资源文件的使用
 关于特殊符号在XML中的问题
 学习使用Bing Maps Silverlight Control（六）：自定义“鹰眼”地图
 关于Sliverlight的一些问题

原文地址：https://www.cnblogs.com/654321cc/p/11917305.html