zoukankan html css js c++ java

数据预处理

数据引入
查看数据信息
- DataFrame的基础属性
- pd.value_counts 查看数值各有多少个
数据不均衡
缺失值
异常值
大量数据
One-Hot 独热编码
归一化 & 标准化
其他常用代码

查看数据信息
数据异常
空数据
数据不均衡
数据归一化
大量数据

预处理方法

数据的归一化

数据引入

csv
html, html、sax、dom 解析器
xml
databases，pyodbc
json
pdf， pdfminer

查看数据信息

DataFrame的基础属性

df.shape ——行数列数
df.dtypes——列数据类型
df.ndim ——数据维度
df.index——行索引
df.columns——列索引
df.values——对象值，二维ndarray数组

DataFrame 整体情况

df.head(10)——显示前10行，默认是5行
df.tail()——显示末尾几行，默认是5
df.info()——相关系数，如行数，列数，列索引、列非空值个数，列类型，内存占用
df.describe()——快速统计结果，计数、均值、标准差、最大值、四分数、最小值

data.info() 
'''
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3463 entries, 0 to 3462
Data columns (total 20 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   subscriberID   3463 non-null   float64
 1   churn          3463 non-null   float64
 2   gender         3463 non-null   float64
 3   AGE            3463 non-null   float64
 4   edu_class      3463 non-null   float64
 5   incomeCode     3463 non-null   float64
 6   duration       3463 non-null   float64
 7   feton          3463 non-null   float64
 8   peakMinAv      3463 non-null   float64
 9   peakMinDiff    3463 non-null   float64
 10  posTrend       3463 non-null   float64
...
dtypes: float64(20)
memory usage: 541.2 KB
'''

data.describe()

	subscriberID	churn	gender	AGE	edu_class
count	3.463000e+03	3463.000000	3463.000000	3463.000000	3463.000000
mean	7.462747e+07	0.442969	0.497834	30.677447	0.953797
std	2.117726e+06	0.496808	0.500068	14.037055	0.860355
min	1.916496e+07	0.000000	0.000000	9.000000	0.000000
25%	7.480676e+07	0.000000	0.000000	18.000000	0.000000
50%	7.488497e+07	0.000000	0.000000	28.000000	1.000000

pd.value_counts 查看数值各有多少个

count_classes = pd.value_counts(data['Class'], sort = True).sort_index()

数据不均衡

缺失值

删除数据
填充为中位数、众数、平均数

异常值

四分位法，识别离群点

大量数据

降低数据类型

int64 -> int32

One-Hot 独热编码

将文本分类数据转化数值

归一化 & 标准化

其他常用代码

rdd 中忽略第一行

headers = data1.first()
data2 = data1.filter(lambda line:line != headers)
data2.take(4)

取出特征数据

X = hdata.loc[:,:'cnt']
y = hour['cnt']

数据集切分

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y)

查看全文

相关阅读:
在JavaScript中对HTML进行反转义
 JavaScript 删除数组中的对象
 CSS中的before和:after伪元素深入理解
 关于css浮动的一点思考
 前端常见跨域解决方案（全）
window.location对象详解
 51nod 1001 数组中和等于K的数对
 51nod 1002 数塔取数问题
 51nod 1015 水仙花数
 51nod 1080 两个数的平方和

原文地址：https://www.cnblogs.com/fldev/p/14360137.html