部分数据
1.将上牌时间更改为日期型
sec_cars.Boarding_time = pd.to_datetime(sec_cars.Boarding_time,format='%Y年%m月')
#to_datetime函数第一个参数是传入日期(用于获取原数据的日期以及原格式),,第二个参数是使用format来进行格式化
2.新车价格更改为浮点型
sec_cars.New_price = sec_cars.New_price.str[:-1].astype('float') 注:astype()为强制转换类型的函数
3.一次性统计数值型变量的偏度和峰度,以及数据是否属于“尖锋厚尾”的特征
[sec_cars.dtypes!=‘object’]表示不读取字段类型是object的字段,返回满足条件的字段组成的一个列表;
[1:]表示从列表中获取第二个到最后一个的列表内容,也就是达到了去除Boarding_time这个日期字段的目的。
定义一个函数去计算偏度和峰度
def skew_kurt(x): skewness = x.skew() #计算偏度值 kurtsis = x.kurt() #计算峰度值 # return pd.Series([skewness,kurtsis],index=['Skew','kurt']) pd.Series([skewness,kurtsis],index=['Skew','kurt']) #返回偏度值和峰度值组成的 #print(sec_cars[num_variables].apply(func=skew_kurt,axis=0))#对数值型数据和刚刚的字段进行调用函数计算
4.对于字符型数据
print(sec_cars.describe(include = [‘object’])) #对字符型数据做统计描述。