# 1汇总类统计 # 2唯一去重和按值计数 # 3 相关系数和协方差 import pandas as pd # 0 读取csv数据 df = pd.read_csv("beijing_tianqi_2018.csv") df.head() # 换掉温度后面的后缀 df.loc[:,"bWendu"] = df["bWendu"].str.replace("℃","").astype("int32") df.loc[:,"yWendu"] = df["yWendu"].str.replace("℃","").astype("int32") df.head(3) # 1 汇总类统计 # 一下子提取所有数字列的统计结果 df.describe() # 查看单个Series的数据 df["bWendu"].mean() # 最高温 df["bWendu"].max() # 最低温 df["bWendu"].min() # 2 唯一去重和按值计数 # 2.1 唯一性去重 一般不用于数值列,而是枚举、分类列 df["fengxiang"].unique() df["tianqi"].unique() df["fengli"].unique() # 2.2 按值计数(降序排列) df["fengxiang"].value_counts() df["tianqi"].value_counts() df["fengli"].value_counts() # 3 相关系数和协方差 # 用途: # 1、两只股票,这不是同涨同落?程度多大?正相关还是负相关? #2、产品销量的波动,跟哪些因素正相关、负相关,程度有多大? # 1、协方差:衡量同向反向程度。 如果协方差为正,说明想想X,Y同向程度越高; # 如果协方差为负,说明X,Y反向运动,协方差越小说明反向程度越高 # 2、相关系数:衡量相似度程度。当他们的相关系数为1时,说明两个变量变化时 # 的正向相似度最大,当相关系数为-1时,说明两个变量变化的反向相似度最大 # 协方差矩阵 df.cov() # 相关系数矩阵 df.corr() # 单独查看空气质量和最高温度的相关系数 df["aqi"].corr(df["bWendu"]) df["aqi"].corr(df["yWendu"]) # 空气质量和温差的相关系数 df["aqi"].corr(df["bWendu"]-df["yWendu"])