zoukankan html css js c++ java

pandas的数据统计函数

# 1汇总类统计
# 2唯一去重和按值计数
# 3 相关系数和协方差

import pandas as pd 

#  0 读取csv数据
df = pd.read_csv("beijing_tianqi_2018.csv")
df.head()


# 换掉温度后面的后缀
df.loc[:,"bWendu"] = df["bWendu"].str.replace("℃","").astype("int32")
df.loc[:,"yWendu"] = df["yWendu"].str.replace("℃","").astype("int32")
df.head(3)

# 1 汇总类统计

# 一下子提取所有数字列的统计结果
df.describe()

# 查看单个Series的数据
df["bWendu"].mean()

# 最高温
df["bWendu"].max()

# 最低温
df["bWendu"].min()


# 2 唯一去重和按值计数
# 2.1 唯一性去重  一般不用于数值列，而是枚举、分类列
df["fengxiang"].unique()

df["tianqi"].unique()
df["fengli"].unique()


# 2.2 按值计数（降序排列）
df["fengxiang"].value_counts()
df["tianqi"].value_counts()
df["fengli"].value_counts()


# 3 相关系数和协方差
# 用途:
    # 1、两只股票，这不是同涨同落？程度多大？正相关还是负相关？
    #2、产品销量的波动，跟哪些因素正相关、负相关，程度有多大？
    
# 1、协方差:衡量同向反向程度。  如果协方差为正，说明想想X,Y同向程度越高；
# 如果协方差为负，说明X,Y反向运动，协方差越小说明反向程度越高

# 2、相关系数：衡量相似度程度。当他们的相关系数为1时，说明两个变量变化时
# 的正向相似度最大，当相关系数为-1时，说明两个变量变化的反向相似度最大

# 协方差矩阵
df.cov()

# 相关系数矩阵
df.corr()

# 单独查看空气质量和最高温度的相关系数
df["aqi"].corr(df["bWendu"])
df["aqi"].corr(df["yWendu"])
# 空气质量和温差的相关系数
df["aqi"].corr(df["bWendu"]-df["yWendu"])

查看全文

相关阅读:
【自制操作系统03】读取硬盘中的数据
 【自制操作系统02】环境准备与启动区实现
 【自制操作系统01】硬核讲解计算机的启动过程
 【30天自制操作系统】day06：中断
 java8 stream ,filter 等功能代替for循环
 如何评估工作量--三点估算
 python 错误AttributeError: 'module' object has no attribute 'AF_INET'
python入门学习
 mysql5.7.10和mysql5.5.39两个版本对于group by函数的处理差异
 jenkins 构建时，取消构建测试类

原文地址：https://www.cnblogs.com/spp666/p/11851212.html