zoukankan      html  css  js  c++  java
  • pandas的数据统计函数

    # 1汇总类统计
    # 2唯一去重和按值计数
    # 3 相关系数和协方差
    
    import pandas as pd 
    
    #  0 读取csv数据
    df = pd.read_csv("beijing_tianqi_2018.csv")
    df.head()
    
    
    # 换掉温度后面的后缀
    df.loc[:,"bWendu"] = df["bWendu"].str.replace("","").astype("int32")
    df.loc[:,"yWendu"] = df["yWendu"].str.replace("","").astype("int32")
    df.head(3)
    
    # 1 汇总类统计
    
    # 一下子提取所有数字列的统计结果
    df.describe()
    
    # 查看单个Series的数据
    df["bWendu"].mean()
    
    # 最高温
    df["bWendu"].max()
    
    # 最低温
    df["bWendu"].min()
    
    
    # 2 唯一去重和按值计数
    # 2.1 唯一性去重  一般不用于数值列,而是枚举、分类列
    df["fengxiang"].unique()
    
    df["tianqi"].unique()
    df["fengli"].unique()
    
    
    # 2.2 按值计数(降序排列)
    df["fengxiang"].value_counts()
    df["tianqi"].value_counts()
    df["fengli"].value_counts()
    
    
    # 3 相关系数和协方差
    # 用途:
        # 1、两只股票,这不是同涨同落?程度多大?正相关还是负相关?
        #2、产品销量的波动,跟哪些因素正相关、负相关,程度有多大?
        
    # 1、协方差:衡量同向反向程度。  如果协方差为正,说明想想X,Y同向程度越高;
    # 如果协方差为负,说明X,Y反向运动,协方差越小说明反向程度越高
    
    # 2、相关系数:衡量相似度程度。当他们的相关系数为1时,说明两个变量变化时
    # 的正向相似度最大,当相关系数为-1时,说明两个变量变化的反向相似度最大
    
    # 协方差矩阵
    df.cov()
    
    # 相关系数矩阵
    df.corr()
    
    # 单独查看空气质量和最高温度的相关系数
    df["aqi"].corr(df["bWendu"])
    df["aqi"].corr(df["yWendu"])
    # 空气质量和温差的相关系数
    df["aqi"].corr(df["bWendu"]-df["yWendu"])
  • 相关阅读:
    【从零开始学Java】第六章 运算符
    【从零开始学Java】第五章 变量和数据类型
    【从零开始学Java】第四章 常量
    【从零开始学Java】第三章 HelloWorld入门程序
    【从零开始学Java】第二章 Java语言开发环境搭建
    【从零开始学Java】第一章 开发前言
    vim配置
    神奇的洛谷运势汇总
    达哥题表
    数论总结
  • 原文地址:https://www.cnblogs.com/spp666/p/11851212.html
Copyright © 2011-2022 走看看