zoukankan      html  css  js  c++  java
  • python的学习01之csv文件处理

      1、pandas的说明
         pandas最重要的部分是DataFrame。DataFrame类似于Excel中的工作表或SQL数据库中的表。
        pandas有强大的方法来处理大多数你想用这种数据做的事情。
          例如,我们将查看澳大利亚墨尔本的房价数据。在实践练习中,您将对一个新的数据集应用相同的过程,该数据集在爱荷华州有房价。
            
    示例(墨尔本)数据位于文件路径../input/melbourne-housing-snapshot/melb_data.csv。 
        我们可以使用下面代码来加载和浏览数据:
    # 将文件路径保存到变量以便于访问
    melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
    #读取数据并将数据存储在名为墨尔本数据的数据框中
    melbourne_data = pd.read_csv(melbourne_file_path) 
    # 打印墨尔本数据摘要
    melbourne_data.describe()

        得到如下结果:

        解释数据: 

          1、count

            count行统计了此列共有多少行没有缺失值,即:

              某列具有缺失值的行 = 总行数 - count

            缺失值出现的解释:出现缺失值可能有很多原因,例如调查1室1厅的房屋时,不会询问是否有第二个卧室。

          2、mean

            平均值,即是算术平均值,反应此列特征的一般水平。

          3、std

            标准差,反应此列数据的离散程度,一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。

          4、min、25%、50%、75%、max

            其中min max分别是最小值和最大值。

            而25%、50%、75%为四分位数,分位数是将总体的全部数据按大小顺序排列后,处于各等分位置的变量值。如果将全部数据分成相等的两部分,它就是中位数;如果分成四等分,就是四分位数。

              1)、第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

              2)、第二四分位数 (Q2),又称“[中位数]”,等于该样本中所有数值由小到大排列后第50%的数字。

              3)、第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

              4)、第三四分位数与第一四分位数的差距又称[四分位距](InterQuartile Range,IQR)。

            通过四分位数,可以看出一个变量的分布情况是左偏、右偏或对称分布。

        实例:   

    import pandas as pd
    import csv
    #csv文件所在的位置赋值给变量
    age_file_path = 'E:/Data/age_train.csv'
    age_data = pd.read_csv(age_file_path)
    print(age_data.describe())

         结果为:

          

  • 相关阅读:
    .Net中集合排序还可以这么玩
    C# 6.0中你不知道的新特性
    EF Core利用Transaction对数据进行回滚保护
    dot watch+vs code提升asp.net core开发效率
    .Net小白的大学四年,内含面经
    EF Core利用Scaffold从根据数据库生成代码
    利用EF Core的Join进行多表查询
    EF Core下利用Mysql进行数据存储在并发访问下的数据同步问题
    新建.Net Core应用程序后引用项一直黄色感叹号怎么办?
    用户密码传输和存储的保护
  • 原文地址:https://www.cnblogs.com/fb1704011013/p/11143432.html
Copyright © 2011-2022 走看看