zoukankan      html  css  js  c++  java
  • 1.pandas打开和读取文件

    最近在公司在弄数据分析相关的项目,数据分析就免不了要先对数据进行处理,也就自然避不开关于excel文档的初始化操作了。

    一段时间之后,发现pandas更加符合我的项目要求,所以,将一些常规操作记录下来,便于以后查阅。

    那在开始下面的操作之前,下载pandas模块是很有必要的

    文件打开

    首先在刚开始的时候需要导入模块pandas

    import pandas as pd
    

    pandas的打开文件一共有三种方法,分别对应三种文件,即:

    数据类型 说明 Pandas读取方式
    csv,tsv,txt 用逗号分割,tab分割的纯文本文件 pd.read_csv
    excel 微软xls或者xlsx文件 pd.read_excel
    mysql 关系型数据库表 pd.read_sql

    我现在的工作需求中,现阶段最常用的是.xlsx的文件读取

    .xlsx文件打开

    df = pd.read_excel('1.xlsx') # 文件名或文件路径
    print(df)
    
             id                                         enterprise
    0     18950                                      中国农业大学资源与环境学院
    1     18949                                       山东恒丰农业科技有限公司
    2     18948                      石家庄市民丰种子有限公司、北京中农臻中农业科技发展有限公司
    3     18947                                        九原区种子有限责任公司
    4     18946                               中国农业大学和武汉隆福康农业发展有限公司
    ...     ...                                                ...
    6215  12735                       浙江省农业科学院与核技术利用研究所、湖州科奥种业有限公司
    6216  12734                               浙江省农科院作核所、杭州市种子技术推广站
    6217  12733                                浙江省农业科学院作核所、湖州市种子公司
    6218  12732                                  浙江省农科院作核所、杭州市种子公司
    6219  12731  浙江省农业科学院作物与核技术利用研究所、宁波市农业科学研究院生物技术研究所、浙江之豇种业有限...
    
    [6220 rows x 2 columns]
    

    这样就读取了.xlsx类型的文件

    文件读取

    .shape

    有些时候我只是想看看这个表的尺寸大约是多大的,就可以用这个方法

    df.shape
    
    (6220, 2)
    

    该方法会返回这个表的(行数,列数)

    .columns

    有些时候我想看看这个表的标题,就是第一行的信息

    df.columns
    
    Index(['id', 'enterprise'], dtype='object')
    

    该方法会返回一个列表形式的数据

    当然,有些时候也不需要那么多的数据读取,可能有些时候只想读取前几行

    该方法会默认的读取数据的前5行数据

        def head(self: FrameOrSeries, n: int = 5) -> FrameOrSeries:
    
    df.head()
    
          id                     enterprise
    0  18950                  中国农业大学资源与环境学院
    1  18949                   山东恒丰农业科技有限公司
    2  18948  石家庄市民丰种子有限公司、北京中农臻中农业科技发展有限公司
    3  18947                    九原区种子有限责任公司
    4  18946           中国农业大学和武汉隆福康农业发展有限公司
    

    当然也可以修改读取的行数

    df.head(10)
    

    .index

    读取数据的时候,也许发现了,在最左侧有一列数据,他本不是在数据当中的数据,这一列就是数据的索引,就像数据库当中的id一样

    那可以通过这个方法来查看索引列

    df.index
    
    RangeIndex(start=0, stop=6220, step=1)
    
  • 相关阅读:
    【刷题】面筋-mysql-如何对数据库进行备份
    【刷题】面筋-数据库-mysql的优化
    【刷题】面筋-MySQL中char、varchar和text三者的区别
    【刷题】面筋-sql-学生成绩单里两门成绩>80的学生名字
    【刷题】面筋-网络-无效链接,死链接,错误链接
    【刷题】面筋-算法-在海量IP中找出访问次数最多的100个IP
    【刷题】面筋-shell:统计一个文件中重复的行和重复次数
    【刷题】面筋-linux-如何查找出现频率最高的100个ip地址
    【刷题】面筋-linux 如何将文件从一台服务器转移到另一台服务器
    【刷题】面筋-Linux-vi显示或关闭行号:set number
  • 原文地址:https://www.cnblogs.com/jevious/p/13361902.html
Copyright © 2011-2022 走看看