zoukankan      html  css  js  c++  java
  • 用pandas处理数据遇到的坑

    1.使用pandas.read_csv(filePath)方法来读取csv文件时,可能会出现这种错误:
    ParserError:Error tokenizing data.C error:Expected 2 fields in line 407,saw 3.
    这句话的意思是,在csv文件的第407行数据,期待2个字段,但在第407行实际发现了3个字段。
    原因:header只有两个字段名,但数据的第407行却出现了3个字段(可能是该行数据包含了逗号,或者确实有三个部分),导致pandas不知道该如何处理。
    解决办法:把第407行多出的字段删除,或者通过在read_csv方法中设置error_bad_lines=False来忽略这种错误:
    改为

    pandas.read_csv(filePath,error_bad_lines=False)

    来忽略掉其中出现错乱(例如,由于逗号导致多出一列)的行。

    2.KeyError错误:
    报这种错是由于使用了DataFrame中没有的字段,例如id字段,原因可能是:
    1.csv文件的header部分没加逗号分割,此时可使用df.columns.values来查看df到底有哪些字段:

    print(df.columns.values)


    2.在操作DataFrame的过程中丢掉了id字段的header,却没发现该字段已丢失。
    例如:

    df=df[df['id']!='null']#取得id字段不为null的行
    df=df['id']#赋值后df为Series,表示df在id列的值,而不再是一个DataFrame,于是丢掉了id的头,此时若再使用df['id']将报错。

    3.取列的值,与取列的区别:

    df=df['id']#取id列的值,赋值后df为Series类型,可用print(type(df))来查看其类型
    df=df[['id']]#只取df的id列作为一个新的DataFrame,赋值后df仍然是一个DataFrame
    df=df[['id','age']]#取df的id和age列作为一个新的DataFrame,赋值后df仍然是一个DataFrame

    4.过滤行

    df=df[df['id']!='null']#过滤掉id字段取值为'null'的行

    注意,此处的'null'是一个字符串,若df中某行id字段的值不是字符串型,或者为空,将报TypeError:invalid type comparison错,因为只有相同类型的值才能进行比较。

    解决办法:如果不能保证id列都是string类型,则需要去掉该过滤条件。

    5.列值的集合: df['col_name'].values

    想实现取某一行的值并加入到一个集合中去(还有很多其他csv也有这个列,因此没有使用df.drop_duplicates()方法),达到去重的效果,因为对pandas不熟,没有想到特别好的方法,最后这样实现的:

    id_set=set()
    for id in df['id'].values:
        id_set.add(id)

    此法效率应该不高,若读者有更好的方法,可留言告知,谢谢。

    6.指定列的去重

    可参考: https://www.cnblogs.com/everfight/p/pandas_to_list.html

  • 相关阅读:
    Centos7 KVM启用嵌套虚拟化
    CentOS 桥接网卡配置
    centos iso镜像自动挂载
    git status没有颜色提示
    virt-install 安装系统和启动虚机
    Python 源代码代码打包成 whl 文件
    存储池与存储卷,使用virt-install创建虚拟机
    ftp 搭建 centos 源
    git 生成并添加 SSH key
    linked-list-cycle leetcode C++
  • 原文地址:https://www.cnblogs.com/aaronhoo/p/9290014.html
Copyright © 2011-2022 走看看