用pandas处理数据遇到的坑

zoukankan html css js c++ java

用pandas处理数据遇到的坑
1.使用pandas.read_csv(filePath)方法来读取csv文件时，可能会出现这种错误：
ParserError：Error tokenizing data.C error:Expected 2 fields in line 407,saw 3.
这句话的意思是，在csv文件的第407行数据，期待2个字段，但在第407行实际发现了3个字段。
原因：header只有两个字段名，但数据的第407行却出现了3个字段（可能是该行数据包含了逗号，或者确实有三个部分），导致pandas不知道该如何处理。
解决办法:把第407行多出的字段删除，或者通过在read_csv方法中设置error_bad_lines=False来忽略这种错误：
改为
pandas.read_csv(filePath,error_bad_lines=False)
来忽略掉其中出现错乱(例如，由于逗号导致多出一列)的行。

2.KeyError错误:
报这种错是由于使用了DataFrame中没有的字段，例如id字段，原因可能是：
1.csv文件的header部分没加逗号分割，此时可使用df.columns.values来查看df到底有哪些字段：
print(df.columns.values)
2.在操作DataFrame的过程中丢掉了id字段的header，却没发现该字段已丢失。
例如：
df=df[df['id']!='null']#取得id字段不为null的行 df=df['id']#赋值后df为Series，表示df在id列的值，而不再是一个DataFrame,于是丢掉了id的头，此时若再使用df['id']将报错。
3.取列的值，与取列的区别：
df=df['id']#取id列的值，赋值后df为Series类型，可用print(type(df))来查看其类型 df=df[['id']]#只取df的id列作为一个新的DataFrame，赋值后df仍然是一个DataFrame df=df[['id','age']]#取df的id和age列作为一个新的DataFrame，赋值后df仍然是一个DataFrame
4.过滤行
df=df[df['id']!='null']#过滤掉id字段取值为'null'的行
注意，此处的'null'是一个字符串，若df中某行id字段的值不是字符串型，或者为空，将报TypeError：invalid type comparison错，因为只有相同类型的值才能进行比较。

解决办法：如果不能保证id列都是string类型，则需要去掉该过滤条件。

5.列值的集合: df['col_name'].values

想实现取某一行的值并加入到一个集合中去(还有很多其他csv也有这个列，因此没有使用df.drop_duplicates()方法)，达到去重的效果，因为对pandas不熟，没有想到特别好的方法，最后这样实现的：
id_set=set() for id in df['id'].values: id_set.add(id)
此法效率应该不高，若读者有更好的方法，可留言告知，谢谢。

6.指定列的去重

可参考： https://www.cnblogs.com/everfight/p/pandas_to_list.html
查看全文

相关阅读:
selenium 学习（-）
阿里百川SDK初始化失败错误码是203
sql-如何提高SQL查询的效率？
索引失效原因总结
 索引失效原因总结
 sql-优化-大表关联小表
 sql-优化-大表关联小表
 C#-How to get series point info when mouse is over chartcontrol
C#-How to get series point info when mouse is over chartcontrol
C#-ILookup 初始化

原文地址：https://www.cnblogs.com/aaronhoo/p/9290014.html