zoukankan      html  css  js  c++  java
  • 利用pandas中的to_csv模块保存数据,打开csv文件时出现乱码的解决方法

    最近尝试获取IEEE上的论文,实现批量获取论文的题目、作者、出版杂志、引用次数等内容,并将检索的数据保存为csv文件。在这个过程中,发现使用to_csv默认的"utf-8"编码类型进行读写文件的时候,部分作者的名字出现乱码情况,如下图所示。

    “Hana Dobšíček Trefná” 显示成为了“Hana Dob拧铆膷ek Trefn谩”,出现这样的情况,是由于编码的问题所引起的,因此主要是在encoding上找解决方案,从网上查到unicode编码有utf-8、utf-16和utf-32三种形式。

    • 情况一:设置encoding="utf-16",“Hana Dobšíček Trefná”显示正常,没能正常分列,并且使用read_csv可以正常读取。

    • 情况二:设置encoding="utf-32",“Hana Dobšíček Trefná”显示正常,没能正常分列,使用read_csv无法正常读取。

    • 情况三:设置encoding="utf-16", sep=" ",“Hana Dobšíček Trefná”显示正常,能正常分列,使用read_csv可以正常读取。

    • 情况四:设置encoding="utf-32", sep=" ",“Hana Dobšíček Trefná”显示正常,能正常分列,使用read_csv无法正常读取。

  • 相关阅读:
    2019 icpc西安邀请赛 点分治
    2019ccpc 秦皇岛
    hdu 5354 树上点分治
    cf 632E FFT+快速幂
    hdu 4812 树分治+逆元+手写hashmap
    2019 上海网络赛G 手写哈希map+字符串hash
    2019 上海icpc网络赛 C FFT优化卷积+小范围暴力
    hdu 6198 杜教BM
    洛谷P3804 后缀自动机
    集合总结
  • 原文地址:https://www.cnblogs.com/ystwyfe/p/8502986.html
Copyright © 2011-2022 走看看