zoukankan      html  css  js  c++  java
  • 解决python2.x文件读写编码问题

    转自: https://xrlin.github.io/解决python2.x文件读写编码问题/

    python2.X版本在处理中文文件读写时经常会遇到乱码或者是UnicodeError错误,正如下面的程序所示:

    #coding=utf-8
    # test.txt是一个以gbk2312编码(简体中文windows系统中的默认文本编码)的文本文件
    
    # 文本写入
    with open('test.txt', 'a') as f:
      f.write('test') # 正常写入
      f.write('测试') # 正常写入,乱码
      f.write(u’测试') # 写入错误,触发UnicodeEncodeError异常
    
    # 文本读取
    with open('test.txt') as f:
      for line in f:
        print line, type(line)  # 输出test娴嬭瘯, <type 'str'>
    

    由于脚本源文件中的字符为utf-8编码,而文本文档中的字符为gb2312编码,所以以str类型字符串直接写入文件,此时str字符串的编码与文件编码不同,导致乱码。 直接str类型参数传递给write方法容易导致乱码问题,直接传递Unicode类型字符串作为write的参数,会导致UnicodeEncodeError错误,这是因为python2在写入unicode字符串时会自动尝试转码为ascii编码,而ascii编码并不能处理中文。 知道了问题的根源,首先想到的解决方法就是对源字符串按照文件进行编码,保证编码正确。

    # 解决方法1
    with open('test.txt', 'w') as f:
      f.write('测试'.decode('utf-8').encode('gb2312'))
      f.write(u'测试‘.ecode('gb2312')
    

    如果是str类型的字符串,需要使用decode(因为我在脚本中设定#coding=utf8,所以使用decode(‘utf-8’))将其改变为python内部使用的Unicde编码然后使用encode转换成对应的编码类型。

    读写操作都需要进行编码转换是个容易导致错误而且烦人的问题,python中提供了codecs这个内置自然语言处理模块方便我们进行不同编码语言的处理,codecs模块的open方法可以指定encoding参数设定文件的编码格式,以后codecs会自动处理文件的读写编码问题,读取的字符串和写入时的字符串参数统一使用python的Unicode类型。使用codecs的open方法代替原来的open方法发可以摆脱烦人的文件编码问题。

    with codecs.open('test.txt', 'w', encoding='utf-8') as f:
      f.write(u'测试')
    with codecs.open('text.txt', encoding='utf-8') as f:
      for line in f: 
       print line, type(line) # output: 测试<type 'unicode'>
    
    
  • 相关阅读:
    socket.io+angular.js+express.js做个聊天应用(二)
    [原创]Python通过Thrift连接HBase
    [原创]安装Sqoop并验证
    使用PostgreSQL、Hibernate 构建 NoSQL
    [原创]HBase客户端开发举例(第三部分)
    [原创]HBase客户端开发举例(第二部…
    [原创]全分布模式下Hadoop安装
    Samba的基本配置
    常见设计模式举例 转载有改动
    【转载】hibernate中使用ehcache
  • 原文地址:https://www.cnblogs.com/nyist-xsk/p/9681064.html
Copyright © 2011-2022 走看看