zoukankan      html  css  js  c++  java
  • Python: open和codecs.open

    python的编解码:

      input文件(gbk, utf-8...)   ----decode----->   unicode  -------encode------> output文件(gbk, utf-8...)

    很多文件处理的包是unicode编码,刚开始读入文件(gbk, utf-8...)后要decode为unicode编码格式,再encode为需要

    的格式(gbk, utf-8...)。

    第一种 用open():

      f=open('xxx', 'r')
      content=f.read().decode('utf-8')

    第二种 用codecs.open():

      f=codecs.open(XXX,'r', encoding='utf-8') #使用codecs.open读入时直接解码
      content=f.read()

    ------2016-12-23--------------------------------------

    问题:UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 199: illegal multibyte sequence

      原因可能是文本里有奇怪的符号比如:®,?(英文的问号)( 在学习机器学习实战ham/23.txt这本书时,遇到®符号问题)

  • 相关阅读:
    课后作业03
    课堂测验02
    构建之法阅读笔记02
    进度条 二
    软件工程个人作业02
    Sprint6
    Sprint5
    Alpha版总结会议
    Beta版总结会议
    Alpha阶段项目Postmortem会议总结
  • 原文地址:https://www.cnblogs.com/billyzh/p/5939348.html
Copyright © 2011-2022 走看看