zoukankan      html  css  js  c++  java
  • python 读取不同格式文本

    常见文本编码格式:UTF-8、UTF-16、UTF-32、ANSCII

    BOM  Byte Order Mark 的简称,即字节序标记。用于标记文本流:

    • 表示文本流的字节顺序,是小端序(little-endian)还是大端序(big-endian;
    • 表示文本流是 Unicode 字符;
    • 表示文本流的编码方式。

    几种编码方式的 BOM :

    • UTF-80xEFBBBF
    • UTF-16BE):0xFEFF
    • UTF-16LE):0xFFFE
    • UTF-32BE):0x0000FEFF
    • UTF-32LE):0xFFFE0000

    Python核心库的open函数是按照ascii设计的。但是,现在我们越来越多地要面对Unicode文件。好在python提供了codecs模块,帮我们解决了这个问题。使用中有一些需要注意的问题。
    codecs模块的open定义如下
    open(filename, mode[, encoding[, errors[, buffering]])

    #Open an encoded file using the given mode and return a wrapped version providing transparent encoding/decoding. 
    其中前两个参数filename和mode和默认的open相同。第三个参数encoding是关键,制定了文件的编码方式。
    对于常用的Unicode有这几种utf_16、utf_16_le、utf_16_be、utf_8,每一种还有一些可用的别名,具体可以查找python manual。
    utf_16、utf_16_le、utf_16_be参数的区别是这样的。
    如果指定了utf_16,python会检查文件的BOM(Byte Order Mark)来判断,文件类型到底是utf_16_le、utf_16_be。对于没有BOM的文件会报错。
    如果我们直接指定了utf_16_le、utf_16_be,python就不检查BOM了。对于没有BOM的文件很好用。但是,对于有BOM的文件就要注意,它会把BOM当作第一个字符读入。

  • 相关阅读:
    angular模板
    Growth: 全栈增长工程师指南
    全栈增长工程师实战
    vue 快速搭建项目 iview
    ng-style
    教程视频链接
    内置对象
    对象—封装、继承
    对象—构造函数
    函数-理论
  • 原文地址:https://www.cnblogs.com/HISAK/p/11622068.html
Copyright © 2011-2022 走看看