zoukankan      html  css  js  c++  java
  • 聊聊python 2中的编码

    为什么需要编码:

    计算机可以存储和处理二进制,那么从文字到计算机可以识别的二进制之间需要对应的关系,于是便有了ASCII,ASSCII使用7位字符,由于1byte=8bit,所以最高位补一个0,使用8位以方便计算和处理;

    而对于拉丁语系的技术宅们来说,对高位空着的,使用最高位正好可以用于拉丁语字符,使用一个字节表示一个字,这套编码为latin-1;

    但是万万没有想到的是,对于东亚的国家,汉语字符常用的就有几千个,于是国家标准局制定了一份中文编码GB2312,通过两个字节表示一个汉字,就是可以表示的汉字个数为2的16次方,且最高位为0兼容ASCII,为32768个汉字,后来出现的GBK兼容GB2312;

    但是,使用GBK编码仅仅可以表示汉字和英文字符,无法做到多种语言同时出现的时候同时表示,这个时候,Unicode(又称为万国码)出现了,Unicode采用32位(4个字节)表示一个字符,Unicode是一种编码,用于指定字符到二进制之间的对应关系,对于存储和传输,Unicode有几种不同的实现,比较常用的有UTF-8;

    在python2中,如果在源码首行不显示指定编码,则无法再源码中出现ASCII编码

    python中的编码:

     在python中有两个表示字符串的类型:str和unicode;str可以理解为一个存储二进制内容的容器,str不存储编码信息,对str的迭代会按照在内存中的字节顺序依次迭代;对于Unicode类型,python在内存中的存储和使用时按照UTF-8格式,代码中表示前面加u;

    unicode和str之间的转换,decode将str转换为指定格式的Unicode类型,encode表示将一个Unicode按照指定的格式解析为str;

    文件读写:

    内置的open函数打开一个文件,read方法读取一个str,如果读取的是其他编码的文字,则需要decode之后才可以使用;

    对于使用一个open函数打开一个文件之后的写操作(多字节编码的字符串),则需要将需要写入的字符串按照其编码encode为一个str,如果直接写入,则会引起错误,如果在代码中加入encodeing声明,则会按照声明的编码格式encode之后写入;

    使用codecs模块提供的open函数,可以直接指定号编码打开一个文本文件,那么读取到的文件内容则可以直接是一个unicode字符串,使用codecs.open可以避免很多编码问题:

    建议:

    1、字符编码声明:在代码开头声明编码格式:

    2、使用codecs的open函数处理文本文件;

    3、尽可能使用unicode而不是str:在所有的字符串引号前面加u;

  • 相关阅读:
    初学者常用的LINUX命令
    logging模块全总结
    logging模块初识
    xpath知多少
    selenium常用的API
    系统测试基础(适合入门)
    JavaScript正则表达式(一)
    webpack2学习(二)
    webpack2学习(一)
    SQL语句学习
  • 原文地址:https://www.cnblogs.com/cqq-20151202/p/5649456.html
Copyright © 2011-2022 走看看