zoukankan      html  css  js  c++  java
  • 系统编码 python编码

    编码一直都是一个很让人头疼的问题,尤其是在python里面。花了几天时间,终于把这个问题给弄明白了。

    一,什么是编码,编码过程是怎样的?常见的编码方式有哪些?
    编码是从一个字符,比如‘哈’,到一段二进制码流的过程。解码是从一段二进制码流到一个字符的过程。
    在编码的过程中,会涉及到三个名词:字符,内码,字符集。字符就是终端上显示的各个文字字母等。内码和字符是一一对应的关系。每一个字符都对应一个唯一的内码。内码在内存中的具体实现称为字符集。
    注意:严格来说,编码指内码编码成字符集;解码指字符集解码为内码。
    ascii不仅仅指英文对应的内码,还包括它的具体实现,也就是它的字符集。它是用一个字节存储每个内码的。
    unicode是所有文字(包括英文,中文,日文等)所对应的内码的集合。
    unicode的实现方式比较多样,常用的有UTF-8,GBK,GB18030。
    其中,UTF-8是一种不定长的内码实现方式。
    GB18030兼容GBK,GBK兼容GB2312。

    二,系统编码方式查询更改命令有哪些?(linux)
    locale是最核心的一个变量。它包括12个基本属性。这12个基本属性构成某个地区的语言习惯,日期,货币,单位等文化因素。LC_ALL是强制修改locale信息的命令。LANG是locale的默认设置命令。因此,当LC_ALL强制locale信息以后,LANG的设置也就失效了。

    三,python中的编码问题
    在python中,需要分清楚三种编码:系统编码,python编码,文件编码。先面说一下这三种编码的作用。
    系统编码,通常也是写源码的编辑器的编码方式。它代表源码文件内的所有内容都是根据词方式编码成二进制码流,存入到磁盘中的。
    系统编码可以通过locale命令查看(LINUX)。
    python编码,是指python内设置的解码方式。如果不设定的话,python默认是ascii解码。它的设置方式有一下三种:
    第一种:在源码文件开头(一定要是第一行):#coding=UTF-8,源码文件的设置解码方式为UTF-8
    第二种:在源码文件开头(一定是第一行):#-*-coding:UTF-8-*-,源码文件的设置解码方式是UTF-8
    第三种:
    import sys
    reload(sys)
    sys.setdefaultencoding('UTF-8')
    个人推荐前两种。前两种的区别在于,第二种能够被其他语言识别,第一种只使用于python
    下面举例说明系统编码和python编码的作用。
    系统编码:locale:gbk
    python源文件test.py
    #coding='UTF-8'
    s='哈'
    print s

    在test.py保存的时候,会按照系统编码方式GBK的方式,编码成gbk二进制码流,存储到磁盘上。当运行该程序时。gbk二进制码流调入内存,并按照python设置的解码方式解码,也就是按照UTF-8的方式解码。所以,源文件中的汉字“哈”显示按照gbk方式,编码成二进制码流,然后按照UTF-8的方式解码成unicode内码。可以想象,结果不是错误提示,就是显示出来的是乱码。
    还有一种情况需要用到python的默认解码方式。例如:
    系统编码:locale:gbk
    test.py
    #coding='gbk'
    s='哈'
    ss=s.encode('UTF-8')
    字符串s表示的是汉字“哈”的gbk编码的二进制码流(python中,所有字符串都表示的是相应的二进制码流,所有的unicode都表示的是相应的内码)。ss=s.encode('UTF-8')的过程中,会先对s的二进制码流,按照python设定的默认解码方式解码成unicode内码,然后对内码按照encode指定的编码方式编码。

    在字符串的处理过程中,记住一句话:对二进制码流,按照解码的编码处理。怎么理解这句话呢?
    例如:
    print s
    字符串s表示的是二进制码流,print函数把它交给系统,系统按照系统的编码方式解码饼显示。当然,如果系统的解码方式和s的编码方式不兼容的话,可能会报错或者乱码。
    再例如:
    f.write("%s "%str)
    字符串str表示的是二进制码流,f是打开的指定文件。str二进制码流按照f文件的编码方式进行解码和编码,结果保存在f文件中。
    为了安全起见,文件在打开的时候,最后指定文件编码方式

    字符串和unicode的区别
    字符串表示的是编码后的二进制码流,unicode表示的是内码。所以,为了避免解码错误的出现,最好使用unicode表示
    unicode的定义,使用
    1.s=u'哈':定义unicode字符串s。s表示的是哈的unicode内码
    2.ss=unicode(s,'gbk'):对字符串s按照gbk方式解码,ss表示解码后的内码
    3.import codecs
    f=codecs.open(filename,'r','gbk‘)
    s=f.read()
    按照gbk方式读取filename,读取后的内容转变成unicode内码存在变量s中。

    好了,记住上面这些,python中碰到编码问题,再也不会害怕


    转载 http://blog.sina.com.cn/s/blog_67852f560101fjtc.html

  • 相关阅读:
    iBatis——自动生成DAO层接口提供操作函数(详解)
    【Spring Boot项目】Win7+JDK8+Tomcat8环境下的War包部署
    MySQL使用小记
    DB迁移:从SQL Server 2005到MySQL
    【文章学习】监控网页卡顿、崩溃
    为什么执行x in range(y)如此之快
    python笔试题(三)
    python笔试题(二)
    python笔试题(-)
    rest-framework(2)
  • 原文地址:https://www.cnblogs.com/yan456jie/p/5369496.html
Copyright © 2011-2022 走看看