zoukankan      html  css  js  c++  java
  • python2.X编码

    1、Python文件的编码

        在Python文件中,可以在第一或第二行指定文件的编码格式(以注释的形式加),这也是Python语法规定的,见http://www.python.org/peps/pep-0263.html。比如用utf8格式存储文件,就要加# -*- coding:gbk -*-   或 # coding = gbk,其中,# -*- coding:gbk -*-这种格式是很多流行的文本编辑器都支持的,此处我使用的是Eclipse+Pydev。指定文件编码格式有两个作用:一是告诉文本编辑器要用指定的编码存储文件;二是告诉Python语法分析器以哪种编码格式来读取分析文件。一个是写入,一个是读取,编码和解码要一致才行。如果没有写上面的‘指定编码行’,那编码和解码就用默认值,文本编辑器的默认文件的编码可以自己修改,Python语法分析器默认用ASCII码解析文件,ASCII码范围是0~127,这样,当文件的某个字节的值大于127时,就会出错,如下。

    test.py文件:

    a = '你'

    print a

    当调试时,语法分析器检查出错误,SyntaxError: Non-ASCII character 'xc4' in file E: est.py on line 1, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details。

    我的eclips的默认编码是GBK,'你'的GBK编码是c4e3,查看test.py的二进制代码,的确如此。c4>127,ASCII码表中没有对应的字符,就报错了。

    因此,对于有非ASCII字符的代码文件,第一行或第二行一定要指定编码格式,建议使用utf-8编码,这种编码格式非常通用。即# -*- coding:utf-8 -*-

    1、Python文件的编码

        Python2.7中字符串有两个类型:string类型、unicode类型。比如

    test2.py文件:

    # -*- coding:utf-8 -*-

    a = '你'

    b = u'你'

    a是string类型,b是unicode类型,与文件的编码格式有什么关系呢?OK,test2.py是以utf-8编码后保存的,同一个文件中所有字符的编码格式都是一样的,不可能说a以utf8保存,而b以unicode保存(ucs2或ucs4)。当运行代码时,Python语法分析器会先检查语法,没有问题后,再交由Python解释器执行,对于a,解释器保存的就是其值'你'的utf8编码e4bda0,对于b,解释器通过u识别出它是unicode字符串,那就将其值由utf8转换成unicode放在内存。在python解释器中可以验证,

  • 相关阅读:
    Linux中常用操作命令(转)
    EntityFramework 优化建议(转)
    android 腾讯x5内核 浏览器
    Android MediaMetadataRetriever 读取多媒体文件信息,元数据(MetaData)
    Android MVP 利用rxjava 避免向Model传入监听方法
    Android 单元测试(junit、mockito、robolectric)
    Android 利用RecyclerView.Adapter刷新列表中的单个view问题
    android 5.0以上通知栏、状态栏图标变成白色
    Android 照相 滤镜
    Android 进程常驻(使用第三方MarsDaemon)(虽然不可用,但是还是保留下。)
  • 原文地址:https://www.cnblogs.com/ajianbeyourself/p/3391375.html
Copyright © 2011-2022 走看看