zoukankan      html  css  js  c++  java
  • Python里的编码问题

    马克一篇 http://bbs.chinaunix.net/archiver/tid-1163613.html

    http://www.openhome.cc/Gossip/Python/ImportImportAsFrom.html

    ANSCII: 
    标准的 ANSCII 编码只使用7个比特来表示一个字符,因此最多编码128个字符。扩充的 ANSCII 使用8个比特来表示一个字符,最多也只能 
    编码 256 个字符。 
    UNICODE: 
    使用2个甚至4个字节来编码一个字符,因此可以将世界上所有的字符进行统一编码。 
    UTF: 
    UNICODE编码转换格式,就是用来指导如何将 unicode 编码成适合文件存储和网络传输的字节序列的形式 (unicode -> 
    str)。像其他的一些编码方式 gb2312, gb18030, big5 和 UTF 的作用是一样的,只是编码方式不同。 

    字符均使用双字节来表示,只不过为区分中文,将其最高位都定成1。

    至于UTF-8编码则是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。对于英文字符较多的论坛则用UTF-8节省空间。

    GBK包含全部中文字符;UTF-8则包含全世界所有国家需要用到的字符。

    GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准(好像还不是国家标准)
    UTF-8编码的文字可以在各国各种支持UTF8字符集的浏览器上显示。
    比如,如果是UTF8编码,则在外国人的英文IE上也能显示中文,而无需他们下载IE的中文语言支持包。 所以,对于英文比较多的论坛 ,使用GBK则每个字符占用2个字节,而使用UTF-8英文却只占一个字节。

    UTF8是国际编码,它的通用性比较好,外国人也可以浏览论坛,GBK是国家编码,通用性比UTF8差,不过UTF8占用的数据库比GBK大~
  • 相关阅读:
    vmware esxi 过期,激活
    mysql 导入csv文件
    定时登录下载sftp服务器上的某些有规则的文件
    修改tmp的临时目录的地址
    jetty权威指南
    将linux下的rm命令改造成mv到指定的目录下
    mysql 5.6 grant授权的时候出现问题
    Keras vs. PyTorch
    Visualizing LSTM Layer with t-sne in Neural Networks
    keras Lambda 层
  • 原文地址:https://www.cnblogs.com/sparkmorry/p/3440304.html
Copyright © 2011-2022 走看看