zoukankan      html  css  js  c++  java
  • 字符编码

    字符编码(理论多,结论少)
    ASCII:
    首先ASCII字符编码分为7位码和8位码,7位码是标准ASCII码,共2^7=128种不同编码。然后还有种扩展ASCII码,是在原先基础上
    额外多了128 个特殊符号字符、外来语字母等,所以共8位,并且是2^8=256种不同编码。ASCII 码使用指定的7位或8 位二进制数组合来
    表示12 或256种可能的字符。标准ASCII 码也叫基础ASCII码,使用7 位二进制数(剩下的1位二进制为0)来表示所有的大写和小写字母,
    数字0 到9、标点符号, 以及在美式英语中使用的特殊控制字符。后128个称为扩展ASCII码。许多基于x86的系统都支持使用扩展(或“高”)ASCII。
    扩展ASCII 码允许将每个字符的第8 位用于确定附加的128 个特殊符号字符、外来语字母和图形符号。

    GBK:
    GBK即汉字内码扩展规范,K为扩展的汉语拼音中“扩”字的声母。英文全称Chinese Internal Code Specification。GBK编码标准兼容GB2312,
    共收录汉字21003个、符号883个,并提供1894个造字码位,简、繁体字融于一库。GB2312码是中华人民共和国国家汉字信息交换用编码,
    全称《信息交换用汉字编码字符集——基本集》,1980年由国家标准总局发布。

    Unicode:
    Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符
    编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的
    要求。1990年开始研发,1994年正式公布。

    UTF-8
    UTF-8(8位元,Universal Character Set/Unicode Transformation Format)是针对Unicode的一种可变长度字符编码。
    它可以用来表示Unicode标准中的任何字符,而且其编码中的第一个字节仍与ASCII相容,使得原来处理ASCII字符的软件无须或
    只进行少部份修改后,便可继续使用。因此,它逐渐成为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。


    python3中str默认为Unicode的编码格式
    python2中str默认为bytes类型的编码格式
    python3解释器默认编码为utf-8
    python2解释器默认编码为ascii

    计算机的内存中,统一使用Unicode编码
  • 相关阅读:
    git注册和基本命令
    thinkphp概述2
    thinkphp概述
    PHP基础知识总结
    phpmyadmin教程
    开发环境wamp3.06 + Zend studio 12 调试配置
    PHP标记风格,编码规范
    PHP开发工具 zend studio
    php与ajax技术
    可变参模板template
  • 原文地址:https://www.cnblogs.com/h1227/p/12482367.html
Copyright © 2011-2022 走看看