zoukankan      html  css  js  c++  java
  • 【知识归纳】字体编码

    参考资料:知乎 - 很多网站源码都是分为 GBK 和 UTF-8 版,为什么要同时开发两种?

    • 八位的字节一共可以组合出256(2的8次方)种不同的状态
    • ANSI:一个字符对应一个字节,其中从0开始的32种字节状态被称为“控制码”,之后一直到127号字节状态用来表示所有的空格、标点符号、数字和大小写字母
    • 拓展字符集:在ANSI的基础上拓展,把128-255号字节状态赋予了新的字母、符号,以及画表格时需要用下到的横线、竖线、交叉等形状
    • GB2312:GB2312 是对 ASCII 的中文扩展。该标准在ANSI的基础上取消了拓展字符集,并规定:一个小于127的字符的意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字,前面的一个字节(他称之为高字节)从0xA1用到0xF7,后面一个字节(低字节)从0xA1到0xFE,这样就可以组合出大约7000多个简体汉字了。其中,两个字节的字符称为全角字符,一个字节表示的字符称为半角字符
    • GBK 标准:不再要求低字节一定是127号之后的内码,只要第一个字节是大于127就固定表示这是一个汉字的开始,不管后面跟的是不是扩展字符集里的内容。GBK 包括了 GB2312 的所有内容,同时又增加了近20000个新的汉字(包括繁体字)和符号。
    • DBCS: "DBCS"(Double Byte Charecter Set,双字节字符集)是一系列汉字编码标准的统称,它们最大的特点是两字节长的汉字字符和一字节长的英文字符并存于同一套编码方案里
    • UNICODE/UCS:国际标谁化组织(ISO)搞的一个包括了地球上所有文化、所有字母和符号的编码。 ISO规定必须用两个字节来统一表示所有的字符,对于ascii里的那些“半角”字符,UNICODE 包持其原编码不变,只是将其长度由原来的8位扩展为16位(其高8位永远是0)
    • UCS-4方案:用四个字节来表示一个字符,这样可以组合出21亿个不同的字符出来(最高位保留用于其他用途)。该方案是UNICODE的备用拓展
    • UTF:UTF(UCS Transfer Format)是UNICODE的网络传输标准。UTF8就是每次8个位传输数据,而UTF16就是每次16个位。为了传输时的可靠性,从UNICODE到UTF时并不是直接的对应,而是要过一些算法和规则来转换。 网络中交换数据时,为了核对双方对于高低位的认识是否是一致,需要在文本流的开始时向对方发送一个标志符:"FEFF"或"FFFE"
  • 相关阅读:
    ASP.NET MVC 3 (Intro to ASP.NET MVC 3) (1/9)
    ASP.NET MVC 3 (Implementing Edit, Details, and Delete Views) (9/9)
    遍历Request.ServerVariables
    类似QQ邮箱中‘HTML方式查看’功能查看Office文件
    ASP.NET MVC 3 (Accessing your Model's Data from a Controller) (5/9)
    无法解析或打开软件包的列表或是状态文件
    初始化二维指针
    Linux练习(产生临时文件)
    [zz]c++可变参数函数使用
    git使用方法
  • 原文地址:https://www.cnblogs.com/lokvahkoor/p/10969888.html
Copyright © 2011-2022 走看看