zoukankan      html  css  js  c++  java
  • 编码方式小解

    ASCII

    简介: 最早出现的编码方式,全称:American Standard Code for Information Interchange,美国信息互换标准代码

    内容: 大小写字母、数字、标点符号、空格 用连续的字节状态表示(不包括扩展字符集)

    长度: 1个字节 8位

    数目: 最初0~127 随着计算机的普及扩展到255,后面的被称为“扩展字符集”,终于达到阈值,前128位不变,后面的是扩展集,可改变

    GB2312

    简介: 国人对ASCII的扩展字符集,前128未不变,两个大于127的字符连在一起时表示一个汉字,前面一个字节(高字节)从0xA1到0xF7,后面一个字节(低字节)从oxA1到oxFE,

    组合成大约7000个简体汉字,也加入数字符号,罗马希腊字母,日文假名等,连原有的字母、数字、标点、空格也重新编成两个字节长,这就是“全角字符”,127以下的叫“半角”字符

    内容: 原有的基础上加上部分汉字,数学符号,罗马希腊字母,日文假名

    长度: 前128 一个字节 8位(半角),后面 两个字节 16位(全角)

    GBK,GB18030

    简介: GBK是对GBK2312的改进,GB18030是对GBK的改进

    内容: 更多的汉字,繁体字,符号,GB18030还包括部分少数民族文字

    长度: 前128 一个字节 8位(半角),后面 两个字节 16位(全角)

    UNICODE

    简介: 为应对各国都弄出的五花八门的编码方式导致乱了套,ISO废了所以的地区性编码方案,搞出一个包括地球上所有文化,字母和符号的编码,全称“Universal Multiple-Octet Coded Character Set”,简称UCS

    内容: 地球上所有文化,字母和符号的编码

    长度: 全部两个字节 16位,不过前128位的前八位都是0!

    与GBK的冲突:在制订时没有考虑与任何一种现有的编码方案保持兼容,这使得 GBK 与UNICODE 在汉字的内码编排上完全是不一样的,没有一种简单的算术方法可以把文本内容从UNICODE编码和另一种编码进行转换,这种转换必须通过查表来进行

    UTF-8, UTF-16

    简介: 为了解决UNICODE在网络上传输的问题,面向传输的UTF(UCS Transfer Format)标准出现,UTF-8每次8位传输数据,UTF16每次16个位,只不过为了传输时的可靠性,从UNICODE到 UTF时并不是直接的对应,而是要通过一些算法和规则来转换。

    长度: UTF-8 汉字通常占3个字节,扩展B区占4个, UTF-16编码,通常汉字占两个字节,CJKV扩展B区、扩展C区、扩展D区中的汉字占四个字节

    国内依旧有人使用GBK,这最初是出于空间的考虑,UNICODE体积较大,但随着电脑空间的扩大已经无关紧要,建议统一使用UTF-8!

    Base64

    简介: 某些系统只能使用ASCII,Base64就是用来将非ASCII字符的数据转换成ASCII字符的一种方法,例如图片、文档,特别适合在http,mime协议下快速传输数据。

  • 相关阅读:
    如何实现asp.net页面的美观性?
    关于UpdatePanel和页面刷新的问题
    由windows server2012 想起
    新手看SEO网站优化
    转载Web 2.0 新名词:Widget
    由“美图秀秀”软件的网站,看网站的生存模式
    关于团队合作的一点认识
    对新网好失望,郁闷中
    程序员度量:改善软件团队的分析学
    了解天才科学家的研究历程,了解知识贴近生活的一面,学习就是一件充满乐趣的事儿
  • 原文地址:https://www.cnblogs.com/yanze/p/6055505.html
Copyright © 2011-2022 走看看