zoukankan      html  css  js  c++  java
  • 字符集相关随笔

    整理摘录一些相关的东西:

    1、字符集和字符编码

    字符是各种文字和符号的总称,包括各个国家文字、标点符号、图形符号、数字等。字符集是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集有:ASCII字符集、ISO 8859字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。 
     
    编码(encoding)和字符集不同。字符集只是字符的集合,不一定适合作网络传送、处理,有时须经编码(encode)后才能应用。如Unicode可依不同需要以UTF-8、UTF-16、UTF-32等方式编码。
     
    字符编码就是以二进制的数字来对应字符集的字符。

    2、ASCII与Unicode

    ASCII就是编码英文的26个字母和一些常见的符号,之后扩展了一半。总之是一个字节来做编码,大于128的部分是一些特殊符号。但ASCII是无法编码别的东西的,比如说是不存在“中文的ascii码需要2个字符”这种说法的。ASCII就只有一个字节。
    Unicode是足够编码地球上所有的语言了,所以ASCII中所能表示的,Unicode当然全部包括了。Unicode本身是只有2个字节的,之所以出现UTF-8,UTF-16等等之类,那是为了针对不同的应用环境,提高整体编码效率,比如如果某篇文章里绝大部分是英语(单字节就能表示),就比较适合使用utf-8,而如果绝大部分是中文(需要双字节),可能就utf-16比较合适了。

    ascii是一个字节,但是unicode可不一定就是两个字节. ascii只能表示英文数字和常用标点符号,编码在1-127之间.unicode可以表示所有字符,编码范围很大.ascii 能表示256个符号,低128个是英文 数字 标点 与一些不可显示字符,高128个在不同的代码页上会表示不同的内容,就像繁体中文与简体中文一样,繁体中文的txt(ascii)在简体下打开就是乱码, unicode就不存在问题,因为能表是65000个字符,因此不会有重复字符发生。

    3、Byte与Bit

    1字=2字节(1 word = 2 byte) 
    1字节=8位(1 byte = 8bit) 
     
    一个字的字长为16 
    一个字节的字长是8

    4、各种字符编码

        参考

    http://www.regexlab.com/zh/encoding.htm

    我要把所有的坑都趟平!
  • 相关阅读:
    让资源管理器不显示最近常用文件夹
    票房实际是屌丝血
    为什么读了很多书,还是过不好这一生?
    抱怨就像呕吐
    finally关键字小复习
    Java中菜单组件
    Java的GUI窗体出现乱码解决方法
    Java中GUI的默认窗体布局 和 常见的窗体布局方案
    适配器类(便利类)的由来:当你自己写的类中想用某个接口中个别方法的时候(注意:不是所有的方法),肿么办?
    技术管理者工作成效评估表
  • 原文地址:https://www.cnblogs.com/loveling-0239/p/7227798.html
Copyright © 2011-2022 走看看