zoukankan      html  css  js  c++  java
  • 计算机基础 ---- 编码(er)

    1、字符集与编码

    字符集:字符组成的集合,汉字,字母,符号被收录到标准的字符集合

    编码:规定每个字符使用一个字节还是多个字节存储,那些字节来存储的规定

      术语:字符编码(character encoding),字符映射(character map),字符集(character set)或者代码页(IBM称呼计算机的BIOS 所支持的字符集编码),在历史上往往是同种概念,即字符表(Repertoire) 中的字符如何编码为码元的流(stream of code units)-- 通常每个字符对应单个编码。

      码元(Code Unit 也称“代码单元”)指的是一个已编码的文本中具有最短的比特组合单元。

          对于UTF-8来说,码元是8比特长;

          对于UTF-16来说,码元是16比特长;

          对于UTF-32来说,码元是32比特长。

    不同地方的编码标准:

      西欧标准:ISO-8859-1,ISO-8859-5,ISO-8859-6等等

      DOS字符集(又称IBM 代码页): CP437,CP737,CP850,CP852等等

      Windows字符集:Windows-1250,Windows-1251用于西里尔字母表,Windows-1252等等

      中国大陆港澳:GB 2312,EUC,GBK(规定文件为GB13000),GB 18030 等

    2、常用的编码方式

    常见的 ISO-8859-1,GBK,UTF-8 都属于什么方式来。

    1、单字节字符编码 :  ISO-8859-1  

      ISO 8859-1,正式编号为ISO/IEC 8859-1:1998,又称Latin-1或“西欧语言”,是国际标准化组织内ISO/IEC 8859的第一个8位字符集。它以ASCII为基础,在空置的0xA0-0xFF的范围内,加入96个字母及符号,藉以供使用附加符号的拉丁字母语言使用。曾推出过 ISO 8859-1:1987 版。

    ISO-8859-1的别名有: iso-ir-100, csISOLatin1, latin1, l1, IBM819. Oracle数据库称WE8ISO8859P1

  • 相关阅读:
    谷歌阅读器将于2013年7月1日停止服务,博客订阅转移到邮箱
    SelfIntroduction
    WCF(四) Configuration file (配置文件)
    亚当与夏娃的礼物
    WCF(三) Message pattern
    面试小题
    分内分外
    C#多线程处理之AutoResetEvent和ManualResetEvent
    WCF(五) Host WCF Service
    ARX中的Purge
  • 原文地址:https://www.cnblogs.com/obge/p/11871346.html
Copyright © 2011-2022 走看看