zoukankan      html  css  js  c++  java
  • 操作系统之字符集

        字符集是操作系统中所使用的字符映射表。最早的字符集,可以认为是UNIX系统使用的,包含128个字符的7- bit ASCII 字符集(包括tabs、空格、标点、符号、大小写字母、数字和回车键等)。随后,就是标准8- bit ASCII,包含256个字符,早期的Windows 操作系统使用8- bit ASCII字符集。由于扩展后的ASCII字符集还是无法满足所有语言的需求,如汉语、日语和韩语这些语言的字符都高达几万个字符。所以产生了16-bit字符集(双字节、多字节或变数字节)--统一的字符编码标准为Unicode。

        Unicode是一个国际标准,采用双字节字符进行编码,提供了在世界主要语言中通用的字符,所以也称为基本多文种平面。Unicode以明确的方式表述文本数据,简化了混合平台环境中的数据共享。目前,很多操作系统都支持Unicode,包括Windows系统、Linux系统和Mac OS、Solaris、IBM-AIX、HP-UX等。Unicode简称为UCS,现在用的是UCS-2,即2个字节编码,与国际标准字符集ISO 10646-1相对应。UCS的最新版本是2005年的Unicode 4.1.0,而ISO的最新标准是ISO 10646-3:2003。

        Codepage是各国的文字编码和Unicode之间的映射表。例如,简体中文和Unicode的映射表就是CP936,其他的映射关系有:

         UTF-8/ UTF-16/ UTF-32。UCS只是规定如何编码,并没有规定如何传输、保存编码。所以有了UniCode实用的编码体系,如UTF-8、UTF-7、UTF-16。UTF-8(UCS Transformation Format)和ISO-8859-1完全兼容,解决了UniCode编码在不同的计算机之间的传输、保存的问题,使得双字节的Unicode能够在现存的单字节的系统上正确传输。UTF-8使用可变长度的字节来储存Unicode字符,这能解决敏感字符引起的问题。前面有几个1,就表示整个UTF-8串是由几个字节构成的。以下是Unicode和UTF-8之间的转换关系表:

    比较完整的字符集列表:

  • 相关阅读:
    卷积神经网络(Convolutional Neural Network,CNN)
    理解滑动平均(exponential moving average)
    python2到python3代码转化:2to3
    Mac查看和杀死后台进程
    pip安装python库时使用国内镜像资源加速下载过程
    关于pip安装时提示"pkg_resources.DistributionNotFound"错误
    【Linux基础】压缩和解压
    【Linux基础】常用Linux命令: cd, cp, ls, mkdir, mv, rm, su, uname
    【python3基础】相对路径,‘/’,‘./’,‘../’
    剑指offer-学习笔记
  • 原文地址:https://www.cnblogs.com/javawebsoa/p/3038628.html
Copyright © 2011-2022 走看看