zoukankan      html  css  js  c++  java
  • 【编码】Unicode与UTF-8关系

    Unicode字符集合

    Unicode 也称为 UCS(Universal Coded Character Set:国际编码字符集合) 是一个字符集合。

    对世界上大部分的文字系统进行了整理,编码,使电脑可以用更为简单的方式来呈现和处理文字。最新的版本 Unicode 11.0 已经包含了 137439 个字符。

    Unicode 的数量之多,如果完全涵盖它, 需要用 4 个字节来表示,但是计算机存储过程中却不是必须都用 4 个字节来完成。对于有些字符,尤其是编码在前面的字符我们也可以通过 1 个或 两个字节来节省空间。

    Unicode 只是一个字符集合,每个字符用一个数字来表示,但是这些数字在计算机内采用什么方式来存储,是全部都是 4 个字节,还是 1 到 4 个字节不等,这就涉及到了字符编码的概念

    UTF-8 编码

    UTF-8 是使用互联网上使用最广泛的 unicode 编码方式。 UTF-8 只是 Unicode 的一种实现方式,UTF-8 是编码方式,而 Unicode 是字符集合

    它是可变长的编码方式,长度从 1 个字节到 4 个字节不等。

    其他

    ISO8859-1,通常叫做Latin-1。是单字节编码,向下兼容ASCII,Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符。 而gb2312是标准中文字符集

  • 相关阅读:
    Windows:生成环境Word,PPT,EXCEL com+组件配置
    Win10 计算机管理 打不开应急办法
    Js:弹窗剧中
    Asp.net跨域配置
    Centos6系列安装nginx
    Win_oracle_exp/expdp备份
    MSSQL:查看某个账号使用得数据库
    MSSQL:查看作业情况
    MSSQL:账号无法删除方案
    MSSQL:删除系统作业计划
  • 原文地址:https://www.cnblogs.com/itplay/p/10481753.html
Copyright © 2011-2022 走看看