zoukankan      html  css  js  c++  java
  • 编码

    GB2312

    GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换,通行于中国大陆;新加坡等地也采用此编码。

    对于人名、古汉语等方面出现的罕用字,GB 2312不能处理,这导致了后来GBK及GB 18030汉字字符集的出现。

    ISO-8859-1

    通常叫做Latin-1。Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符。

    以ISO-8859-1编码的文本,都以bytes[]的形式保存,若要显示中文,只需以显示平台的默认编码格式进行解码即可。若仍然以ISO-8859-1格式解码,得到的中文字符肯定是乱码,因为ISO-8859-1自身不能显示中文。

    Java内部字符串String用得都是Unicode编码,所以Java内部的字符串可以说是没有编码的,只有bytes[]有编码!但是java平台是有编码的,编码为平台(操作系统)默认编码,但是对于别的平台如数据库、文件、网页(浏览器)等,编码不一样!

    UTF-8
    是 UNICODE 的一种变长字符编码,即 RFC 3629。简单的说——大字符集。可以解决多种语言文本显示问题,从而实现应用国际化和本地化。UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。

    ASCII码

    它能表示128个字符,其中包括英文字符、阿拉伯数字、西文字符以及32个控制字符。它用一个字节来表示具体的字符,但它只用后7位来表示字符(2^7=128),最前面的一位统一规定为0。

    Unicode符号集

    Unicode就是这样一种编码:它包含了世界上所有的符号,并且每一个符号都是独一无二的。

     

  • 相关阅读:
    二叉树的遍历
    数据结构
    POJ 2054 Color a Tree (贪心)
    $2019$ 暑期刷题记录 $2$(基本算法专题)
    POJ 3889 Fractal Streets(逼近模拟)
    POJ 2018 Best Cow Fences (二分答案构造新权值 or 斜率优化)
    CH5E26 扑克牌 (计数类DP)
    BZOJ 1911 特别行动队 (斜率优化)
    BZOJ 1233 干草堆 (单调队列优化DP)
    POJ 1038 Bugs Integrated Inc (复杂的状压DP)
  • 原文地址:https://www.cnblogs.com/qingfengzhuimeng/p/6770320.html
Copyright © 2011-2022 走看看