zoukankan      html  css  js  c++  java
  • rune和byte在处理字符/字符串中的应用.

    rune和byte在处理字符/字符串中的应用.

    定义:
    rune是int32的别名,-2147483648->2147483647,常用来表示UNICODE字符集,可以用来处理包含中文/非中文的字符集.
    type rune = int32
    byte是uint8的别名,0->255,常用来表示ASCII字符集
    type byte = uint8


    注意:
    1.字符集是整数类型的编号到字符的映射,不同的字符集所能表示的字符是有限的,对应它们所用的整数编号也是是有范围的.例如ASCII用0-127一共128个编号给128个字符编码.127的二进制为1111111,再加上最高位添加一位校验码,所以就可以使用计算机里面8bit大小的空间就可以表示所有ASCII中的字符了.所以,在golang中完全可以使用一个byte类型的变量的空间来存储ASCII字符集中的所有字符.

    2.还有一种UNICODE字符集,目的是统一全世界的字符,每一个符号都给予一个独一无二的二进制计算机编码.

    3.unicode虽然统一了全世界字符的二进制编码,但没有规定如何存储,是不想规定吧,毕竟规定空间大了对英文文件就浪费大量空间,规定小了,也不能把字符都表示全.UTF8/UTF16是对UNICODE方案的具体怎么存储的实现.UTF8使用1->4个字节,UTF16使用2->4个字节,UTF是一种变长的编码方式,根据不同的符号而变化字节长度.表示不同的字符使用不同的空间,而不是仅仅使用一种确定的满足最大整数字符的方案.其中汉字在UTF8方案中使用3个字节,也就是24bit的大小空间来表示;并且ASCII字符集是UTF8方案的子集,ASCII字符集的前128个字符正对应UTF8的前128个字符.在UTF16方案中使用4个字节,也就是32bit大小的空间来存储表示.因此,在golang中完全可以使用一个rune类型的整数变量的空间来存储汉字(UTF8/UTF16)/ASCII中的字符,况且这些都是我们经常使用的到的.

    4.还有一种中国人自己编的GBK/GBK2312/GBK18030字符集,使用2个字节来表示,也就是使用16bit的空间来存储.

    5.UTF-8 使用一至四个字节为每个字符编码。128 个 ASCII 字符(Unicode 范围由 U+0000 至 U+007F)只需一个字节,带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及马尔代夫语(Unicode 范围由 U+0080 至 U+07FF)需要二个字节,其他基本多文种平面(BMP)中的字符(CJK属于此类-Qieqie注)使用三个字节,其他 Unicode 辅助平面的字符使用四字节编码。

  • 相关阅读:
    HD-ACM算法专攻系列(16)——考试排名
    HD-ACM算法专攻系列(15)——Quoit Design
    HD-ACM算法专攻系列(14)——find your present (2)
    HD-ACM算法专攻系列(13)——How Many Fibs?
    HD-ACM算法专攻系列(12)——Integer Inquiry
    HD-ACM算法专攻系列(11)——Exponentiation
    HD-ACM算法专攻系列(10)——大明A+B
    深入了解CI/CD:工具、方法、环境、基础架构的全面指南
    了解这5大K8S管理服务,为你节省50%的部署时间!
    如何使用Rancher在OpenStack上创建K8S集群
  • 原文地址:https://www.cnblogs.com/keystone/p/12930665.html
Copyright © 2011-2022 走看看