zoukankan      html  css  js  c++  java
  • Python生成汉字

    print(chr(random.randint(0x4e00, 0x9fbf)))获取Unicode的编码汉字,总共有几万个,但是里面有大部分都是繁体字。Unicode2.0: 16位字符集(ucs2),收录有汉字20902个,符号6811个;优点:适用于国际化环境,可以做为字符的内部表示和存储形式,来实现软件的国际化、本地化;缺点:目前支持较少,与其他中文字符集不兼容。作为现代计算机系统通用编码的统一码(Unicode)在最新发布的5.2版中共收录汉字(包括简体、繁体,以及日、韩、越等地区使用的汉字)共 74,394 个。(注:微软宋体的最新版本只有42,809个字)

    CJK统一表意文字(4E00-9FFF):常用汉字
    CJK统一表意文字扩展A(3400-4DBF):罕用汉字
    CJK统一表意文字扩展B(20000-2A6DF):罕用汉字
    CJK统一表意文字扩展C(2A700-2B73F):罕用汉字
    CJK兼容表意文字(F900-FAFF):重复字符,可统一的异形字
    CJK兼容表意文字补充(2F800-2FA1F):可统一的异形字

    def GBK2312():
    head = random.randint(0xb0, 0xf7)
    body = random.randint(0xa1, 0xf9) # 在head区号为55的那一块最后5个汉字是乱码,为了方便缩减下范围
    val = f'{head:x}{body:x}'
    get_word = bytes.fromhex(val).decode('gb2312')
    return get_wordGB2312即GB2312-80,诞生于1981年,共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个字符,共7445个字符。GB2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。用区位码表示。GB2312:16位字符集,收录有6763个简体汉字,682个符号;优点:适用于简体中文环境,属于中国国家标准,在大陆(和新加坡?)得到广泛支持;缺点:不兼容繁体中文,其汉字集合过少。GBK:16位字符集,收录有21003个汉字,883个符号;GBK总计23940 个码位,共收入21886个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个.优点:适用于简繁中文共存的环境,为简体Windows所使用(代码页cp936),向下完全兼容gb2312;缺点:不属于官方标准,和big5之间需要转换。

  • 相关阅读:
    步步为营-15-文件夹的操作
    步步为营-14-文件操作
    步步为营-13-日期转化
    步步为营-12-Dictionary-翻译
    步步为营-11-List<T>泛型的简单练习
    步步为营-10-string的简单操作
    步步为营-09-简单工厂类-计算器
    B. Fixed Points
    C. Cd and pwd commands
    Queries on a String
  • 原文地址:https://www.cnblogs.com/TD1900/p/14010562.html
Copyright © 2011-2022 走看看