zoukankan      html  css  js  c++  java
  • 各种语系的unicode对应以及local编码方式

    链接:http://www.doc88.com/p-801578373970.html

    一.英文

    Unicode范围: 0041-005A, 0061-007A (若含数字与符号,则为0021-007E)

    locale编码: ANSI

    1. ANSI
    HTML charset: us-ascii
    RTF charset: 0
    编码方式: 41-5A, 61-7A (若含数字与符号,则为21-7E)

    二.中文
    Unicode范围: 2E80-2FDF, 3400-4DBF, 4E00-9FFF
    备注:F900-FAFF的相容型中文字码,应转至一般的中文字码处理,31A0-31BF则为注音符号表
    locale编码: 繁体中文有BIG5, CNS, 简体中文为GB

    1.BIG5
    HTML charset: big5
    RTF charset: 136
    编码方式: 双byte语系, byte 1范围为A1-FE, byte 2范围为40-7E, A1-FE
    备注:big5+目前几乎无人使用,故省略不提

    2.CNS
    HTML charset: 无 (应为euc-tw或iso-2022-cn, 但IE并不支援)
    RTF charset: 无
    编码方式: 多byte语系
    byte 1范围为A1-FE时为2 byte编码, byte 2范围为A1-FE
    byte 1为8E时, 为4 byte编码, byte 2范围为A1-B0, byte 3与byte 4范围均为A1-FE
    备注: 4 byte编码时, byte 2为A1与2 byte编码之字码相同 (即第1字面), CNS目前只使用了7个字面, 因此byte 2实际使用范围为A1-A7, 早期第15字面有放了一些字码, 后来都已编入前7个字面内了

    3.GB
    HTML charset: gb2312, gbk, euc-cn
    RTF charset: 134
    编码方式: 双byte语系, byte 1范围为81-FE, byte 2范围为40-7E, 80-FE

    三.日文
    Unicode范围: 3040-30FF, 31F0-31FF(混用中文字码)
    备注:FF00-FFEF有半形日文,应转至一般日文字码处理
    locale编码: Shift-JIS, EUC-JP

    1.Shift-JIS
    HTML charset: shift_jis, x-sjis, iso-2022-jp
    RTF charset: 128
    编码方式: 单/双byte语系
    byte 1范围为A1-DF时为1 byte编码
    byte 1范围为81-9F, E0-EF时为2 byte编码, byte 2范围为40-7E, 80-FC

    2.EUC-JP
    HTML charset: euc-jp, x-euc-jp
    RTF charset: 无
    编码方式: 多byte语系
    byte 1为8E时, 为2 byte编码, byte 2范围为A1-DF
    byte 1范围为A1-FE时, 为2 byte编码, byte 2范围为A1-FE
    byte 1为8F时为3 byte编码, byte 2与byte 3范围均为A1-FE
    备注: IE不支援3 byte编码部份

    四.韩文
    Unicode范围: 1100-11FF, 3130-318F, AC00-D7AF(混用中文字码)
    备注:FF00-FFEF有半形韩文,应转至一般韩文字码处理
    locale编码: Johab, EUC-KR

    1.Johab
    HTML charset: johab
    RTF charset: 130
    编码方式: 双byte语系
    byte 1范围为84-D3时, byte 2范围为41-7E, 81-FE
    byte 1范围为D8-DE, E0-FE时, byte 2范围为31-7E, 91-FE

    2.EUC-KR
    HTML charset: euc-kr, iso-2022-kr
    RTF charset: 129
    编码方式: 双byte语系, byte 1范围为A1-FE, byte 2范围为A1-FE

    五.阿拉伯文
    Unicode范围: 0600-06FF, 0750-077F
    locale编码: Windows

    1.Windows
    HTML charset: windows-1256
    RTF charset: 178
    编码方式: 1 byte语系

    六.泰文
    Unicode范围: 0E00-0E7F
    locale编码: Windows

    1.Windows
    HTML charset: windows-874
    RTF charset: 222
    编码方式: 1 byte语系

    七.俄文
    Unicode范围: 0400-052F (西里尔文)
    locale编码: Windows, ISO, KOI8-U, KOI8-R

    1.Windows
    HTML charset: windows-1251
    RTF charset: 204
    编码方式: 1 byte语系

    2.ISO
    HTML charset: iso-8859-5
    RTF charset: 无
    编码方式: 1 byte语系

    3.KOI8-U
    HTML charset: koi8-u
    RTF charset: 无
    编码方式: 1 byte语系

    4.KOI8-R
    HTML charset: koi8-r
    RTF charset: 无
    编码方式: 1 byte语系

    八.德文/法文
    Unicode范围: 00C0-00FF(混用英文字母)
    备注:字母上面有2点者为德文, 字母上面有重音符号者为法文
    locale编码: ANSI

    1.ANSI
    HTML charset: iso-8859-1, windows-1252
    RTF charset: 0
    编码方式: 1 byte语系

    九.印尼文/马来西亚文
    Unicode范围: 同英文, 为拼音语系
    locale编码: 同英文

    十.其他

    希腊文,土耳其文,希伯来文,中欧拉丁语文,越南文等尚在研究中...

    十.中欧语系
    Unicode范围(拉丁语文): 00C0-02AF, 1E00-1EFF(混用英文)
    locale编码: Windows, ISO

    1.Windows
    HTML charset: windows-1250
    RTF charset: 238
    编码方式: 1 byte语系

    2.ISO
    HTML charset: iso-8859-2
    RTF charset: 无
    编码方式: 1 byte语系

    十一.希腊文

    Unicode范围: 0370-03FF, 1F00-1FFF, 2C80-2CFF
    locale编码: Windows

    1.Windows
    HTML charset: windows-1253, iso8859-7 (后者IE不支援)
    RTF charset: 161
    编码方式: 1 byte语系

    十二.希伯来文
    Unicode范围: 0590-05FF
    locale编码: Windows

    1.Windows
    HTML charset: windows-1255, iso8859-8 (后者IE不支援)
    RTF charset: 177
    编码方式: 1 byte语系

    十三.土耳其文
    Unicode范围: 同拉丁语文(混用英文)
    locale编码: Windows

    1.Windows
    HTML charset: windows-1254, iso8859-9 (后者IE不支援)
    RTF charset: 162
    编码方式: 1 byte语系

    *** Unicode语系字码分布表

    英文 0041-005A, 0061-007A

    中文 2E80-2FDF, 3100-312F, 3400-4DBF, 4E00-9FFF, F900-FAFF

    日文 3040-30FF, 31F0-31FF

    韩文 1100-11FF, 3130-318F, AC00-D7AF

    泰文 0E00-0E7F

    寮文 0E80-0EFF

    藏文 0F00-0FFF

    彝文 A000-A4CF

    蒙古文 1800-18AF

    缅甸文 1000-109F

    高棉文 1780-17FF

    拉丁文(Latin) 00C0-02AF, 1E00-1EFF

    希腊文(Greek) 0370-03FF, 1F00-1FFF, 2C80-2CFF

    希伯来文 (Hebrew) 0590-05FF

    阿拉伯文(Arabic) 0600-06FF, 0750-077F

    叙利亚文(Syriac) 0700-074F

    西里尔文(Cyrillic), 0400-052F

    亚美尼亚文(Armenian) 0530-058F

    孟加拉文(Bengali) 0980-09FF

    僧伽罗文(Sinhala,斯里兰卡文) 0D80-0DFF

    乔治亚文(Georgian,英国古文) 10A0-10FF, 2D00-2D2F

    欧甘文(Ogham,爱尔兰文) 1680-169F

    如尼文(Runic,北欧古文) 16A0-16FF

    塔纳文(Thaana,一种印度文) 0780-07BF

    比哈文(Syloti Nagri,一种印度文) A800-A82F

    林布文(Limbu,一种印度文) 1900-194F

    布吉文(Buginese,一种印度文) 1A00-1A1F

    奥里雅文(Oriya,一种印度文) 0B00-0B7F

    泰米尔文(Tamil,一种印度文) 0B80-0BFF

    泰卢固文(Telugu,一种印度文) 0C00-0C7F

    卡纳达文(Kannada,一种印度文) 0C80-0CFF

    天城体梵文(Devanagari,一种印度文) 0900-097F

    古尔穆基文(Gurmukhi,一种印度文) 0A00-0A7F

    古吉拉特文(Gujarati,一种印度文) 0A80-0AFF

    马拉雅拉姆文(Malayalam,一种印度文) 0D00-0D7F

    他加禄文(Tagalog,一种菲律宾文) 1700-171F

    汉奴劳文(Hanunoo,一种菲律宾文) 1720-173F

    Buhid(一种菲律宾文) 1740-175F

    Tagbanwa(一种菲律宾文) 1760-177F

    彻罗基文(Cherokee,美国印弟安文) 13A0-13FF

    Tai Le(中缅边境民族文) 1950-197F

    新傣文(中国少数民族文) 1980-19DF

    格拉哥里文(Glagolitic,一种斯拉夫文) 2C00-2C5F

    衣索比亚文(Ethiopic) 1200-139F, 2D80-2DDF

    提非纳文(Tifinagh,一种衣索匹亚文) 2D30-2D7F


    *** Unicode字码分布表

    0000-007F C0 Control and Basic Latin, 标准ANSI字元

    0080-00FF C1 Control and Latin-1 Supplement, 控制码与拉丁文

    0100-024F Latin Extended, 拉丁文

    0250-02AF IPA Extensions, 拉丁文

    02B0-02FF Spacing Modifier Letters, 符号

    0300-036F Combining Diacritical Marks, 组合记号

    0370-03FF Greek and Coptic, 希腊文与科普特文

    0400-052F Cyrillic, 西里尔文

    0530-058F Armenian, 亚美尼亚文

    0590-05FF Hebrew, 希伯来文

    0600-06FF Arabic, 阿拉伯文

    0700-074F Syriac, 叙利亚文

    0750-077F Arabic Supplement, 阿拉伯文

    0780-07BF Thaana, 塔纳文 (一种印度文)

    07C0-07FF 保留

    0900-097F Devanagari, 天城体梵文 (一种印度文)

    0980-09FF Bengali, 孟加拉文

    0A00-0A7F Gurmukhi, 古尔穆基文 (一种印度文)

    0A80-0AFF Gujarati, 古吉拉特文 (一种印度文)

    0B00-0B7F Oriya, 奥里雅文 (一种印度文)

    0B80-0BFF Tamil, 泰米尔文 (一种印度文)

    0C00-0C7F Telugu, 泰卢固文 (一种印度文)

    0C80-0CFF Kannada, 卡纳达文 (一种印度文)

    0D00-0D7F Malayalam, 马拉雅拉姆文 (一种印度文)

    0D80-0DFF Sinhala, 僧伽罗文 (斯里兰卡文)

    0E00-0E7F Thai, 泰文

    0E80-0EFF Lao, 寮文

    0F00-0FFF Tibetan, 藏文

    1000-109F Myanmar, 缅甸文

    10A0-10FF Georgian, 乔治亚文 (英国古文)

    1100-11FF Hangul Jamo, 韩文

    1200-139F Ethiopic, 衣索比亚文

    13A0-13FF Cherokee, 彻罗基文 (美国印弟安文)

    1400-167F Unified Canadian Aboriginal Syllabics, 加拿大土语音节符号

    1680-169F Ogham, 欧甘文 (爱尔兰文)

    16A0-16FF Runic, 如尼文 (北欧古文)

    1700-171F Tagalog, 他加禄文 (一种菲律宾文)

    1720-173F Hanunoo, 汉奴劳文 (一种菲律宾文)

    1740-175F Buhid, (一种菲律宾文)

    1760-177F Tagbanwa, (一种菲律宾文)

    1780-17FF Khmer, 高棉文

    1800-18AF Mongolian, 蒙古文

    18B0-18FF 保留

    1900-194F Limbu, 林布文 (一种印度文)

    1950-197F Tai Le, (中缅边境民族文)

    1980-19DF New Tai Lue, 新傣文 (中国少数民族文)

    19E0-19FF Khmer Symbols, 高棉文符号

    1A00-1A1F Buginese, 布吉文 (一种印度文)

    1A20-1CFF 保留

    1D00-1DBF Phonetic Extensions, 音标符号

    1DC0-1DFF Combining Diacritical Marks Supplement, 组合记号

    1E00-1EFF Latin Extended Additional, 拉丁文

    1F00-1FFF Greek Extended, 希腊文

    2000-206F General Punctuation, 标点符号

    2070-209F Superscripts and Subscripts, 上下标符号

    20A0-20CF Currency Symbols, 货币符号

    20D0-20FF Combining Diacritical Marks for Symbols, 符号用组合记号

    2100-214F Letterlike Symbols, 似字母符号

    2150-218F Number Forms, 数字符号

    2190-21FF Arrows, 箭头符号

    2200-22FF Mathematical Operators, 数学运算符号

    2300-23FF Miscellaneous Technical, 特殊符号

    2400-243F Control Pictures, 控制记号

    2440-245F Optical Character Recognition, 光学字元识别符号

    2460-24FF Enclosed Alphanumerics, 括号字母数字符号

    2500-257F Box Drawing, 表格符号

    2580-259F Block Elements, 区块符号

    25A0-25FF Geometric Shapes, 几何图形符号

    2600-26FF Miscellaneous Symbols, 其他符号

    2700-27BF Dingbats, 前导符号

    27C0-27EF Miscellaneous Mathematical Symbols-A, 数学符号

    27F0-27FF Supplemental Arrows-A, 箭头符号

    2800-28FF Braille Patterns, 盲文 (点字符号)

    2900-297F Supplemental Arrows-B, 箭头符号

    2980-29FF Miscellaneous Mathematical Symbols-B, 数学符号

    2A00-2AFF Supplemental Mathematical Operators, 数学运算符号

    2B00-2BFF Miscellaneous Symbols and Arrows, 箭头符号

    2C00-2C5F Glagolitic, 格拉哥里文 (一种斯拉夫文)

    2C80-2CFF Coptic, 科普特文 (一种埃及文)

    2D00-2D2F Georgian Supplement, 乔治亚文 (英国古文)

    2D30-2D7F Tifinagh, 提非纳文 (一种衣索匹亚文)

    2D80-2DDF Ethiopic Extended, 衣索匹亚文

    2DE0-2DFF 保留

    2E00-2E7F Supplemental Punctuation, 标点符号

    2E80-2EFF CJK Radicals Supplement, 中文部首

    2F00-2FDF Kangxi Radicals, 中文部首

    2FF0-2FFF Ideographic Description Characters, 汉字结构描述符号

    3000-303F CJK Symbols and Punctuation, 中日韩符号

    3040-309F Hiragana, 日文平假名

    30A0-30FF Katakana, 日文片假名

    3100-312F Bopomofo, 中文注音符号

    3130-318F Hangul Compatibility Jamo, 韩文

    3190-319F Kanbun, 中文上下标

    31A0-31BF Bopomofo Extended, 中文注音符号

    31C0-31EF CJK Strokes, 中文笔划符号

    31F0-31FF Katakana Phonetic Extensions, 日文片假名

    3200-33FF Enclosed CJK Letters and Months, 中日韩组合符号字

    3400-4DBF CJK Unified Ideographs Extension A, 中文

    4DC0-4DFF Yijing Hexagram Symbols, 易经符号

    4E00-9FFF CJK Unified Ideographs, 中文

    A000-A4CF Yi, 彝文

    A4D0-A6FF 保留

    A700-A71F Modifier Tone Letters, 音标符号

    A720-A7FF 保留

    A800-A82F Syloti Nagri, 比哈文 (一种印度文)

    A830-A8FF 保留

    AC00-D7AF Hangul Syllables, 韩文

    D780-D7FF 保留

    D800-DFFF Surrogates, UTF-16相容保留区

    E000-F8FF Private Use Area, 自造字专用区

    F900-FAFF CJK Compatibility Ideographs, 中文

    FB00-FB4F Alphabetic Presentation Forms, 字母变体显现形式

    FB50-FDFF Arabic Presentation Forms-A, 阿拉伯文变体显现形式

    FE00-FE0F Variation Selectors, 字型变换选取器符号

    FE10-FE1F Vertical Forms, 中文直排符号

    FE20-FE2F Combining Half Marks, 组合记号

    FE30-FE4F CJK Compatibility Forms, 中文直排符号

    FE50-FE6F Small Form Variants, 标点符号

    FE70-FEFF Arabic Presentation Forms-B, 阿拉伯文变体显现形式

    FF00-FFEF Halfwidth and Fullwidth Forms, 半形及全形字符

    FFF0-FFFF Specials, 特殊保留区

  • 相关阅读:
    从0开始学习自动化框架Airtest
    测试经理必知必会-Kanban和Scrum区别
    测试工程师的福音-如何使用Sonar完成代码质量检测
    看了很多文章,就这篇说明白了什么是接口测试
    测试经理必知必会:敏捷模型之Kanban
    Selenium元素定位不到?JS注入轻松搞定!
    测试经理必知必会:敏捷开发3355原则
    我知道你会冒泡排序,但是你会优化冒泡排序吗?
    快来使用Portainer让测试环境搭建飞起来吧
    给个MySQL,打算怎么测试?
  • 原文地址:https://www.cnblogs.com/yuanzhenliu/p/8494203.html
Copyright © 2011-2022 走看看