zoukankan      html  css  js  c++  java
  • Unicode类别

    Unicode 通用类别:

    http://msdn.microsoft.com/zh-cn/library/20bw873z(VS.80).aspx

    类别说明

    Lu

    字母,大写

    Ll

    字母,小写

    Lt

    字母,词首字母大写

    Lm

    字母,修饰符

    Lo

    字母,其他

    Mn

    标记,非间距

    Mc

    标记,间距组合

    Me

    标记,封闭

    Nd

    数字,十进制数

    Nl

    数字,字母

    No

    数字,其他

    Pc

    标点,连接符

    Pd

    标点,短划线

    Ps

    标点,开始

    Pe

    标点,结束

    Pi

    标点,前引号(根据用途可能表现为类似 Ps 或 Pe)

    Pf

    标点,后引号(根据用途可能表现为类似 Ps 或 Pe)

    Po

    标点,其他

    Sm

    符号,数学

    Sc

    符号,货币

    Sk

    符号,修饰符

    So

    符号,其他

    Zs

    分隔符,空白

    Zl

    分隔符,行

    Zp

    分隔符,段落

    Cc

    其他,控制

    Cf

    其他,格式

    Cs

    其他,代理项

    Co

    其他,私用

    Cn

    其他,未赋值(不存在任何字符具有此属性)

     

    .NET Framework 提供其他类别,用于表示一组 Unicode 字符类别,如下表所示。

    类别表示

    C

    (所有控制字符)CcCfCsCo 和 Cn

    L

    (所有字母)LuLlLtLm 和 Lo

    M

    (所有附加符号标记)MnMc 和 Me

    N

    (所有数字)NdNl 和 No

    P

    (所有标点)PcPdPsPePiPf 和 Po

    S

    (所有符号)SmScSk 和 So

    Z

    (所有分隔符)ZsZl 和 Zp

    UnicodeCategory 枚举

    http://msdn.microsoft.com/zh-cn/library/system.globalization.unicodecategory.aspx 成员

     
     成员名称说明
    Lu UppercaseLetter 指示字符是大写字母。
    Ll LowercaseLetter 指示字符是小写字母。
    Lt TitlecaseLetter 指示字符是词首字母大写字母。
    Lm ModifierLetter 指示字符是修饰符字母,它是独立式的间距字符,指示前面字母的修改。
    Lo OtherLetter 指示字符是字母,但它不是大写字母、小写字母、词首字母大写或修饰符字母。
    Mn NonSpacingMark 指示字符是非间距字符,这指示基字符的修改。
    Mc SpacingCombiningMark 指示字符是间距字符,这指示基字符的修改并影响该基字符的标志符号的宽度。
    Me EnclosingMark 指示字符是封闭符号,封闭符号是非间距组合字符,它环绕直到基字符(并包括基字符)的所有前面的字符。
    Nd DecimalDigitNumber 指示字符是十进制数字,即在范围 0 到 9 内。
    Nl LetterNumber 指示字符是由字母表示的数字,而不是十进制数字,例如,罗马数字 5 由字母“V”表示。
    No OtherNumber 指示字符是数字,但它既不是十进制数字也不是字母数字,例如分数 1/2。
    Zs SpaceSeparator 指示字符是空白字符,它不具有标志符号,但不是控制或格式字符。
    Zl LineSeparator 指示字符用于分隔文本各行。
    Zp ParagraphSeparator 指示字符用于分隔段落。
    Cc Control 指示字符是控制代码,其 Unicode 值是 U+007F,或者位于 U+0000 到 U+001F 或 U+0080 到 U+009F 范围内。
    Cf Format 指示字符是格式字符,格式字符是通常不呈现的字符,但它影响文本布局或文本处理操作。
    Cs Surrogate 指示字符是高代理项还是低代理项。代理项代码值在范围 U+D800 到 U+DFFF 内。
    Co PrivateUse 指示字符是专用字符,其 Unicode 值在范围 U+E000 到 U+F8FF 内。
    Pc ConnectorPunctuation 指示字符是连接两个字符的连接符标点。
    Pd DashPunctuation 指示字符是短划线或连字符。
    Ps OpenPunctuation 指示字符是成对的标点符号(例如括号、方括号和大括号)之一的开始字符。
    Pe ClosePunctuation 指示字符是成对的标点符号(例如括号、方括号和大括号)之一的封闭字符。
    Pi InitialQuotePunctuation 指示字符是开始或前引号。
    Pf FinalQuotePunctuation 指示字符是封闭或后引号。
    Po OtherPunctuation 指示字符是标点,但它不是连接符标点、短划线标点、开始标点、结束标点、前引号标点或后引号标点。
    Sm MathSymbol 指示字符是数学符号,例如“+”或“=”。
    Sc CurrencySymbol 指示字符是货币符号。
    Sk ModifierSymbol 指示字符是修饰符符号,这指示环绕字符的修改。例如,分数斜线号指示其左侧的数字为分子,右侧的数字为分母。
    So OtherSymbol 指示字符是符号,但它不是数学符号、货币符号或修饰符符号。
    Cn OtherNotAssigned 指示字符未被分配给任何 Unicode 类别。
     
     备注

    此 UnicodeCategory 枚举用于支持 Char 方法,例如 IsUpper(Char)。这种方法可确定指定的字符是否属于特定的 Unicode 通用类别的成员。Unicode 通用类别用于定义字符的一般分类,即将字符指定为字母、十进制数字、分隔符、数学符号、标点符号等类型。

    此枚举基于 Unicode 标准 5.0 版。有关更多信息,请参见位于 Unicode Character Database(Unicode 字符数据库)上的“UCD File Format”(UCD 文件格式)和“General Category Values”(通用类别值)副主题。

    Unicode 标准定义以下方面:

    代理项对是单个抽象字符的编码字符表示形式,此序列包含两个代码单元,第一个单元是高代理项,第二个单元是低代理项。高代理项是范围 U+D800 到 U+DBFF 中的 Unicode 码位,低代理项是范围 U+DC00 到 U+DFFF 中的 Unicode 码位。

    组合字符序列是基字符和一个或多个组合字符的组合。代理项对表示基字符或组合字符。组合字符可以是间距字符或非间距字符。在呈现时,间距组合字符自身会占据一个间距位置,而非间距组合字符则不是这样。例如,音调字符就是非间距组合字符之一。

    修饰符字母是独立式的间距字符,它与组合字符相似,指示前面字母的修改。

    括号是非间距组合字符,它将直到基字符(并包括基字符)的前面的所有字符括起来。

    格式字符是通常不呈现的字符,但它影响文本布局或文本处理操作。

    Unicode 标准定义某些标点符号的若干变体。例如,连字符可以是表示一个连字符的若干代码值之一,如 U+002D(减号连字符)、U+00AD(软连字符)、U+2010(连字符)或 U+2011(不间断连字符)。这同样适用于短划线、空白字符和引号。

    Unicode 标准还将代码分配给十进制数字的表示形式,这些表示形式特定于给定的书写符号或语言,例如 U+0030(数字零)和 U+0660(阿拉伯-印度数字零)。

     

    統一碼 5.0.0 版區塊名稱表(Block Names for Unicode 5.0.0)

    http://www.geocities.com/chukl000/unicode/unicode5-0-0.html
    區塊位置 Block Positons區塊名稱 Block Names
    English Names中文譯名
    0000-007F Basic Latin 基本拉丁字母
    0080-00FF Latin-1 Supplement 拉丁字母補充-1
    0100-017F Latin Extended-A 拉丁字母擴充-A
    0180-024F Latin Extended-B 拉丁字母擴充-B
    0250-02AF IPA Extensions 國際音標擴充
    02B0-02FF Spacing Modifier Letters 進格修飾字元
    0300-036F Combining Diacritical Marks 組合音標附加符號
    0370-03FF Greek and Coptic 希臘字母
    0400-04FF Cyrillic 西里爾字母
    0500-052F Cyrillic Supplement 西里爾字母補充
    0530-058F Armenian 亞美尼亞文
    0590-05FF Hebrew 希伯來文
    0600-06FF Arabic 基本阿拉伯文
    0700-074F Syriac 敘利亞文
    0750-077F Arabic Supplement 阿拉伯文補充
    0780-07BF Thaana 塔納文
    07C0-07FF N'Ko  
    0900-097F Devanagari 天城體梵文字母
    0980-09FF Bengali 孟加拉文
    0A00-0A7F Gurmukhi 古爾穆基文
    0A80-0AFF Gujarati 古吉拉特文
    0B00-0B7F Oriya 奧里亞文
    0B80-0BFF Tamil 泰米爾文
    0C00-0C7F Telugu 泰盧固文
    0C80-0CFF Kannada 卡納達文
    0D00-0D7F Malayalam 馬拉亞拉姆文
    0D80-0DFF Sinhala 僧伽羅文
    0E00-0E7F Thai 泰文
    0E80-0EFF Lao 老撾文;寮文
    0F00-0FFF Tibetan 藏文
    1000-109F Myanmar 緬甸文
    10A0-10FF Georgian 格魯吉亞文
    1100-11FF Hangul Jamo 諺文字母
    1200-137F Ethiopic 埃塞俄比亞文
    1380-139F Ethiopic Supplement 埃塞俄比亞文補充
    13A0-13FF Cherokee 切羅基文
    1400-167F Unified Canadian Aboriginal Syllabics 加拿大土著統一音節文字
    1680-169F Ogham 歐甘文
    16A0-16FF Runic 北歐古文
    1700-171F Tagalog 他加祿文
    1720-173F Hanunoo 哈努諾文
    1740-175F Buhid 布希德文
    1760-177F Tagbanwa 塔格巴努亞文
    1780-17FF Khmer 高棉文
    1800-18AF Mongolian 蒙古文
    1900-194F Limbu 林布文
    1950-197F Tai Le 傣哪文;德宏傣文
    1980-19DF New Tai Lue 新傣仂文
    19E0-19FF Khmer Symbols 高棉符號
    1A00-1A1F Buginese 布吉文
    1B00-1B7F Balinese 巴厘文
    1D00-1D7F Phonetic Extensions 音標擴充
    1D80-1DBF Phonetic Extensions Supplement 音標擴充補充
    1DC0-1DFF Combining Diacritical Marks Supplement 組合音標附加符號
    1E00-1EFF Latin Extended Additional 拉丁字母擴充附加
    1F00-1FFF Greek Extended 希臘文擴充
    2000-206F General Punctuation 一般標點符號
    2070-209F Superscripts and Subscripts 下標及上標
    20A0-20CF Currency Symbols 貨幣符號
    20D0-20FF Combining Diacritical Marks for Symbols 符號用組合附加符號
    2100-214F Letterlike Symbols 似字母符號
    2150-218F Number Forms 數字形式
    2190-21FF Arrows 箭頭符號
    2200-22FF Mathematical Operators 數學運算符號
    2300-23FF Miscellaneous Technical 混合專門符號;零雜技術符號
    2400-243F Control Pictures 控制圖像
    2440-245F Optical Character Recognition 光學字元識別
    2460-24FF Enclosed Alphanumerics 圈型字母數字
    2500-257F Box Drawing 製表符
    2580-259F Block Elements 區塊元件
    25A0-25FF Geometric Shapes 幾何形狀
    2600-26FF Miscellaneous Symbols 混合什錦符號;零雜符號
    2700-27BF Dingbats 什錦符號
    27C0-27EF Miscellaneous Mathematical Symbols-A 混合數學符號-A;零雜數學符號-A
    27F0-27FF Supplemental Arrows-A 補充性箭頭符號-A
    2800-28FF Braille Patterns 盲文;盲人點字
    2900-297F Supplemental Arrows-B 補充性箭頭符號-B
    2980-29FF Miscellaneous Mathematical Symbols-B 混合數學符號-B;零雜數學符號-B
    2A00-2AFF Supplemental Mathematical Operators 補充性數學運算符號
    2B00-2BFF Miscellaneous Symbols and Arrows 混合什錦符號和箭頭符號;零雜符號與箭頭
    2C00-2C5F Glagolitic 格拉哥爾字母
    2C60-2C7F Latin Extended-C 拉丁字母擴充-C
    2C80-2CFF Coptic 科普特文
    2D00-2D2F Georgian Supplement 格魯吉亞文補充
    2D30-2D7F Tifinagh 提非納格字母
    2D80-2DDF Ethiopic Extended 埃塞俄比亞文擴充
    2E00-2E7F Supplemental Punctuation 補充性標點符號
    2E80-2EFF CJK Radicals Supplement 中日韓部首補充
    2F00-2FDF Kangxi Radicals 康熙部首
    2FF0-2FFF Ideographic Description Characters 漢字結構描述字符
    3000-303F CJK Symbols and Punctuation 中日韓符號和標點
    3040-309F Hiragana 平假名
    30A0-30FF Katakana 片假名
    3100-312F Bopomofo 注音符號
    3130-318F Hangul Compatibility Jamo 諺文相容字母
    3190-319F Kanbun 漢文標註號
    31A0-31BF Bopomofo Extended 注音符號擴充
    31C0-31EF CJK Strokes 中日韓筆畫部件
    31F0-31FF Katakana Phonetic Extensions 片假名音標擴充
    3200-32FF Enclosed CJK Letters and Months 括號中日韓字母及月份;圈型中日韓字母及月份
    3300-33FF CJK Compatibility 中日韓相容字元
    3400-4DBF CJK Unified Ideographs Extension A 中日韓統一表意文字擴充A
    4DC0-4DFF Yijing Hexagram Symbols 易經六十四卦象
    4E00-9FFF CJK Unified Ideographs 中日韓統一表意文字
    A000-A48F Yi Syllables 彝文音節
    A490-A4CF Yi Radicals 彝文字母
    A700-A71F Modifier Tone Letters 聲調符號
    A720-A7FF Latin Extended-D 拉丁字母擴充-D
    A800-A82F Syloti Nagri  
    A840-A87F Phags-pa 八思巴字母
    AC00-D7AF Hangul Syllables 諺文音節
    D800-DB7F High Surrogates 高半代用區
    DB80-DBFF High Private Use Surrogates 高半專用代用區
    DC00-DFFF Low Surrogates 低半代用區
    E000-F8FF Private Use Area 專用區
    F900-FAFF CJK Compatibility Ideographs 中日韓相容表意文字
    FB00-FB4F Alphabetic Presentation Forms 字母變體顯現形式
    FB50-FDFF Arabic Presentation Forms-A 阿拉伯文變體顯現形式-A
    FE00-FE0F Variation Selectors 字型變換選取器
    FE10-FE1F Vertical Forms 豎式標點
    FE20-FE2F Combining Half Marks 組合半形標示
    FE30-FE4F CJK Compatibility Forms 中日韓相容形式
    FE50-FE6F Small Form Variants 小寫變體
    FE70-FEFF Arabic Presentation Forms-B 阿拉伯文變體顯現形式-B
    FF00-FFEF Halfwidth and Fullwidth Forms 半形及全形字符
    FFF0-FFFF Specials 特殊區域
    10000-1007F Linear B Syllabary 線形文字B音節文字
    10080-100FF Linear B Ideograms 線形文字B表意文字
    10100-1013F Aegean Numbers 愛琴數字
    10140-1018F Ancient Greek Numbers 古希臘數字
    10300-1032F Old Italic 古意大利文
    10330-1034F Gothic 哥特文
    10380-1039F Ugaritic 烏加里特楔形文字
    103A0-103DF Old Persian 古波斯文
    10400-1044F Deseret 猶他大學音標
    10450-1047F Shavian 肅伯納字母
    10480-104AF Osmanya  
    10800-1083F Cypriot Syllabary 塞浦路斯音節文字
    10900-1091F Phoenician 腓尼基字母
    10A00-10A5F Kharoshthi 佉盧字母
    12000-123FF Cuneiform 楔形文字
    12400-1247F Cuneiform Numbers and Punctuation 楔形文字數字及標點
    1D000-1D0FF Byzantine Musical Symbols 東正教音樂符號
    1D100-1D1FF Musical Symbols 音樂符號
    1D200-1D24F Ancient Greek Musical Notation 古希臘音樂譜記號
    1D300-1D35F Tai Xuan Jing Symbols 太玄經符號
    1D360-1D37F Counting Rod Numerals 算籌記數式
    1D400-1D7FF Mathematical Alphanumeric Symbols 數學用字母數字符號
    20000-2A6DF CJK Unified Ideographs Extension B 中日韓統一表意文字擴充B
    2F800-2FA1F CJK Compatibility Ideographs Supplement 中日韓相容表意文字補充
    E0000-E007F Tags 語言編碼標籤
    E0100-E01EF Variation Selectors Supplement 字型變換選取器補充
    FFF80-FFFFF Supplementary Private Use Area-A 補充專用區-A
    10FF80-10FFFF Supplementary Private Use Area-B 補充專用區-B

     

     

    标准CJK文字

    http://www.unicode.org/Public/UNIDATA/Unihan.html

     

    http://blog.oasisfeng.com/2006/10/19/full-cjk-unicode-range/

    Code point rangeBlock nameRelease
    U+3400..U+4DB5 CJK Unified Ideographs Extension A 3.0
    U+4E00..U+9FA5 CJK Unified Ideographs 1.1
    U+9FA6..U+9FBB CJK Unified Ideographs 4.1
    U+F900..U+FA2D CJK Compatibility Ideographs 1.1
    U+FA30..U+FA6A CJK Compatibility Ideographs 3.2
    U+FA70..U+FAD9 CJK Compatibility Ideographs 4.1
    U+20000..U+2A6D6 CJK Unified Ideographs Extension B 3.1
    U+2F800..U+2FA1D CJK Compatibility Supplement 3.1
    “fool me once,shame on you. fool me twice, shame on me.”,翻译过来的意思是“愚弄我一次,是你坏;愚弄我两次,是我蠢”。
  • 相关阅读:
    课堂练习求环整数组中最大子数组之和
    学习进度第7周
    声明
    最大数
    学习进度02
    构建之法阅读笔记02
    学习进度01
    课堂练习之《哈利波特》
    《构建之法》阅读笔记06
    寻找水龙王2
  • 原文地址:https://www.cnblogs.com/newcapecjmc/p/6861943.html
Copyright © 2011-2022 走看看