原来我使用的一直是 u4e00-u9fa5 ,今天在匹配中文标点的时候匹配不上,就查了一下相关资料,原来unicode跟中文有关的范围还有好几个。
字符范围表
1.标准CJK文字
范围:u3400-u4DB5,u4E00-u9FA5,u9FA6-u9FBB,uF900-uFA2D,uFA30-uFA6A,uFA70-uFAD9 说明:一共有好几个范围,除 u4e00-u9fa5外 都不是很常用 参考地址:http://www.unicode.org/Public/UNIDATA/Unihan.html
2.全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母
范围:uFF00-uFFEF 参考地址:http://www.unicode.org/charts/PDF/UFF00.pdf
3.CJK部首补充
范围:u2E80-u2EFF 参考地址:http://www.unicode.org/charts/PDF/U2E80.pdf
4.CJK标点符号
范围:u3000-u303F 参考地址:http://www.unicode.org/charts/PDF/U3000.pdf
5.CJK笔划
范围:u31C0-u31EF 参考地址:http://www.unicode.org/charts/PDF/U31C0.pdf
6.康熙部首
范围:u2F00-u2FDF 参考地址:http://www.unicode.org/charts/PDF/U2F00.pdf
7.汉字结构描述字符
范围:u2FF0-u2FFF 参考地址:http://www.unicode.org/charts/PDF/U2FF0.pdf
8.注音符号
范围:u3100-u312F 参考地址:http://www.unicode.org/charts/PDF/U3100.pdf
9.注音符号(闽南语、客家语扩展)
范围:u31A0-u31BF 参考地址:http://www.unicode.org/charts/PDF/U31A0.pdf
10.日文平假名
范围:u3040-u309F 参考地址:http://www.unicode.org/charts/PDF/U3040.pdf
11.日文片假名
范围:u30A0-u30FF 参考地址:http://www.unicode.org/charts/PDF/U30A0.pdf
12.日文片假名拼音扩展
范围:u31F0-u31FF 参考地址:http://www.unicode.org/charts/PDF/U31F0.pdf
13.韩文拼音
范围:uAC00-uD7AF 参考地址:http://www.unicode.org/charts/PDF/UAC00.pdf
14.韩文字母
范围:u1100-u11FF 参考地址:http://www.unicode.org/charts/PDF/U1100.pdf
15.韩文兼容字母
范围:u3130-u318F 参考地址:http://www.unicode.org/charts/PDF/U3130.pdf
16.易经六十四卦象
范围:u4DC0-u4DFF 参考地址:http://www.unicode.org/charts/PDF/U4DC0.pdf
17.彝文音节
范围:uA000-uA48F 参考地址:http://www.unicode.org/charts/PDF/UA000.pdf
18.彝文部首
范围:uA490-uA4CF 参考地址:http://www.unicode.org/charts/PDF/UA490.pdf
19.盲文符号
范围:u2800-u28FF 参考地址:http://www.unicode.org/charts/PDF/U2800.pdf
20.CJK字母及月份
范围:u3200-u32FF 参考地址:http://www.unicode.org/charts/PDF/U3200.pdf
21.CJK特殊符号(日期合并)
范围:u3300-u33FF 参考地址:http://www.unicode.org/charts/PDF/U3300.pdf
22.装饰符号(非CJK专用)
范围:u2700-u27BF 参考地址:http://www.unicode.org/charts/PDF/U2700.pdf
23.杂项符号(非CJK专用)
范围:u2600-u26FF 参考地址:http://www.unicode.org/charts/PDF/U2600.pdf
24.中文竖排标点
范围:uFE10-uFE1F 参考地址:http://www.unicode.org/charts/PDF/UFE10.pdf
25.CJK兼容符号(竖排变体、下划线、顿号)
范围:uFE30-uFE4F 参考地址:http://www.unicode.org/charts/PDF/UFE30.pdf
改进后的匹配表达式
- [u3400-u4DB5u4E00-u9FA5u9FA6-u9FBBuF900-uFA2DuFA30-uFA6AuFA70-uFAD9uFF00-uFFEFu2E80-u2EFFu3000-u303Fu31C0-u31EF] (注:这条基本能满足要求)
- [u3400-u4DB5u4E00-u9FA5u9FA6-u9FBBuF900-uFA2DuFA30-uFA6AuFA70-uFAD9uFF00-uFFEFu2E80-u2EFFu3000-u303Fu31C0-u31EFu2F00-u2FDFu2FF0-u2FFFu3100-u312Fu31A0-u31BFu3040-u309Fu30A0-u30FFu31F0-u31FFuAC00-uD7AFu1100-u11FFu3130-u318Fu4DC0-u4DFFuA000-uA48FuA490-uA4CFu2800-u28FFu3200-u32FFu3300-u33FFu2700-u27BFu2600-u26FFuFE10-uFE1FuFE30-uFE4F] (注:这是完整版本)
转自:http://ju.outofmemory.cn/entry/53571