-
获取汉字的UTF-8
PHP:
var_export(json_encode("你"));
javaScript:
alert(escape("你"));
java:
JDK下面的native2ascii 工具查看字符的unicode编码
-
匹配所有中文
JS:
var pattern=/[u4e00-u9fa5]/g;
在正则中,u加上四位十六进制数,范围从u4e00(一)开始到u9fa5(龥 ),就能匹配所有中文
php:
在PHP中。是用x代表十六进制数,并且位数超过四位必须要大括号概括
所以在PHP中匹配中文要这么写:[x{4e00}-x{9fa5}]
并必须加上 "u" 修饰符,字符串如果是utf-8,那么必须要加上u修饰符
Java:
[\x{4e00}-\x{9fa5}]
[\u4e00-\u9fa5]
ps:如果字符是gb2312,推荐先把字符串转化为utf-8编码。同样使用统一的正则来匹配,不建议不同的编码各一套正则写法。