转载：中文在UTF8和GBK编码中的范围 - 走看看

zoukankan html css js c++ java

转载：中文在UTF8和GBK编码中的范围
编码范围
1. GBK (GB2312/GB18030)
x00-xff GBK双字节编码范围
x20-x7f ASCII
xa1-xff 中文
x80-xff 中文
2. UTF-8 (Unicode)
u4e00-u9fa5 (中文)
x3130-x318F (韩文)
xAC00-xD7A3 (韩文)
u0800-u4e00 (日文)
ps: 韩文是大于[u9fa5]的字符

正则例子（使用PHP）:
preg_replace(“/([x80-xff])/”,”",$str); //GBK中匹配
preg_replace(“/([u4e00-u9fa5])/”,”",$str); //UTF8中匹配

另外一些：
有时候我们也会用到全角英文、特殊符号等
全角英文的UTF8是: uff21 – uff5a ，是从大写A开始到小写的z。
utf8中的 uff20是@
utf8中的 uff01到 uff09是我们美式键盘上shift + 从1到9键上的特殊符号。要注意的是因为@是 uff20，所以 uff02是双引号，同时6的……是两个符号的组合，所以也不存在，正题提前一位（也就是说ff06是＆， ff09是））。
utf8中的全角数字是 uff10 – uff19 ，对应关系自然是　０ – ９。
查看全文

相关阅读:
JDK各版本新特性总结
 Java MyBatis3（3）分页插件PageHelper
Kubernetes--K8S
MySQL 查看表结构
 查看mysql库大小，表大小，索引大小
 Linux服务器安装Oracle服务端总结
 怎样玩转千万级别的数据
 Markdown 新手指南
 深入理解Java：注解（Annotation）基本概念
 深入理解Java：注解（Annotation）自定义注解入门

原文地址：https://www.cnblogs.com/liuyuan216/p/3507874.html

Copyright © 2011-2022 走看看