zoukankan      html  css  js  c++  java
  • 转载:中文在UTF8和GBK编码中的范围

    • 编码范围
      1. GBK (GB2312/GB18030)
      x00-xff GBK双字节编码范围
      x20-x7f ASCII
      xa1-xff 中文
      x80-xff 中文

      2. UTF-8 (Unicode)
      u4e00-u9fa5 (中文)
      x3130-x318F (韩文)
      xAC00-xD7A3 (韩文)
      u0800-u4e00 (日文)
      ps: 韩文是大于[u9fa5]的字符

    • 正则例子(使用PHP):
      preg_replace(“/([x80-xff])/”,”",$str);    //GBK中匹配
      preg_replace(“/([u4e00-u9fa5])/”,”",$str);    //UTF8中匹配
    • 另外一些:
      有时候我们也会用到全角英文、特殊符号等
      全角英文的UTF8是: uff21 – uff5a ,是从大写A开始到小写的z。
      utf8中的 uff20是@
      utf8中的 uff01到 uff09是我们美式键盘上shift + 从1到9键上的特殊符号。要注意的是因为@是 uff20,所以 uff02是双引号,同时6的……是两个符号的组合,所以也不存在,正题提前一位(也就是说ff06是&, ff09是))。
      utf8中的全角数字是 uff10 – uff19 ,对应关系自然是 0 – 9 。
  • 相关阅读:
    CocoaPods
    第一篇 理论 1.7 精进-正念-正知,如理作意和觉察力
    构架稳定与可扩展的优惠券系统
    一个产品从0到1的过程
    实现实时定位
    征信比拼重点是数据和连接
    黑产
    爬虫有什么用
    爬虫应用
    甘蔗理论
  • 原文地址:https://www.cnblogs.com/liuyuan216/p/3507874.html
Copyright © 2011-2022 走看看