zoukankan      html  css  js  c++  java
  • Unicode转义(uXXXX)的编码和解码

    在涉及Web前端开发时, 有时会遇到uXXXX格式表示的字符, 其中XXXX是16进制数字的字符串表示形式, 在js中这个叫Unicode转义字符, 和   同属于转义字符. 在其他语言中也有类似的, 可能还有其它变形的格式.

    多数时候遇到需要解码的情况多点, 所以会先介绍解码decode, 后介绍编码encode.

    下文会提供Javascript C# Java三种语言下不同方法的实现和简单说明, 会涉及到正则和位运算的典型用法.

    Javascript的实现

    解码的实现

    function decode(s) {
        return unescape(s.replace(/\(u[0-9a-fA-F]{4})/gm, '%$1'));
    }

    unescape是用来处理%uXXXX这样格式的字符串, 将uXXXX替换成%uXXXXunescape就可以处理了.

    编码的实现

    复制代码
    function encode1(s) {
        return escape(s).replace(/%(u[0-9A-F]{4})|(%[0-9A-F]{2})/gm, function($0, $1, $2) {
            return $1 && '\' + $1.toLowerCase() || unescape($2);
        });
    }
    复制代码

    和解码中相对应, 使用escape编码, 然后将%uXXXX替换为uXXXX, 因为escape还可能把一些字符编码成%XX的格式, 所以这些字符还需要使用unescape还原回来.

    escape编码结果%uXXXX中的XXXX是大写的, 所以后面的replace只处理大写的A-F.

    另一种编码的实现

    不使用正则和escape

    复制代码
    function encode2(s) {
        var i, c, ret = [],
            pad = '000';
        for (i = 0; i < s.length; i++) {
            c = s.charCodeAt(i);
            if (c > 256) {
                c = c.toString(16);
                ret[i] = '\u' + pad.substr(0, 4 - c.length) + c;
            } else {
                ret[i] = s[i];
            }
        }
        return ret.join('');
    }
    复制代码

    遍历字符串中的字符, 那些charCode大于256的会转换成16进制字符串c.toString(16), 如果不足4位则左边补0pad.substr(0, 4 - c.length). 结尾将遍历的结果合并成字符串返回.

  • 相关阅读:
    c语言输入一个字符串,统计其字母,数字和其他字符的个数,并以柱状图输出
    c语言中的#ifdef和#ifndef
    宏定义#define
    c语言中的register int
    android SDK 更新的几个网址
    android studio启动不进行fetching Android sdk compoment information
    android eclipse ADT 安装maven插件失败
    Jsp 的映射
    Jsp 九大隐式对象
    Jsp 乱码处理
  • 原文地址:https://www.cnblogs.com/libin-1/p/5894657.html
Copyright © 2011-2022 走看看