zoukankan      html  css  js  c++  java
  • 汉字传值奇数乱码问题解决策略

      这两天写一个项目遇到一个很怪异的现象,就是在url中汉字传值,如果是奇数个汉字则出现编码错误。先说下环境:前台页面试gb2312编码,后台的filter是gbk,web server是nginx+resin,nginx用的是操作系统编码,编码是gbk,在输入http://www.我的域名.com/search/searchByName.action?query=%C1%AC%C1%AC%BF%B4  (1) 时后台不需要做处理,

    返回字符串正常,再输入http://www.我的域名.com/search/searchByName.action?query=连连看                       (2) 时后台就显示乱码。

      我分别用chrome、firefox、ie8做了测试,结果虽然是乱码还各有特色。

      最初,在网上搜索解决方案,不过大部分都是一个来源,也就是让你在页面上先对汉字url encode一下然后再传值,但是这种情况不符合我的需求,我是要在浏览器中直接输入url,汉字传值。

      解决方案一,在nginx中配置,将传递过来的url进行重写,让参数以重叠的方式向后台传送,比如原来是"query=你好啊",重写为"query = 你好啊你好啊",这样可以避免奇数个乱码问题,不过这有一个问题,就是和web server的耦合性太高,只要有汉字传值,就得重写nginx配置文件,不可取。

      解决方案二,在后台发现,取出的parameter在utf8转换成gbk时,如果字符串.getbytes()是奇数个,最后一个byte会被吞掉,信息损失了,就没法转换回来了。很烦人,这时候在同事的启发下,发现request.getQueryString(),也可以得到参数,并且都是被转码过的,形如“query=%e7%be%8e%e5%a5%b3”,这个是没有被gbk过滤的,所以就通过处理这个字符串获取到了没有信息损失的编码。不过这时还有个问题,页面输入(1)(2)两个链接时后台要拿到相同的汉字,但是他们被编码后显示的编码值却不同,就是这个时候只要通过判断是否为utf8的url(此时有汉字传值),如下代码:

    String parameterString = request.getQueryString();  
    if(parameterString!=null&&!parameterString.equals("")){
    try {
    CharTools ct = new CharTools();
    if(ct.isUtf8Url(parameterString)){
    parameterString = URLDecoder.decode(parameterString, "utf-8");
    }else{
    parameterString = URLDecoder.decode(parameterString, "gbk");
    }
    } catch (UnsupportedEncodingException e) {
    logger.info("url解码出错", e);
    }
    String[] parameters = parameterString.split("&");
    for(String str : parameters){
    if(str.indexOf("query=")!=-1){
    query = str.substring(str.indexOf("=")+1);
    }
    }
    }

       其中对应的CharTools中的方法为:

    public boolean isUtf8Url(String text) {  
    text = text.toLowerCase();
    int p = text.indexOf("%");
    if (p != -1 && text.length() - p > 9) {
    text = text.substring(p, p + 9);
    }
    return Utf8codeCheck(text);
    }
    private boolean Utf8codeCheck(String text) {
    String sign = "";
    if (text.startsWith("%e"))
    for (int i = 0, p = 0; p != -1; i++) {
    p = text.indexOf("%", p);
    if (p != -1)
    p++;
    sign += p;
    }
    return sign.equals("147-1");
    }

    这样就可以将不同的编码传过来的url,进行不同的处置。

    接下来,这时候本以为完事大吉,没想又出了新的问题,即:在ie下汉字传值还是乱码,我通过后台检测发现,ie的request.getQueryString(),获取的是“query=????”,汉字没有以编码后的形式传送过来,然后再检查request.getParameter("query"),发现是正常的,这时候就可以通过对发送到后台的客户端就行判断,如下:

    String agent = request.getHeader("User-Agent");  
    if(agent.indexOf("MSIE")!=-1){//ie情况比较特殊,不过此时在parameters中是正常的
    query = request.getParameter("query");
    }

    这样在ie下拿到的汉字也就可以正常的显示了。

    解决方案三:觉得最好的解决方案还是写个filter,现在项目比较紧张,以后要写,这样就可以忽略掉具体的请求,从整体层次进行解决问题。大致思路就是将方案二的解决办法浓缩到filter中。以后再写

     

    还有一些感想,觉得chrome也不是那么完美,汉字传值不自动转码,给开发造成不少麻烦,还是firefox比较强大~




      

     

  • 相关阅读:
    2.如何搭建MQTT环境
    1.如何安装maven
    4.线程同步-未使用线程同步的生产者/消费者关系
    3.线程的优先级和线程调度
    2.如何使用matlab拟合曲线
    1.如何安装matlab2016a
    2.线程状态:一个线程的声明周期
    Oracle"TNS监听程序找不到符合协议堆栈要求的可用处理程序"解决方案
    快速登录MySQL数据库
    数据仓库模型建设基础及kimball建模方法总结
  • 原文地址:https://www.cnblogs.com/seanvon/p/2323385.html
Copyright © 2011-2022 走看看