当 把一个utf-8编码的网页转成gbk编码时,这个字符就变成讨厌的问号了(例如: 文本前出现 ? )
处理方法,就是在字符串以GBK编码写出之前,把这个字符替换掉:
str = str.replace('u00A0', ' ');
彻底而保险的方法是过滤所有GBK不能表示的字符:
str = str.replaceAll("[^u4E00-u9FA5u3000-u303FuFF00-uFFEFu0000-u007Fu201c-u201d]", " ");