Java 去除utf-8类型的空格的方法

zoukankan html css js c++ java

Java 去除utf-8类型的空格的方法
问题产生

最近遇到一个这样的问题，在生成的报文中，某个字段信息后面有一个空格，在代码中trim()下，它仍然存在。到底什么原因呢？

问题的根源

　　经过多番查证，是由于utf-8中的特俗字符造成的。

　　问题的根源，在于UTF-8这种编码里面，存在一个特殊的字符，其编码是“0xC2 0xA0”，转换成字符的时候，表现为一个空格，跟一般的半角空格（ASCII 0x20）一样，唯一的不同是它的宽度不会被压缩，因此比较多的被用于网页排版（如首行缩进之类）。而其他的编码方式如GB2312、Unicode之类并没有这样的字符，因此如果简单地进行编码转换，生成地GB2312/Unocode字符串中，这个字符就会被替换成为问号（ASCII ox3F）。

　　使用UTF-8进行HTMLDecode的时候，对于语句开头的（ ），就会被自动转换成为这个特殊的空格，可能是判断为放在开头的空格，一定是用来排版的。在转换为其他编码之前，这个特殊的空格受到的待遇与普通的半角空格是一致的，甚至也会被trim()去掉。

因此，碰到这个问题的原因有两种：一种是在UTF-8编码下进行了转换，产生了这个字符；还有一种就是网页中直接采用了这个字符进行排版。

问题解决之法
C#代码如下： byte[] space = new byte[]{0xc2,0xa0};
　　　　string UTFSpace = Encoding.GetEncoding("UTF-8").GetString(space);
　　　　HtmlStr = HtmlStr.Replace(UTFSpace," "); Java版： byte bytes[] = {(byte) 0xC2,(byte) 0xA0}; String UTFSpace = new String(bytes,"utf-8"); html = html.replaceAll(UTFSpace, " ");
注意：需要强调的是，替换之前不能进行编码转换，一定要继续使用UTF-8编码。如果已经转换成其他编码，那么错误就已经不可逆转了。没有办法再区分这个错误的问号和正常的问号之间的差别了。
查看全文

相关阅读:
致命错误： mysql/mysql.h：没有那个文件或目录解决办法
 [转载]解决/usr/bin/ld: cannot find lxxx 问题
 mysql5.5.25a安装：Installation of system tables failed解决办法
 ubuntu源码编译安装mysql5.5.25a
ubuntu 11.10 安装配置NFS
nrpe简单插件编写
 我也学erlang（五）——简单的列表处理
 C语言中自加与自减效率的思考
 DBI connect() failed: Can't connect to local MySQL server through socket '/var/run/mysqld/mysqld.sock'
std::ostream_iterator用法

原文地址：https://www.cnblogs.com/renxiaoren/p/5442431.html