【问题】抓取微信公众号文章特殊字符()问题 - 走看看

zoukankan html css js c++ java

【问题】抓取微信公众号文章特殊字符()问题
最初对抓取的文章处理使用正则表达式统一处理，代码如下：
Regex regex_p = new Regex(@"<p>s*</p>", RegexOptions.IgnoreCase | RegexOptions.CultureInvariant | RegexOptions.Multiline | RegexOptions.Singleline); contents = regex_p.Replace(contents, "");
有一片文章字符串看上去是空行，但发现通过这个正则匹配不到空行，通过调试取到字符串发现字符串比较特殊，字符串的长度应该是几个字符，但是它的Length却2000多，非常的郁闷。

通过循环字符串的每个字符，发现字符在C#中显示的是 65279 ''，然后扒了扒文章的内容发现在网页中显示的是无数个实体。百度了下这个字符在C#中的表现最终找到一篇介绍：

http://www.fileformat.info/info/unicode/char/feff/index.htm

在C#中统一替换掉改特殊字符使用代码：
contents = contents.Replace("uFEFF", "");
--end--　　
查看全文

相关阅读:
cookie和session区别
 jsp编写页面时常见错误提示
 web处理jsp文件的三个阶段
 JSP页面元素
 B/S与C/S区别
 url组成部分
 css选择器
 ol,ul,dl,table标签的基本语法
 剑指offer-把二叉树打印成多行
 剑指offer-从上往下打印二叉树

原文地址：https://www.cnblogs.com/kongkonglonglong/p/7478661.html

Copyright © 2011-2022 走看看