jsoup解析网页出现转义符问题 - 走看看

zoukankan html css js c++ java

jsoup解析网页出现转义符问题
https://www.oschina.net/question/996055_136438

***************************************

我要解析这个网页 http://sports.163.com/13/0830/22/97IFSI5I00051CD5.html

然后直接在获得源码后，使用select 只捕获其中一部分 doc.select("textarea[id^=photoList]")

为何出现了这个情况呢、求大牛们帮忙解决啊 @红薯

很奇怪的是，我用转义符全部替换之后，直接打印在控制台，显示正确，然后又用Jsoup.parse()这个方法，结果又成了这样子、大神们，帮帮忙吧@jsoup

html()和outerHtml()的区别只是有没有包含本层而已，最终底层方法是一样的，所以这里确实转义了。

其实也说得通，因为textarea里的内容是“文本”，html里的纯文本内容，如果不进行转义是不安全的。

当然这里你的需求是"保持原文"，“转义再反转”其实是无法保持原文的。而且Apache的StringEscapeUtils的转义范围比Jsoup要小，所以其实反转是不完整的。

有个比较hack的方法：
Document doc = Jsoup.connect("http://sports.163.com/13/0830/22/97IFSI5I00051CD5.html").get(); //清空jsoup的转义表，会使jsoup失去转义能力 Entities.EscapeMode.base.getMap().clear(); Elements elements = doc.select("textarea[id^=photoList]"); for(Element e:elements){ System.out.println(e.html()); }
查看全文

相关阅读:
讲透学烂二叉树(五)：分支平衡—AVL树与红黑树伸展树自平衡
 讲透学烂二叉树(四)：二叉树的存储结构—建堆-搜索-排序
 讲透学烂二叉树(三)：二叉树的遍历图解算法步骤及JS代码
 instanceof运算符的实质：Java继承链与JavaScript原型链
 JavaScript new 关键词解析及原生实现 new
JavaScript继承的实现方式：原型语言对象继承对象原理剖析
 GitHub不再支持密码验证解决方案：SSH免密与Token登录配置
 PNG文件解读(2):PNG格式文件结构与数据结构解读—解码PNG数据
 PNG文件解读(1):PNG/APNG格式的前世今生
 JIT-动态编译与AOT-静态编译：java/ java/ JavaScript/Dart乱谈

原文地址：https://www.cnblogs.com/zhao1949/p/6924823.html

Copyright © 2011-2022 走看看