zoukankan      html  css  js  c++  java
  • jsoup解析网页出现转义符问题

    https://www.oschina.net/question/996055_136438

    ***************************************

    我要解析这个网页  http://sports.163.com/13/0830/22/97IFSI5I00051CD5.html


    然后直接在获得源码后,使用select  只捕获其中一部分  doc.select("textarea[id^=photoList]")

    为何出现了这个情况呢、求大牛们帮忙解决啊 @红薯


    很奇怪的是,我用转义符全部替换之后,直接打印在控制台,显示正确,然后又用Jsoup.parse()这个方法,结果又成了这样子、大神们,帮帮忙吧@jsoup

    html()和outerHtml()的区别只是有没有包含本层而已,最终底层方法是一样的,所以这里确实转义了。

    其实也说得通,因为textarea里的内容是“文本”,html里的纯文本内容,如果不进行转义是不安全的。

    当然这里你的需求是"保持原文",“转义再反转”其实是无法保持原文的。而且Apache的StringEscapeUtils的转义范围比Jsoup要小,所以其实反转是不完整的。

    有个比较hack的方法:

    Document doc = Jsoup.connect("http://sports.163.com/13/0830/22/97IFSI5I00051CD5.html").get();
    //清空jsoup的转义表,会使jsoup失去转义能力
    Entities.EscapeMode.base.getMap().clear();
    Elements elements = doc.select("textarea[id^=photoList]");
    for(Element e:elements){
        System.out.println(e.html());
    }
  • 相关阅读:
    [剑指 Offer 18. 删除链表的节点]
    [922. 按奇偶排序数组 II]
    [905. 按奇偶排序数组]
    Linux信号机制
    [1470. 重新排列数组]
    linux常用命令全称
    pidof查看服务的PID
    运行shell脚本提示syntax error near unexpected token `$'do ''
    influxdb安装
    jvm堆内存设置问题Java heap space、GC overhead limit exceeded
  • 原文地址:https://www.cnblogs.com/zhao1949/p/6924823.html
Copyright © 2011-2022 走看看