zoukankan      html  css  js  c++  java
  • Jsoup提取文本时保留标签

    使用Jsoup来对html进行处理比较方便,你可能会用它来提取文本或清理html标签。如果你想提取文本时保留标签,可以使用Jsoup.clean方法,参数为html及标签白名单:

    Jsoup.clean(html, new Whitelist().addTags("img").addAttributes("img", "data-original", "align", "alt", "height", "src", "title", "width")
                    .addProtocols("img", "src", "http", "https"));//只能是http/https开头的绝对地址

    但是使用时发现对于html片段,上面返回的结果可能令人意想不到。

    另外的方式为将标签进行urlencode转换:

    Document doc = Jsoup.parseBodyFragment(partHtml);
            Elements elements = doc.select("img");
            for (Element element : elements) {
                //将标签X替换为<X>与</X>
                element.replaceWith(new TextNode(element.toString(),""));
            }

    之后再使用doc.text()或Jsoup.clean提取出文本,注意text会将p等标签转为空格而不是换行符,而clean默认会转为换行符。

  • 相关阅读:
    javaweb一
    javaweb三、JDBC访问数据库
    Java学习笔记十
    socket qt基础版本
    QT+VS+添加console 解决方案
    QT创建TCP Socket通信
    左值引用与右值引用
    STL 中 map和set的区别
    C++中STL哈希表介绍
    虚函数总结
  • 原文地址:https://www.cnblogs.com/makefile/p/5375352.html
Copyright © 2011-2022 走看看