zoukankan      html  css  js  c++  java
  • jsoupa-解析遍历一个HTML

    解析个遍历一个HTML文档

    String html ="<html><head><title>First parse</title></head>"
                +"<body><p>Parsed HTML into a doc.</p></body></html>";
    Document doc =Jsoup.parse(html);
    
    jsoup解析器能够尽最大可能从html文档来创建一个干净的解析结果,无论html的格式是否完整。
    jsoup可以处理如下异常情况
    *)没有关闭的标签(比如<p>Lorem<p>Ipsum parses to <p>Lorm</p><p>Ipsum</p>)
    *)隐式标签(比如它可以自动将<td>Table data </td>包装成<table><tr><td>....)
    *)创建可靠的文档结果(html标签包含head和body,在head值出现恰当的元素)
    一个文档的对象模型
    *)文档由多个Elements和TextNodes组成(以及其他辅助nodes)
    其继承结构如下
    Document继承Element继承NodeTextNode继承Node
    *)一个Element包含一个子节点集合,并拥有一个父Element。
    还提供一个唯一的子元素过滤列表
    

      

     
     
     
     
     
     
     

    <wiz_tmp_tag id="wiz-table-range-border" contenteditable="false" style="display: none;">





  • 相关阅读:
    jdk的entity表格注解·
    事务管理简单
    spring注解和jdk注解简单概述
    ssh框架简化
    spring简单的框架
    hibernate简单的框架
    struts2简单的框架
    ssh框架总结
    博客搬迁到新址
    动态编译和静态编译,共享库
  • 原文地址:https://www.cnblogs.com/ssgao/p/7395658.html
Copyright © 2011-2022 走看看