zoukankan      html  css  js  c++  java
  • HtmlParser整体框架

    HtmlParser关键包

    org.htmlparser

             定义了htmlparser的一些基础类,其中最为重要的是ParserParserhtmlParser的最核心的类。

    org.htmlparser.beans

             对VisitorFilter的方法进行了封装,定义了针对一些常用HTML元素操作的JavaBean,简化对常用元素的提取操作。包括:FilterBeanHTMLLinkBeanHTMLTextBeanLinkBeanStringBeanBeanyBaby等。

    org.htmlparser.nodes

             定义了基础的node,包括:AbstractNodeRemarkNodeTagNodeTextNode等。 Node是形成树结构表示HTML的基础,所有的数据表示都是接口Node的实现。

    org.htmlparser.tags

             定义了HtmlParser进行解析的网页中的各种标签

    org.htmlparser.filters

             定义了各种过滤器filter,主要通过extractAllNodesThatMatch (NodeFilter filter)来对html页面指定类型的元素进行过滤,包括:AndFilterCssSelectorNodeFilterHasAttributeFilterHasChildFilterHasParentFilterHasSiblingFilterIsEqualFilterLinkRegexFilterLinkStringFilterNodeClassFilterNotFilterOrFilterRegexFilterStringFilterTagNameFilterXorFilter

    org.htmlparser.visitors

             定义了各种访问者visitor,主要通过visitAllNodesWith (NodeVisitor visitor)来对html页面元素进行遍历,包括:HtmlPageLinkFindingVisitorNodeVisitorObjectFindingVisitorStringFindingVisitorTagFindingVisitorTextExtractingVisitorUrlModifyingVisitor

    org.htmlparser.parserapplications

             定义了一些实用的工具,包括LinkExtractorSiteCapturerStringExtractorWikiCapturer,这几个类也可以作为HtmlParser使用样例。

    org.htmlparser.tests

             各种功能的单元测试用例,可作为HtmlParser使用的样例。

    HtmlParser内部关系结构图:后面我会对这个结构以及HtmlParser的解析流程进行详细的阐述。

    HtmlParser整体框架

  • 相关阅读:
    2017.3.10组合数学学习——多重集合的排列、组合,有限概率
    poj 3169 Layout
    poj 1201 Intervals
    poj 1716 Integer Intervals
    2017.3.9 组合数学学习——组合、多重集排列
    [HNOI 2013]切糕
    思维相似处总结(未完待续)
    bzoj 3673: 可持久化并查集 by zky
    SDOI2013 森林
    标题还没想好
  • 原文地址:https://www.cnblogs.com/loveyakamoz/p/2118904.html
Copyright © 2011-2022 走看看