zoukankan      html  css  js  c++  java
  • 【转】HTMLParser使用详解(2) Node内容

    HTMLParser将解析过的信息保存为一个树的结构。Node是信息保存的数据类型基础。
    请看Node的定义:
    public interface Node extends Cloneable;

    Node中包含的方法有几类:
    对于树型结构进行遍历的函数,这些函数最容易理解:
    Node getParent ():取得父节点
    NodeList getChildren ():取得子节点的列表
    Node getFirstChild ():取得第一个子节点
    Node getLastChild ():取得最后一个子节点
    Node getPreviousSibling ():取得前一个兄弟(不好意思,英文是兄弟姐妹,直译太麻烦而且不符合习惯,对不起女同胞了)
    Node getNextSibling ():取得下一个兄弟节点
    取得Node内容的函数:
    String getText ():取得文本
    String toPlainTextString():取得纯文本信息。
    String toHtml () :取得HTML信息(原始HTML)
    String toHtml (boolean verbatim):取得HTML信息(原始HTML)
    String toString ():取得字符串信息(原始HTML)
    Page getPage ():取得这个Node对应的Page对象
    int getStartPosition ():取得这个Node在HTML页面中的起始位置
    int getEndPosition ():取得这个Node在HTML页面中的结束位置
    用于Filter过滤的函数:
    void collectInto (NodeList list, NodeFilter filter):基于filter的条件对于这个节点进行过滤,符合条件的节点放到list中。
    用于Visitor遍历的函数:
    void accept (NodeVisitor visitor):对这个Node应用visitor
    用于修改内容的函数,这类用得比较少:
    void setPage (Page page):设置这个Node对应的Page对象
    void setText (String text):设置文本
    void setChildren (NodeList children):设置子节点列表
    其他函数:
    void doSemanticAction ():执行这个Node对应的操作(只有少数Tag有对应的操作)
    Object clone ():接口Clone的抽象函数。

    实际我们用HTMLParser最多的是处理HTML页面,Filter或Visitor相关的函数是必须的,然后第一类和第二类函数是用得最多的。第一类函数比较容易理解,下面用例子说明一下第二类函数。
    下面是用于测试的HTML文件:
    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
    <head><meta http-equiv="Content-Type" content="text/html; charset=gb2312"><title>白泽居-www.baizeju.com</title></head>
    <html xmlns="http://www.w3.org/1999/xhtml">
    <body >
    <div id="top_main">
        <div id="logoindex">
            <!--这是注释-->
            白泽居-www.baizeju.com
    <a href="http://www.baizeju.com">白泽居-www.baizeju.com</a>
        </div>
        白泽居-www.baizeju.com
    </div>
    </body>
    </html>

    测试代码:
    /**
     * @author www.baizeju.com
     */

    package com.baizeju.htmlparsertester;
    import java.io.BufferedReader;
    import java.io.InputStreamReader;
    import java.io.FileInputStream;
    import java.io.File;
    import java.net.HttpURLConnection;
    import java.net.URL;

    import org.htmlparser.Node;
    import org.htmlparser.util.NodeIterator;
    import org.htmlparser.Parser;
     
    /**
     * @author www.baizeju.com
     */
    public class Main {
        private static String ENCODE = "GBK";
        private static void message( String szMsg ) {
            try{ System.out.println(new String(szMsg.getBytes(ENCODE), System.getProperty("file.encoding"))); } catch(Exception e ){}
        }
        public static String openFile( String szFileName ) {
            try {
                BufferedReader bis = new BufferedReader(new InputStreamReader(new FileInputStream( new File(szFileName)), ENCODE) );
                String szContent="";
                String szTemp;
               
                while ( (szTemp = bis.readLine()) != null) {
                    szContent+=szTemp+"\n";
                }
                bis.close();
                return szContent;
            }
            catch( Exception e ) {
                return "";
            }
        }
       
       public static void main(String[] args) {
           
            try{
                Parser parser = new Parser( (HttpURLConnection) (new URL("http://127.0.0.1:8080/HTMLParserTester.html")).openConnection() );
           
                for (NodeIterator i = parser.elements (); i.hasMoreNodes(); ) {
                    Node node = i.nextNode();
                    message("getText:"+node.getText());
                    message("getPlainText:"+node.toPlainTextString());
                    message("toHtml:"+node.toHtml());
                    message("toHtml(true):"+node.toHtml(true));
                    message("toHtml(false):"+node.toHtml(false));
                    message("toString:"+node.toString());
                    message("=================================================");
                }           
            }
            catch( Exception e ) {    
                System.out.println( "Exception:"+e );
            }
        }
    }

    输出结果:
    getText:!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"
    getPlainText:
    toHtml:<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
    toHtml(true):<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
    toHtml(false):<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
    toString:Doctype Tag : !DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd; begins at : 0; ends at : 121
    =================================================
    getText:

    getPlainText:

    toHtml:

    toHtml(true):

    toHtml(false):

    toString:Txt (121[0,121],123[1,0]): \n
    =================================================
    getText:head
    getPlainText:白泽居-www.baizeju.com
    toHtml:<head><meta http-equiv="Content-Type" content="text/html; charset=gb2312"><title>白泽居-www.baizeju.com</title></head>
    toHtml(true):<head><meta http-equiv="Content-Type" content="text/html; charset=gb2312"><title>白泽居-www.baizeju.com</title></head>
    toHtml(false):<head><meta http-equiv="Content-Type" content="text/html; charset=gb2312"><title>白泽居-www.baizeju.com</title></head>
    toString:HEAD: Tag (123[1,0],129[1,6]): head
      Tag (129[1,6],197[1,74]): meta http-equiv="Content-Type" content="text/html; ...
      Tag (197[1,74],204[1,81]): title
        Txt (204[1,81],223[1,100]): 白泽居-www.baizeju.com
        End (223[1,100],231[1,108]): /title
      End (231[1,108],238[1,115]): /head

    =================================================
    getText:

    getPlainText:

    toHtml:

    toHtml(true):

    toHtml(false):

    toString:Txt (238[1,115],240[2,0]): \n
    =================================================
    getText:html xmlns="http://www.w3.org/1999/xhtml"
    getPlainText:


           
                   
                    白泽居-www.baizeju.com
    白泽居-www.baizeju.com
           
            白泽居-www.baizeju.com

    toHtml:<html xmlns="http://www.w3.org/1999/xhtml">
    <body >
    <div id="top_main">
            <div id="logoindex">
                    <!--这是注释-->
                    白泽居-www.baizeju.com
    <a href="http://www.baizeju.com">白泽居-www.baizeju.com</a>
            </div>
            白泽居-www.baizeju.com
    </div>
    </body>
    </html>
    toHtml(true):<html xmlns="http://www.w3.org/1999/xhtml">
    <body >
    <div id="top_main">
            <div id="logoindex">
                    <!--这是注释-->
                    白泽居-www.baizeju.com
    <a href="http://www.baizeju.com">白泽居-www.baizeju.com</a>
            </div>
            白泽居-www.baizeju.com
    </div>
    </body>
    </html>
    toHtml(false):<html xmlns="http://www.w3.org/1999/xhtml">
    <body >
    <div id="top_main">
            <div id="logoindex">
                    <!--这是注释-->
                    白泽居-www.baizeju.com
    <a href="http://www.baizeju.com">白泽居-www.baizeju.com</a>
            </div>
            白泽居-www.baizeju.com
    </div>
    </body>
    </html>
    toString:Tag (240[2,0],283[2,43]): html xmlns="http://www.w3.org/1999/xhtml"
      Txt (283[2,43],285[3,0]): \n
      Tag (285[3,0],292[3,7]): body
        Txt (292[3,7],294[4,0]): \n
        Tag (294[4,0],313[4,19]): div id="top_main"
          Txt (313[4,19],316[5,1]): \n\t
          Tag (316[5,1],336[5,21]): div id="logoindex"
            Txt (336[5,21],340[6,2]): \n\t\t
            Rem (340[6,2],351[6,13]): 这是注释
            Txt (351[6,13],376[8,0]): \n\t\t白泽居-www.baizeju.com\n
            Tag (376[8,0],409[8,33]): a href="http://www.baizeju.com"
              Txt (409[8,33],428[8,52]): 白泽居-www.baizeju.com
              End (428[8,52],432[8,56]): /a
            Txt (432[8,56],435[9,1]): \n\t
            End (435[9,1],441[9,7]): /div
          Txt (441[9,7],465[11,0]): \n\t白泽居-www.baizeju.com\n
          End (465[11,0],471[11,6]): /div
        Txt (471[11,6],473[12,0]): \n
        End (473[12,0],480[12,7]): /body
      Txt (480[12,7],482[13,0]): \n
      End (482[13,0],489[13,7]): /html

    =================================================


    对于第一个Node的内容,对应的就是第一行<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">,这个比较好理解。
    从这个输出结果中,也可以看出内容的树状结构。或者说是树林结构。在Page内容的第一层Tag,如DOCTYPE,head和html,分别形成了一个最高层的Node节点(很多人可能对第二个和第四个Node的内容有点奇怪。实际上这两个Node就是两个换行符号。HTMLParser把HTML页面内容中的所有换行,空格,Tab等都转换成了相应的Tag,所以就出现了这样的Node。虽然内容少但是级别高,呵呵)
    getPlainTextString是把用户可以看到的内容都包含了。有趣的有两点,一是<head>标签中的Title内容是在plainText中的,可能在标题中可见的也算可见吧。另外就是象前面说的,HTML内容中的换行符什么的,也都成了plainText,这个逻辑上好像有点问题。

    另外可能大家发现toHtml,toHtml(true)和toHtml(false)的结果没什么区别。实际也是这样的,如果跟踪HTMLParser的代码就可以发现,Node的子类是AbstractNode,其中实现了toHtml()的代码,直接调用toHtml(false),而AbstractNode的三个子类RemarkNode,TagNode和TextNode中,toHtml(boolean verbatim)的实现中,都没有处理verbatim参数,所以三个函数的结果是一模一样的。如果你不需要实现你自己的什么特殊处理,简单使用toHtml就可以了。

    HTML的Node类继承关系如下图(这个是从别的文章Copy的):

    node

    AbstractNodes是Node的直接子类,也是一个抽象类。它的三个直接子类实现是RemarkNode,用于保存注释。在输出结果的toString部分中可以看到有一个"Rem (345[6,2],356[6,13]): 这是注释",就是一个RemarkNode。TextNode也很简单,就是用户可见的文字信息。TagNode是最复杂的,包含了HTML语言中的所有标签,而且可以扩展(扩展 HTMLParser 对自定义标签的处理能力)。TagNode包含两类,一类是简单的Tag,实际就是不能包含其他Tag的标签,只能做叶子节点。另一类是CompositeTag,就是可以包含其他Tag,是分支节点。

  • 相关阅读:
    范式理论
    事务
    触发器练一练
    Javascript模块化编程(三):require.js的用法
    Javascript模块化编程(二):AMD规范
    Javascript模块化编程(一):模块的写法
    什么是比特币?这可能是最通俗易懂的答案了
    Apache服务器的Options 的 Indexes FollowSymLinks详解
    机器学习进阶-图像金字塔与轮廓检测-图像金字塔(拉普拉斯金字塔)
    机器学习进阶-图像金字塔与轮廓检测-图像金字塔-(**高斯金字塔) 1.cv2.pyrDown(对图片做向下采样) 2.cv2.pyrUp(对图片做向上采样)
  • 原文地址:https://www.cnblogs.com/5tao/p/1859729.html
Copyright © 2011-2022 走看看