JAVA中使用Htmlparse解析HTML文档

zoukankan html css js c++ java

JAVA中使用Htmlparse解析HTML文档
import java.util.HashMap;

import java.util.Map;

import org.htmlparser.Node;

import org.htmlparser.NodeFilter;

import org.htmlparser.Parser;

import org.htmlparser.tags.LinkTag;

import org.htmlparser.util.NodeList;

import com.yao.http.HttpRequester;

import com.yao.http.HttpRespons;



/**

* JAVA中使用Htmlparse解析HTML文档，使用htmlparse遍历出HTML文档的所有超链接（<a>标记）。

*

* @author YYmmiinngg

*/

public class Test {

    public static void main(String[] args) {

        try {

/* 首先我们先使用HttpRequester类和HttpRespons类获得一个HTTP请求中的数据（HTML文档）。可以从(http://download.csdn.net/source/321516)中下载htmlloader，该库中有上述类；或从我的《JAVA发送HTTP请求，返回HTTP响应内容，实例及应用》一文中摘取上述两JAVA类的代码。htmlparse可以从(http://download.csdn.net/source/321507)中下载

*/

            Map<String, String> map = new HashMap<String, String>();

            HttpRequester request = new HttpRequester();

            HttpRespons hr = request.sendGet("http://www.baidu.com");



            Parser parser = Parser.createParser(hr.getContent(), hr

                    .getContentEncoding());

            try {

                // 通过过滤器过滤出<A>标签

                NodeList nodeList = parser

                        .extractAllNodesThatMatch(new NodeFilter() {

                            //实现该方法,用以过滤标签

                            public boolean accept(Node node) {

                                if (node instanceof LinkTag)//<A>标记

                                    return true;

                                return false;

                            }

                        });

                // 打印

                for (int i = 0; i < nodeList.size(); i++) {

                    LinkTag n = (LinkTag) nodeList.elementAt(i);

                    System.out.print(n.getStringText() + " ==>> ");

                    System.out.println(n.extractLink());

                }

            } catch (Exception e) {

                e.printStackTrace();

            }



        } catch (Exception e) {

            e.printStackTrace();

        }

    }

}
查看全文

相关阅读:
使用vs2010编译 Python SIP PyQt4
谷歌编程指南
 【转】微策略面经相关资料
 KMP 算法
 C++ 拷贝构造函数
 虚继承虚表定义一个不能被继承的类
 cache的工作原理
 背包问题
 【转】C/C++ 内存对齐
 【转】 Linux/Unix 进程间通信的各种方式及其比较

原文地址：https://www.cnblogs.com/hongten/p/1992016.html