zoukankan      html  css  js  c++  java
  • Java

    就爬取和解析内容而言,我们有太多选择。
    比如,很多人都觉得Jsoup就可以解决所有问题。
    无论是Http请求、DOM操作、CSS query selector筛选都非常方便。
     
    关键是这个selector,仅通过一个表达式筛选出的只能是一个node。
    如过我想获得一个text或者一个node的属性值,我需要从返回的element对象中再获取一次。
    而我恰好接到了一个有意思的需求,仅通过一个表达式表示想筛选的内容,获取一个新闻网页的每一条新闻的标题、链接等信息。

     
    XPath再合适不过了,比如下面这个例子:

    static void crawlByXPath(String url,String xpathExp) throws IOException, ParserConfigurationException, SAXException, XPathExpressionException {
    
        String html = Jsoup.connect(url).post().html();
    
        DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
        DocumentBuilder builder = factory.newDocumentBuilder();
        Document document = builder.parse(html);
    
        XPathFactory xPathFactory = XPathFactory.newInstance();
        XPath xPath = xPathFactory.newXPath();
    
        XPathExpression expression = xPath.compile(xpathExp);
        expression.evaluate(html);
    
    }
    

       
    遗憾的是,几乎没有网站可以通过documentBuilder.parse这段代码。
    而XPath却对DOM非常严格。
    对HTML进行一次clean,于是我加入了这个东西:

        <dependency>
            <groupId>net.sourceforge.htmlcleaner</groupId>
            <artifactId>htmlcleaner</artifactId>
            <version>2.9</version>
        </dependency>
    

     
    HtmlCleaner可以帮我解决这个问题,而且他本身就支持XPath。
    仅仅一行HtmlCleaner.clean就解决了:

    public static void main(String[] args) throws IOException, XPatherException {
        String url = "http://zhidao.baidu.com/daily";
        String contents = Jsoup.connect(url).post().html();
    
        HtmlCleaner hc = new HtmlCleaner();
        TagNode tn = hc.clean(contents);
        String xpath = "//h2/a/@href";
        Object[] objects = tn.evaluateXPath(xpath);
        System.out.println(objects.length);
    
    }
    

     
    但是HtmlCleaner又引发了新的问题,当我把表达式写成"//h2/a[contains(@href,'daily')]/@href"时,他提示我不支持contains函数。
    而javax.xml.xpath则支持函数使用,这下问题来了。
    如何结合二者? HtmlCleaner提供了DomSerializer,可以将TagNode对象转为org.w3c.dom.Document对象,比如:

    Document dom = new DomSerializer(new CleanerProperties()).createDOM(tn);
    

     
    如此一来就可以发挥各自长处了。

    public static void main(String[] args) throws IOException, XPatherException, ParserConfigurationException, XPathExpressionException {
        String url = "http://zhidao.baidu.com/daily";
        String exp = "//h2/a[contains(@href,'daily')]/@href";
    
        String html = null;
        try {
            Connection connect = Jsoup.connect(url);
            html = connect.get().body().html();
        } catch (IOException e) {
            e.printStackTrace();
        }
        HtmlCleaner hc = new HtmlCleaner();
        TagNode tn = hc.clean(html);
        Document dom = new DomSerializer(new CleanerProperties()).createDOM(tn);
        XPath xPath = XPathFactory.newInstance().newXPath();
        Object result;
        result = xPath.evaluate(exp, dom, XPathConstants.NODESET);
        if (result instanceof NodeList) {
            NodeList nodeList = (NodeList) result;
            System.out.println(nodeList.getLength());
            for (int i = 0; i < nodeList.getLength(); i++) {
                Node node = nodeList.item(i);
                System.out.println(node.getNodeValue() == null ? node.getTextContent() : node.getNodeValue());
            }
        }
    }
    
  • 相关阅读:
    AngularJS:实现动态添加输入控件功能
    Openfire:XMPP的几种消息类型
    Openfire:重新配置openfire
    Clojure:日期操作方法
    Openfire:通过Servlet群发消息
    Openfire:访问Servlet时绕开Openfire的身份验证
    Clojure:解决selmer模板不刷新的问题
    Intellij Idea 13:运行Clojure的repl环境
    MVC.Net 5:允许保存和输出Html内容
    BAE Flask UEditor 使用七牛云
  • 原文地址:https://www.cnblogs.com/kavlez/p/4049210.html
Copyright © 2011-2022 走看看