zoukankan      html  css  js  c++  java
  • 页面抓取原理

    是根据页面节点进行定位筛选(多级选择器)。

    import java.io.IOException;
    import org.jsoup.Jsoup;
    import org.jsoup.nodes.Document;
    import org.jsoup.nodes.Element;
    import org.jsoup.select.Elements;
    public class TestPreview {
    public static void main(String[] args) throws IOException {
        method1();
    }
    private static void method1() throws IOException {
        //userAgent:例如火狐下打开百度,f12,网络-所有-点击任意一个-右侧出来的请求头的UserAgent
        Document document = Jsoup
        .connect("http://www.cnblogs.com/yanan7890/")
        .timeout(10000)
        .ignoreContentType(true)
        .userAgent("Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0")
        .get();
        //System.out.println(document);//获取整篇文档内容
        Elements es = document.select("#centercontent > div.day > div.postTitle >a");
        Element e = es.get(0);//获取满足条件的所有元素中的第一个标签元素
        // 处理标签内容为空时,返回""
        String text = e.text();
        String html = e.toString();
        System.out.println(text);//获取该标签元素的html内容
        System.out.println(html);//获取该标签元素
    }
    }
    View Code

  • 相关阅读:
    项目架构开发:数据访问层之Cache
    微信公众号平台接口开发:菜单管理
    【软件工程】第0次个人作业
    OO第四次博客作业
    OO第三次博客作业
    OO第二次博客作业
    Java学习笔记
    SQLInjection 靶场配置
    OO第一次博客作业
    面向对象先修:Java入门
  • 原文地址:https://www.cnblogs.com/yanan7890/p/6595091.html
Copyright © 2011-2022 走看看