zoukankan      html  css  js  c++  java
  • Java爬虫,使用jsoup轻松爬数据

    刚刚学习爬虫,感觉使用jsoup爬虫挺容易的。记录一下自己爬取数据的过程。

    Jsoup介绍:

    Jsoup 是一个 Java 的开源HTML解析器,可直接解析某个URL地址、HTML文本内容。使用Jsoup首先需要引入Jsoup.jar包或者添加依赖,可以到Jsoup官网查看。

    elements类相当于网页元素中的标签,而select()方法用于按一定条件选取符合条件的标签,组成符合条件的标签数组。element支持转成字符串或者文本等。总之功能很强大。只需要了解一下select()方法的过滤规则即可上手用了。但是有了谷歌浏览器!过滤规则都不用管了,直接上手用!

    来个简单的示例: 

    爬取一下我们平时使用百度搜索的网页,首先用谷歌浏览器打开百度网页,打开开发者模式(快捷键ctrl+shift+I)。

    右键点击代码行,copy–>copy selector 

    可以贴出来看看copy到的东西:

    head > title

    表明了目标在网页代码中的位置,每个>前后面都代表一个检索条件。那么我们要得到这个标签,只要这样写:

    1 String URL="https://www.baidu.com/"; //目标网址
    2 Document doc=Jsoup.connect(URL).get();
    3  //在下载的document里进行检索的语句
    4 Elements test=doc.select("head").select("title");
    5 //这样test标签就是我们最开始右键单击检查的标签
    6 String str=test.toString();//将标签转化成字符串
    7 String text=test.text();//将标签里的文本提取出来
    8 System.out.println(str);
    9 System.out.println(text);                   

    运行结果:

    <title>百度一下,你就知道</title>
    百度一下,你就知道
  • 相关阅读:
    社交需求和社交产品的更替
    腾讯产培生面经
    【C++基础】类class
    【C++基础】结构struct
    【C++基础】C-串知识整理
    GeoServer war包在tomcat7中配置遇到的一个问题
    pgrouting 2.0 的环境配置
    阿里2014年9月笔试中的一个算法设计题--擦黑板剩余数字
    VisualSVN Server的启动关闭脚本
    二叉树遍历(前序、中序、后序)的递归及非递归实现(小结)
  • 原文地址:https://www.cnblogs.com/yangms/p/9810400.html
Copyright © 2011-2022 走看看