Java爬虫，使用jsoup轻松爬数据

zoukankan html css js c++ java

Java爬虫，使用jsoup轻松爬数据
刚刚学习爬虫，感觉使用jsoup爬虫挺容易的。记录一下自己爬取数据的过程。

Jsoup介绍：

Jsoup 是一个 Java 的开源HTML解析器，可直接解析某个URL地址、HTML文本内容。使用Jsoup首先需要引入Jsoup.jar包或者添加依赖，可以到Jsoup官网查看。

elements类相当于网页元素中的标签，而select（）方法用于按一定条件选取符合条件的标签，组成符合条件的标签数组。element支持转成字符串或者文本等。总之功能很强大。只需要了解一下select（）方法的过滤规则即可上手用了。但是有了谷歌浏览器！过滤规则都不用管了，直接上手用！

来个简单的示例：

爬取一下我们平时使用百度搜索的网页，首先用谷歌浏览器打开百度网页，打开开发者模式(快捷键ctrl+shift+I)。

右键点击代码行，copy–>copy selector

可以贴出来看看copy到的东西：
head > title
表明了目标在网页代码中的位置，每个>前后面都代表一个检索条件。那么我们要得到这个标签，只要这样写：
1 String URL="https://www.baidu.com/"; //目标网址 2 Document doc=Jsoup.connect(URL).get(); 3 //在下载的document里进行检索的语句 4 Elements test=doc.select("head").select("title"); 5 //这样test标签就是我们最开始右键单击检查的标签 6 String str=test.toString();//将标签转化成字符串 7 String text=test.text();//将标签里的文本提取出来 8 System.out.println(str); 9 System.out.println(text);
运行结果：
<title>百度一下，你就知道</title> 百度一下，你就知道
查看全文

相关阅读:
[轉]SQLServer : EXEC和sp_executesql的区别
 CSS 中文字体
 [转]71种 menu css源码
 DataTable做為數據源手動分頁
 [轉]9个优秀的基于 JavaScript 与 CSS 的 Web 图表框架
 [轉]10 Tools to help you select a Web 2.0 Color Palette
[轉]ASP模拟POST提交请求上传文件
 Web配色資源
 [轉]sqlhelper 下载使用指南
 [轉]查看SQL Server数据库连接

原文地址：https://www.cnblogs.com/yangms/p/9810400.html

Java爬虫，使用jsoup轻松爬数据

Jsoup介绍：

来个简单的示例：