基于Java的html解析器Jsoup的简单介绍
Jsoup 下载
Jsoup是一个基于Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。
- 使用
Maven下载:
(Maven使用可以参照以往的博客)
<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.9.2</version>
</dependency>
- 官网Jsoup
Jsoup 使用
特点:
- 没有关闭的标签 (比如:
Lorem
Ipsum parses to
Lorem
Ipsum
) - 隐式标签 (比如. 它可以自动将
Table data 包装成?) - 创建可靠的文档结构(html标签包含head 和 body,在head只出现恰当的元素)
- 1 Jsoup.parse(String html)和Jsoup.parse(String html, String baseUri); // 解析一个
HTMl字符串 - 2 Jsoup.parseBodyFragment(String html); // 解析一个
body片断 - 3 Jsoup.connect(String url); //从一个
URL解析一个Document可以通过选择器来查找元素 - 4 Jsoup.parse(File in, String charsetName, String baseUri); //从本地加载一个
文档
- 解析一个
HTMl字符串
String html = "<html><head><meta charset='UTF-8'><title>three.js</title></head><body>"+ "<script type='text/javascript' src='js/Three/three.js'></script>"+ "<script></script></body></html>"; Document doc = Jsoup.parse(html); System.out.println(doc);output:
<html> <head> <meta charset="UTF-8" /> <title>three.js</title> </head> <body> <script type="text/javascript" src="js/Three/three.js"></script> <script></script> </body> </html>- 解析一个
URL,这里我们解析的是Google的首页的登陆按钮(按钮id:gb_70)然后回去按钮的文本。
Document google = Jsoup.connect("https://www.google.com.hk/").get(); Element login = google.getElementById("gb_70"); System.out.println(login.text());output:登入
- 相关阅读:
nop 配置阿里cdn 联通4g 页面显示不全 查看源代码发现被截断
HTTP 错误 500.21 模块 IIS Web Core
nopcommerce4.0 安装步骤
2017-12-08高级.net 面试小结
图片上传
每个部门绩效成绩第二名 sql server 查询 ( 替代 not in )
Vmware虚拟机与主机连接的三种模式及使用
PE,VG,PV,LV概念与结构关系
windows忘记 oracle的用户名和密码
虚拟机CentOS打开终端设置快捷键
- 原文地址:https://www.cnblogs.com/chenjy1225/p/9661350.html
- 最新文章
-
笔记七(编写第一个UEFI程序)
笔记六(编写程序前的准备)
笔记五(常用的运行命令)持续更新。。。
intel CPU命名规则
笔记四(Competitor Analysis Test小结)
笔记三(UEFI详解)
统一设置导航栏的皮肤颜色
自己的转态栏颜色是白色,调用系统相册回来后转态栏字体变成黑色
UI进阶之手势识别
UI进阶之CALayer
- 热门文章
-
Quartz2D简单使用
UI进阶之程序启动原理及UIApplication
UI进阶之常见文件
UI进阶之UIDatePicker键盘处理
UI进阶之UIPickerView---点餐系统
UI基础之UITableView案例QQ好友列表
windows10 64位 安装mysql服务端 并使用navicat客户端链接 掉的一堆坑
EFCore DbContext 报SqlException: Incorrect syntax near 'OFFSET'.
升级 nop 4.1 Incorrect syntax near 'OFFSET'. Invalid usage of the option NEXT in the FETCH statement.
jq 导航跟随 模拟京东手机端
Copyright © 2011-2022 走看看