zoukankan      html  css  js  c++  java
  • Jsoup介绍

    Jsoup介绍

    1.为什么要使用Jsoup?

    抓取到网页后,还需要对页面进行解析。对于解析有很多处理方式:比如:字符串工具解析、正则表达式等,但是上面这些成本巨大,因此需要一款专门解析html页面的技术。因此就可以使用Jsoup来实现。

    2.Jsoup简介

    jsoup是一款java的HTML解析器,可以直接解析URL地址、HTML文本内容。他提供了一套非常省力的API,可以通过DOM、css以及类似于jQuery的操作方法来取出和操作数据。

    3.jsoup的主要功能如下:

    1. 从一个URL、文件、或字符串中解析HTML

    2. 使用DOM或css选择器来查找、取出数据

    3. 可操作HTML元素、属性、文本

     上面是jsoup的一 些比较基本的东西。

    当需要在maven工程中使用时,我们需要引入一下依赖:

    在pom.xml文件中引入:

    <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
    <dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.10.2</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/junit/junit -->
    <dependency>
    <groupId>junit</groupId>
    <artifactId>junit</artifactId>
    <version>4.12</version>
    <scope>test</scope>
    </dependency>
    <!-- https://mvnrepository.com/artifact/commons-io/commons-io -->
    <dependency>
    <groupId>commons-io</groupId>
    <artifactId>commons-io</artifactId>
    <version>2.6</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/org.apache.commons/commons-lang3 -->
    <dependency>
    <groupId>org.apache.commons</groupId>
    <artifactId>commons-lang3</artifactId>
    <version>3.7</version>
    </dependency>
  • 相关阅读:
    BreakRoleInheritance在多线程情况下调用的问题
    如何通过IAlertNotifyHandler来自定义Alert Email
    SPField的几种name的释疑
    使用SQL语句得到存储过程的实现
    在C# 中使用反射调用internal的属性
    程序安装时检查是否已经安装.NETFramework
    biztalk
    什么是Biztalk?
    分页存储过程
    SQL SERVER 2005 CLR 部署UDT,Triggers,Functions,Procedure,Aggregates
  • 原文地址:https://www.cnblogs.com/juddy/p/13121594.html
Copyright © 2011-2022 走看看