zoukankan      html  css  js  c++  java
  • Jsoup介绍

    Jsoup介绍

    1.为什么要使用Jsoup?

    抓取到网页后,还需要对页面进行解析。对于解析有很多处理方式:比如:字符串工具解析、正则表达式等,但是上面这些成本巨大,因此需要一款专门解析html页面的技术。因此就可以使用Jsoup来实现。

    2.Jsoup简介

    jsoup是一款java的HTML解析器,可以直接解析URL地址、HTML文本内容。他提供了一套非常省力的API,可以通过DOM、css以及类似于jQuery的操作方法来取出和操作数据。

    3.jsoup的主要功能如下:

    1. 从一个URL、文件、或字符串中解析HTML

    2. 使用DOM或css选择器来查找、取出数据

    3. 可操作HTML元素、属性、文本

     上面是jsoup的一 些比较基本的东西。

    当需要在maven工程中使用时,我们需要引入一下依赖:

    在pom.xml文件中引入:

    <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
    <dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.10.2</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/junit/junit -->
    <dependency>
    <groupId>junit</groupId>
    <artifactId>junit</artifactId>
    <version>4.12</version>
    <scope>test</scope>
    </dependency>
    <!-- https://mvnrepository.com/artifact/commons-io/commons-io -->
    <dependency>
    <groupId>commons-io</groupId>
    <artifactId>commons-io</artifactId>
    <version>2.6</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/org.apache.commons/commons-lang3 -->
    <dependency>
    <groupId>org.apache.commons</groupId>
    <artifactId>commons-lang3</artifactId>
    <version>3.7</version>
    </dependency>
  • 相关阅读:
    KMP的next[]数组
    [Gauss]HDOJ3976 Electric resistance
    [Gauss]POJ2065 SETI
    [Gauss]POJ2947 Widget Factory
    更好的 SQL 模式的 10 条规则
    BZOJ2460: [BeiJing2011]元素
    BZOJ2115: [Wc2011] Xor
    洛谷P3164 [CQOI2014]和谐矩阵
    POJ1222熄灯问题
    POJ1830开关问题
  • 原文地址:https://www.cnblogs.com/juddy/p/13121594.html
Copyright © 2011-2022 走看看