zoukankan      html  css  js  c++  java
  • Jsoup的学习

    一 . 什么是jsoup

    jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

    二 . Jsoup的作用

    Jsoup主要有以下功能: 
    1. 从一个URL,文件或字符串中解析HTML 
    2. 使用DOM或CSS选择器来查找、取出数据 
    3. 对HTML元素、属性、文本进行操作 
    4. 清除不受信任的HTML (来防止XSS攻击)

    三 . Jsoup与HttpClient的区别

    个人见解咯

    HttpClient主要的作用是作为网页抓取。而进行继续的数据解析需要Jsoup或者正则。其中正则主要是通过对字符串进行匹配,来选择需要的数据。而Jsoup是通过html一些标签等进行分块抽取数据进行分析。

    四 . Jsoup的学习

     使用Jsoup巨简单,Maven项目中加上:

        <dependency>
            <!-- jsoup HTML parser library @ https://jsoup.org/ -->
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.11.2</version>
        </dependency>

    五 . Jsoup的方法

    在我对于Jsoup的使用中,暂时只需要解析Html,然后进行查找、取出数据。所以对于其他的方法,暂时不做表述。

     

  • 相关阅读:
    mongodb的索引
    mongodb的简单操作
    mongodb的安装
    redis简单消息队列
    支持utf8的str_split函数
    php curl 传递数据
    linux 安装 ftp
    php des 对称加解密类
    13. Roman to Integer
    12. Integer to Roman
  • 原文地址:https://www.cnblogs.com/miaoww/p/8119311.html
Copyright © 2011-2022 走看看