zoukankan      html  css  js  c++  java
  • Jsoup对象

    1.Jsoup:工具类,解析HTML,XML文档,加载文档进内存,获取dom树-->返回Document文档对象

    parse():解析HTML和XML,返回Documet对象

      重载方法

    • parse​(File in, String charsetName):解析HTML或XML文件的。(也就是需要存在一个File对象,物理文件)
      • 常用于XML
    • parse​(String html):解析HTML或XML的字符串(字符串就是,HTML和XML的内容)
      • 不常用
    • parse​(URL url, int timeoutMillis):通过网络路径获取指定的HTML或者XML的文档对象
      • timeoutMillis超时时间

      • 获取的路径就是对应的HTML文档,这个HTML文档只不过是在浏览器上被解析成用户看到的界面。真实的数据还是代码

      • 常用于HTML爬虫程序

      • 例如比价网:慢慢买


    2. Documet:文档对象=内存中DOM树

    主要用来获取Element对象(document继承了node的下的element对象,能获取任意的Element对象)

    • getElementById​(String id):根据id属性值,获取唯一的element对象
    • getElementsByTag​(String tagName):根据标签名称,获取元素对象集合
    • getElementsByAttribute​(String key):根据属性名称,获取元素对象集合
    • getElementsByAttributeValue​(String key, String value):根据属性名称和属性值,获取元素对象集合

    3.Elements:元素Element对象的集合。可以当做:泛型为Element的ArrayList集合

    上面的倒数三个方法)

    4.Element:元素对象。获取元素的名称、属性、文本

    • 获取子元素对象(只能获取element对象的子标签)
      • getElementById​(String id):根据id属性值,获取唯一的element对象

      • getElementsByTag​(String tagName):根据标签名称,获取元素对象集合

      • getElementsByAttribute​(String key):根据属性名称,获取元素对象集合

      • getElementsByAttributeValue​(String key, String value):根据属性名称和属性值,获取元素对象集合

    • 获取属性值(从node继承过来的方法)
      • String attr(String key):根据属性名称获取属性值,通过传入的属性名称。属性名称不区分大小写
      • String写在方法前面表示返回值
    • 获取文本内容
      • String text():获取子标签的纯文本内容
      • String html():获取标签体的所有内容(包扩子标签的标签和文本)

       

    5.Node:节点对象。是上面所有的爹

    是Documet和Element的父类

  • 相关阅读:
    一篇进入ABB机器人世界-以前学习视频的笔记
    说说常用算子select_shape的特性一些使用
    简单说说双目立体视觉的原理(后面有机会再讲讲应用)
    Halcon算子大全目录
    【转载】C# SQLite 数据库操作
    【重磅】机器视觉前沿的研究机构(国内篇)
    【重磅】机器视觉前沿的研究机构(国外篇)
    机器视觉相关中英文词汇
    Java中print、printf、println的区别
    iTerm2相关设置与美化
  • 原文地址:https://www.cnblogs.com/rijiyuelei/p/12404973.html
Copyright © 2011-2022 走看看