zoukankan      html  css  js  c++  java
  • JSoup

    Summary

    • 在获取 a 标签中的 href 值得时候,发现可以获取到相对地址,但是使用 abs:href 的是返回结果是空的。
    • 查看文档发现,Jsoup.parse 的第二个参数可以传入 baseURL,我们在这里获取即可。

    Demo

    • Scala 代码
    val urlList = Jsoup.parse(html,"https://www.jianshu.com/").getElementsByAttributeValue("target","_blank").select(".title")
    println(urlList)
    println(htmlPage.getBaseURL)
    urlList.forEach(
      // Element:
      x => {
        println(x.absUrl("href"))
        println(x.absUrl("abs:href"))
      }
    )
    • Scala 代码
    def getContentUrls: List[URL] = {
      val listBuffer = new ListBuffer[URL]
      val urlList = Jsoup.parse(html).select("""a[href~=.*?.html]""")
      urlList.foreach(x => {
        val url =  new URL (x.attr("abs:href"))   // 获取元素A Element 的绝对路径信息
        logger.info("获取URL的绝对路径信息: " + url)
        listBuffer += url
      })
      listBuffer.toList
    }
  • 相关阅读:
    Mysql-windows安装
    go-jwt生成token
    github下载慢的问题
    mysql主从复制(二)
    软件下载网站推荐
    Ubuntu14.04 安装ssh
    Ubuntu14.04 更换镜像源
    docker安装记录
    k8s安装记录
    Docker(一):Docker入门教程
  • 原文地址:https://www.cnblogs.com/duchaoqun/p/12755008.html
Copyright © 2011-2022 走看看