zoukankan      html  css  js  c++  java
  • java根据URL获取HTML内容

    之前我写脚本,是想获取HTML内容的.

    但是呢...一方面编码困扰着我,于是我写了这个:

    java根据URL获取网页编码

    然后呢,每个网站是不是GZIP还得判断,贼麻烦...

    但是没办法啊,麻烦也得写呗,业务需求啊...

    正当我写着方法,把HTML转为Document对象,进行下一步解析标签时...

    我发现了...

    这不是明明可以直接解析url的嘛,那我还费什么劲找编码,费什么劲确定是不是GZIP啊...直接用Jsoup就解决了啊...

    所以,进入正题

    ----------------------上面都是废话-------------------------

    引入Jsoup(jar包自己找,以下是maven项目演示)

    <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
            <dependency>
                <groupId>org.jsoup</groupId>
                <artifactId>jsoup</artifactId>
                <version>1.10.2</version>
            </dependency>

    使用这个方法就行:

    Document doc= Jsoup.parse(new URL("你要获取的网址"),(int型的等待超时毫秒数));

    想要String型的再接:

    String html = doc.toString();

    用的方法是Jsoup的,用来解析文本贼好用(如从HTML中找出a标签啊啥的)

    如果不会的话建议去学学

    或者你们谁还有更好的解析文本的包或者库告诉我,我学学

  • 相关阅读:
    0814防盗链访问控制代理
    0811Nginx访问日志设置
    0810Nginx安装
    0809LNMP架构介绍
    PHP安装
    mariaDB安装Apache安装(httpd)
    LAMP构架介绍
    shell基础知识(2)
    shell基础知识(1)
    yum更换国内源、yum下载rpm包、源码包安装
  • 原文地址:https://www.cnblogs.com/blog5277/p/6704288.html
Copyright © 2011-2022 走看看