之前我写脚本,是想获取HTML内容的.
但是呢...一方面编码困扰着我,于是我写了这个:
java根据URL获取网页编码
然后呢,每个网站是不是GZIP还得判断,贼麻烦...
但是没办法啊,麻烦也得写呗,业务需求啊...
正当我写着方法,把HTML转为Document对象,进行下一步解析标签时...
我发现了...
这不是明明可以直接解析url的嘛,那我还费什么劲找编码,费什么劲确定是不是GZIP啊...直接用Jsoup就解决了啊...
所以,进入正题
----------------------上面都是废话-------------------------
引入Jsoup(jar包自己找,以下是maven项目演示)
<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup --> <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.10.2</version> </dependency>
使用这个方法就行:
Document doc= Jsoup.parse(new URL("你要获取的网址"),(int型的等待超时毫秒数));
想要String型的再接:
String html = doc.toString();
用的方法是Jsoup的,用来解析文本贼好用(如从HTML中找出a标签啊啥的)
如果不会的话建议去学学
或者你们谁还有更好的解析文本的包或者库告诉我,我学学