页面抓取原理

是根据页面节点进行定位筛选（多级选择器）。

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class TestPreview {
public static void main(String[] args) throws IOException {
    method1();
}
private static void method1() throws IOException {
    //userAgent：例如火狐下打开百度，f12，网络-所有-点击任意一个-右侧出来的请求头的UserAgent
    Document document = Jsoup
    .connect("http://www.cnblogs.com/yanan7890/")
    .timeout(10000)
    .ignoreContentType(true)
    .userAgent("Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0")
    .get();
    //System.out.println(document);//获取整篇文档内容
    Elements es = document.select("#centercontent > div.day > div.postTitle >a");
    Element e = es.get(0);//获取满足条件的所有元素中的第一个标签元素
    // 处理标签内容为空时，返回""
    String text = e.text();
    String html = e.toString();
    System.out.println(text);//获取该标签元素的html内容
    System.out.println(html);//获取该标签元素
}
}

View Code

查看全文

相关阅读:
视频智能分析系统EasyCVR视频流媒体安防监控云服务实现城市视频智能化应用
 Windows/Android/iOS平台H265编码视频播放器EasyPlayerRTSP中socket选项之keepalive设置介绍
 【解决方案】人脸识别/车牌识别RTSP/GB28181/SDK/Ehome协议视频平台EasyCVR搭建美丽乡村视频监控系统方案
 【操作说明】新版网络穿透+云端组网+远程运维+视频流拉转推平台EasyNTS上云网关管理平台如何安装？
Windows/Android/iOS平台H265编码视频播放器EasyPlayerPro支持高码率视频播放和D3D画面旋转代码参考
 【操作说明】人脸识别/车牌识别系统视频智能分析平台EasyCVR如何配置开启HTTPS协议？
程序员们不要想一辈子靠技术混饭吃
 jsonObject的使用
 程序员们不要想一辈子靠技术混饭吃
 从 iBatis 到 MyBatis

原文地址：https://www.cnblogs.com/yanan7890/p/6595091.html