学习进度条43 - 走看看

zoukankan html css js c++ java

学习进度条43

分析网页

我们平时使用浏览器来访问网页，实质上来看，就是通过一个客户端经过网络连接访问了服务器端，访问前，我们的页面没有任何内容，那么这些内容必然都是从服务器端传输过来的。爬虫的工作就是利用编程的方式自动化地从服务器端获取并分析数据，得到我们需要爬取的内容。

因此想要利用爬虫获取内容，首先需要我们分析目标网站页面，了解其数据排列方式，知晓其数据传输过程，从而能够制订正确有效的爬取途径。

如果我们希望获取这个页面上的文章内容而不希望自己动手去复制粘贴，爬虫是一个非常有效的工具，而分析这个页面有几个方向：

（一）分析页面源代码：

在页面上单击右键，可以看到选项“查看页面源代码”（这里我使用的是Microsoft Edge浏览器，不同浏览器可能有所不同），弹出的新网页

（二）分析页面元素

在页面上按“F12”，神奇的事情出现了，页面的右侧（有的浏览器是下方）发生了有趣的变化

查看全文

相关阅读:
【Java学习笔记】java.lang包学习
 winform的md5加密
 地铁线路图的设计与实现
 asp.net的jQuery 表格展开伸缩
 关于批量数据更新的问题(C#高性能)
JQuery用户名无刷新验证
 Linq分页
 用jQuery写的好的动态显示本机时间的代码
 asp.net防止页面刷新弹出“需要重新发送您以前提交的信息”
aspx中的html代码调用CS文件中的方法

原文地址：https://www.cnblogs.com/hhw12345/p/14910361.html

Copyright © 2011-2022 走看看