python爬虫--理论 - 走看看

zoukankan html css js c++ java

python爬虫--理论

网络爬虫定义：

web spider，网络蜘蛛是通过网页的链接地址来寻找网页的。

打开网页的过程其实就是浏览器作为一个浏览的“客户端”，向服务器端发送了一次请求，把服务器端的文件“抓”到本地，再进行解释、展现。HTML是一种标记语言，用标签标记内容并加以解析和区分。浏览器的功能是将获取到的HTML代码进行解析，然后将原始的代码转变成我们直接看到的网站页面。

URL的格式由三部分组成：
①第一部分是协议(或称为服务方式)。
②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
③第三部分是主机资源的具体地址，如目录和文件名等。

1.HTTP协议的URL示例：
使用超级文本传输协议HTTP，提供超级文本信息服务的资源。

例：http://www.peopledaily.com.cn/channel/welcome.htm

其计算机域名为www.peopledaily.com.cn。

超级文本文件(文件类型为.html)是在目录 /channel下的welcome.htm。

这是中国人民日报的一台计算机。

流程如下：

查看全文

相关阅读:
通过电脑chrome调试手机真机打开的微信H5页面，调试电脑微信H5页面
 关于神策埋点数据采集
 jmeter控制仅一次登录的三种方案
 win10下mysql8.0.19解压版的安装教程
 mysql中的case when then 的用法
 python+openpyxl的excel的相关读写
 使用Gitlab-CI 实现NetCore项目Docker化并部署到阿里云K8S
NetCore 中间件获取请求报文和返回报文
 WebApi 通过拦截器设置特定的返回格式
 NetCore AutoMapper的封装

原文地址：https://www.cnblogs.com/leon507/p/7610254.html

Copyright © 2011-2022 走看看