一、Python爬虫-认识爬虫

zoukankan html css js c++ java

一、Python爬虫-认识爬虫

认识爬虫

　　爬虫是什么：

　　　　爬取互联网上的信息

　　　　数据挖掘->数据清洗（得到有效的信息）

　　爬虫分类：

　　　　通用爬虫：是搜索引擎抓取系统（百度，谷歌）的重要组成，主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份

　　　　抓取网页 -> 数据存储 -> 预处理 -> 提供检索，网站排名

　　　　聚焦爬虫：是"面向特定主体需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息

请求和响应

　　前端：网页展现　　　　　　　　

　　中间层：数据处理　　　　　　　

　　数据库：数据存储　　　　　　

　　服务器（响应）客户端（请求）　　　　　　　　　

URL

　　（Uniform/Universal Resource Locator）：统一资源定位符，是用于完整地描述Internet上网页和其他资源的地址的一种标识方法

　　

　　基本格式：scheme://host[:port#]/path/.../[?query-string][#anchor]

　　scheme：协议

　　host：服务器的IP地址或者域名

　　port#：服务器的端口（如果是走协议默认端口，缺省端口80）

　　query-string：参数，发送给http服务器的数据

　　anchor：锚（跳转到网页的指定锚点位置）

GET请求和POST请求

　　Get是从服务器上获取数据，Post是向服务器传输数据，Post更加安全

　　Get请求：参数显示都显示在浏览器网址上，HTTP服务器根据该请求所包含的URL中的参数来产生响应内容，即"Get"请求的参数是URL的一部分

　　Post请求：参数在请求体当中，消息长度没有限制而且以隐式的方式进行发送，通常用来向HTTP服务器提交量比较大的数据，请求参数包含在"Content-Type"消息头里，指明该消息体的媒体类型和编码

浏览器开发者工具

　　按下F12，进入开发者模式；

查看全文

相关阅读:
命令行参数解析
 业务
 从0开始架构二
 从0开始架构读书笔记
 增加ldl
工具论
 go的web框架的context回调的原理
 id生成器雪花算法和雪花算法的sony实现
 软件架构师应该知道的97件事(六)
进程通信简介

原文地址：https://www.cnblogs.com/Just-a-calm-programmer/p/12739386.html

一、Python爬虫-认识爬虫

认识爬虫

请求和响应

URL

GET请求和POST请求

浏览器开发者工具