----- 爬虫
基于B/S 模式的数据采集技术,按照一定的规则,自动的抓取万维网信息程序
以一个或多个页面为爬取起点,从页面中提取链接实现深度爬取
使用爬虫的列子
第三方抢票软件(360/猎豹/ 百度抢票/携程/同城等)
机器学习 数据调研
爬虫的调用过程
网络请求
页面解析(目标数据抓取和爬取驱动逻辑)
数据保存
Scrapy 爬虫框架
什么是框架
一个半成品的软件项目
实现了软件的基础功能
规定了一系列实现功能的规则和接口
好处: 提高了开发效率,可以专注于业务逻辑的实现
scrapy 是一款基于Python 语言的爬虫框架
优点: 使用Python 语言开发,上手简单,爬取效率高(使用多线程),可以简洁高效的提取网页内容
生成scrapy 框架代码
------ 安装scrapy框架
pip install -I cryptography
来自 <https://blog.csdn.net/tfun_zhang/article/details/83745614>
pip install -I cryptography
来自 <https://blog.csdn.net/qq_31550425/article/details/78758235>