回顾:
1.爬虫:爬取数据
2.互联网:由一堆网络设备一台台的计算机互联到一起
3、互联网建立的目的:数据的传递和数据共享
4.上网的全过程:
普通用户:
打开浏览器-》往目标站点(服务器)发送请求-》接受响应数据-》渲染到页面上
爬虫程序:
模拟浏览器-》往目标站点(服务器)发送请求-》接受响应数据-》提取有用的数据-》保存到本地或者数据库
5.浏览器发送的是:http协议的请求:
-请求url
-请求方式:GET,POST等
-请求头:
cookies
user-agent
host
6.爬虫的全过程
1、发送请求(请求库)
——resquent模块
——selenimu模块
2、获取响应数据(服务器返回)
3、解析并提取数据(解析库)
——bs4
——Xpath
4、数据持久化(保存数据)(存储库)
--MongoDB
其中1、3、4、需要手动完成。
注:当前公司使用:Oracle、Mysql、以及MongoDB
爬虫框架
——Scrapy
7.爬取梨视频
1、分析网站的视频源地址
2、通过requests往是视频源地址发送请求
3、获取到相关视频的二进制流,并保存到本地
今日内容:
1.request模块的详细使用
2.selenium模块