python学习-day4上午 - 走看看

zoukankan html css js c++ java

python学习-day4上午

回顾：

1.爬虫：爬取数据

2.互联网：由一堆网络设备一台台的计算机互联到一起

3、互联网建立的目的：数据的传递和数据共享

4.上网的全过程：

普通用户：

打开浏览器-》往目标站点（服务器）发送请求-》接受响应数据-》渲染到页面上

爬虫程序：

　模拟浏览器-》往目标站点（服务器）发送请求-》接受响应数据-》提取有用的数据-》保存到本地或者数据库

5.浏览器发送的是：http协议的请求：

　　-请求url

　　-请求方式：GET,POST等

　　-请求头：

　　　　cookies

　　　　user-agent

　　　　host

6.爬虫的全过程

1、发送请求（请求库）

　　　　——resquent模块

　　　　——selenimu模块

2、获取响应数据（服务器返回）

3、解析并提取数据（解析库）

　　　　——bs4

　　　　——Xpath

4、数据持久化（保存数据）（存储库）

　　　　--MongoDB

其中1、3、4、需要手动完成。

注：当前公司使用：Oracle、Mysql、以及MongoDB

爬虫框架

——Scrapy

7.爬取梨视频

1、分析网站的视频源地址

2、通过requests往是视频源地址发送请求

3、获取到相关视频的二进制流，并保存到本地

今日内容：

1.request模块的详细使用

2.selenium模块

查看全文

相关阅读:
OAuth2 协议原理简析及Azure AD OAuth2示例
 MySQL Innodb MVCC(多版本并发控制)
乐观锁和悲观锁
 数据库索引
 SQL盲注
 JAVA array to list and list to array
缓存穿透，缓存雪崩和缓存击穿
 四、Spring Cloud 之旅 -- Ribbon 负载均衡
 JavaScript中 require、import 有什么区别？
vue 2.x Vue 3.x 日常采坑之设置alias别名、background引入图片、全局引入scss文件的问题

原文地址：https://www.cnblogs.com/evan0925/p/11020874.html

Copyright © 2011-2022 走看看