day03 Python爬虫

zoukankan html css js c++ java

day03 Python爬虫
今日内容提纲

（1）爬虫原理（2）Requests请求库

一、爬虫原理

1、什么是互联网？

指的是由一堆网络设备，把一台台计算机互联到一起称之为互联网。

2、互联网建立的目的？

互联网建立的目的是为了数据的传递以及数据的分享。

3、什么是数据？

例如淘宝、京东商品信息.....

东方财富、雪球网的一些证券投资信息.....

链家、自如等房源信息....

12306

4、上网的全过程：

-普通用户：

      打开浏览器->往目标连点发送请求->获取相应数据->渲染到浏览器中

-爬虫程序：

     模拟浏览器->往目标站点发送请求->获取相应数据->提取有价值的数据->持久化到数据中

5、浏览器发送的是什么请求？

-客户端：

     浏览器是一个软件->客户端的IP和端口

-服务端：

https://www.jd.com/

www.jd.com（京东域名）->NDS解析->京东服务端的IP和端口

客户端的IP和端口---->服务端的IP和端口发送请求可以建立链接获取相应数据

6、爬虫全过程

-发送请求（需要请求库：Requests请求库、Selenium请求库）

-获取相应数据（只需要网服务器发送请求、请求通过后会返回响应数据）

-解析并提取数据（需要解析库：热、BeautifulSoup4、Xpath....）

-保存到本地（文件处理、数据库、MongoDB存储库）

二、Requests请求库

1、安装与使用

-打开cmd

-输入pip3 install requests

2、实例
import requests import re response = requests.get('https://www.pearvideo.com/') res_list = re.findall('<a href="video_(.*?)"', response.text, re.S) for v_id in res_list: detail = 'https://www.pearvideo.com/video_' + v_id response = requests.get(detail) last_url = re.findall('srcUrl="(.*?)"', response.text, re.S)[0] last_name = re.findall('data-title="(.*?)"',response.text,re.S)[0] print(last_name) print(last_url) last_1 = requests.get(last_url) with open('%s.mp4' %last_name,'wb') as f: f.write(last_1.content)
查看全文

相关阅读:
es6里面的arr方法
 for循环比较
 window.location各属性的值
 浏览器的缓存机制
 es6中的双箭头函数
 前端开发模拟数据------webpack-api-mocker
对象的深拷贝和浅拷贝
 Web应用程序的安全问题
 this指向问题
 postman使用篇最全整理

原文地址：https://www.cnblogs.com/zwsmile/p/11094518.html

最新文章
django框架(1)
api安全认证
 Web框架django[Form]组件
 Web框架django进阶篇
 Web框架django基础篇
 django2
Django
mysql
jQuery
CSS实现轮播效果