一直在学习Django,我都要忘了怎么发送请求了
因为在Django中一直请求的是自己内部的url 而怎么访问百度呢?
https://www.cnblogs.com/zealousness/p/8748906.html
https://www.jianshu.com/p/9e50c58dabdd
首先得先安装 pip install requests 这个模块
http://docs.python-requests.org/zh_CN/latest/user/advanced.html#advanced
处理图像你还得安装 pip install pillow 模块
按照上面流程下来还是一脸懵呀
那就通过爬虫来了解这HTTP吧
https://movie.douban.com/top250
https://www.cnblogs.com/haichong/p/8067874.html
1.首先得知道自己要爬哪里网址 分析?后的参数 知道如何分页的
2.明确我要爬取的内容数据吧,排名,名字,导演,评语,评分 然后要查看元素所在的位置
现在的问题是这些方法我不知道怎么用
BeautifuSoup 这肯定是个过滤器 查找特定的过滤器
os路径的问题
我们就来介绍一个强大的解析工具Beautiful Soup,它借助网页的结构和属性等特性来解析网页。有了它,我们不用再去写一些复杂的正则表达式,只需要简单的几条语句,就可以完成网页中某个元素的提取。
3、 解析器
Beautiful Soup在解析时实际上依赖解析器,它除了支持Python标准库中的HTML解析器外,还支持一些第三方解析器(比如lxml)
欧克 理清思路 再自己动手
爬虫需要请求和解析HTML元素 python为我们提供了两种模块
from bs4 import BeautifulSoup
import requests
先是获取网页,那么就是要请求
requests.get(url=,headers = )
请求地址,请求头 UA伪装代理浏览器 然后已经请求到了网页
那么接下来解析网页,获取想要的内容
先创建一个BeautifulSoup的实例对象soup 把内容传进去,用lxml解析
过滤自己需要的那部分信息就好了 用BeautifulSoup 提供的方法find()find_all("")
到此获取和分析基本的网页结构已经好了 接下就应该是获取里面的内容了
如何获取内容呢 通过get_text()
下一步是如何存到文件中呢
有个负责路径的模块 import os
print(response)
#输出
<Response [200]>
也算是完成了吧 爬虫三步走:请求地址,获取内容,存储文件
对应模块:requests bs4 BeautifulSoup os