Python 爬虫实战（二）：使用 requests-html

zoukankan html css js c++ java

Python 爬虫实战（二）：使用 requests-html
Python 爬虫实战（一）：使用 requests 和 BeautifulSoup，我们使用了 requests 做网络请求，拿到网页数据再用 BeautifulSoup 解析，就在前不久，requests 作者 kennethreitz 出了一个新库 requests-html，Pythonic HTML Parsing for Humans™，它可以用于解析 HTML 文档的。requests-html 是基于现有的框架 PyQuery、Requests、lxml 等库进行了二次封装，更加方便开发者调用。

安装

Mac：
```
pip3 install requests-html
```
Windows：
```
pip install requests-html
```
实例

代码撸多了，让我们看会妹纸，爬的网站我选的是 http://www.win4000.com/zt/xinggan.html ，打开网站，观察到这是个列表，图片是缩略图，要想保存图片到本地，当然需要高清大图，因此得进入列表详情，进一步解析，完整代码如下：
```
from requests_html import HTMLSession
import requests
import time

session = HTMLSession()


# 解析图片列表
def get_girl_list():
    # 返回一个 response 对象
    response = session.get('http://www.win4000.com/zt/xinggan.html')  # 单位秒数

    content = response.html.find('div.Left_bar', first=True)

    li_list = content.find('li')

    for li in li_list:
        url = li.find('a', first=True).attrs['href']
        get_girl_detail(url)


# 解析图片详细
def get_girl_detail(url):
    # 返回一个 response 对象
    response = session.get(url)  # 单位秒数
    content = response.html.find('div.scroll-img-cont', first=True)
    li_list = content.find('li')
    for li in li_list:
        img_url = li.find('img', first=True).attrs['data-original']
        img_url = img_url[0:img_url.find('_')] + '.jpg'
        print(img_url + '.jpg')
        save_image(img_url)


# 保持大图
def save_image(img_url):
    img_response = requests.get(img_url)
    t = int(round(time.time() * 1000))  # 毫秒级时间戳
    f = open('/Users/wuxiaolong/Desktop/Girl/%d.jpg' % t, 'ab')  # 存储图片，多媒体文件需要参数b（二进制文件）
    f.write(img_response.content)  # 多媒体存储content
    f.close()


if __name__ == '__main__':
    get_girl_list()
```
代码就这么多，是不是感觉很简单啊。

说明：

1、requests-html 与 BeautifulSoup 不同，可以直接通过标签来 find，一般如下：
标签
标签.someClass
标签#someID
标签[target=_blank]
参数 first 是 True，表示只返回 Element 找到的第一个，更多使用：http://html.python-requests.org/ ；

2、这里保存本地路径 /Users/wuxiaolong/Desktop/Girl/我写死了，需要读者改成自己的，如果直接是文件名，保存路径将是项目目录下。

遗留问题

示例所爬网站是分页的，没有做，可以定时循环来爬妹纸哦，有兴趣的读者自己玩下。

参考

requests-html

今天用了一下Requests-HTML库（Python爬虫）

公众号

我的公众号：吴小龙同学，欢迎交流～
查看全文

相关阅读:
《Twinkle Twinkle Little Star》
《牛客IOI周赛24-普及组B》
You have to remove (or rename) that container to be able to reuse that name.
MySQL查看服务器状态、数据库、表的命令
 【用户不在sudoers文件中】的两种解决方式
 Ubuntu20.04安装Docker时摊上的那些事儿
 Ubuntu20.04安装Docker以后设置阿里云镜像加速
 Ubuntu20.04默认更新源sources.list和第三方源推荐（干货！）
Ubuntu必备软件之搜狗输入法
 Ubuntu20.04必备软件之截图工具

原文地址：https://www.cnblogs.com/WuXiaolong/p/8570065.html

Python 爬虫实战（二）：使用 requests-html

安装

实例

遗留问题

参考

公众号