zoukankan html css js c++ java

十行代码爬取多页数据

有一个需求，获取www.weidawang.xyz网站中的所有文章名称。

如下图所示：

魏大王学编程

有一个问题，由于文章较多，文章是分页展示的，每页展示15篇。

如何能够尽可能简单的获取所有博文名称呢？

很简单，只需要三步：

发送请求，获取网页数据
解析数据
获得结果

完整代码见文末

工具准备

安装 requests 模块，用于发送 get 请求。

pip install requests

安装 bs4 模块，用于解析 html 代码。

pip install beautifulsoup4

安装不成功的话，记得升级pip版本：pip install -U pip

知识准备

requests 如何发送 get 请求

resp = requests.get(url)

get 请求返回的 Response 对象

属性	描述
resp.status_code	Response状态码，200为成功
resp.text	Response内容文本，就是我们想要的数据
resp.encoding	从header中猜测的内容编码格式
resp.apparent_encoding	从内容分析出来的编码格式
r.content	Response内容的二进制形式

通常，我们只需要使用 resp.text 就好了。

使用 bs4 解析 html

bs4.BeautifulSoup(resp.text,"html.parser")

以上代码返回值，就是解析后的 html 代码

css 选择器

利用 bs4 对象的 select() 方法，选择我们想要的 html 元素对象。

操作步骤

进入www.weidawang.xyz，点击页面底部分页按钮，观察网址变化。

如下图所示：

www.weidawang.xyz

需要注意的是，当我们选择第2页时，网址变成了www.weidawang.xyz/page/2

也就是说，www.weidawang.xyz/page/3代表的是第三页！

所以，我们可以用以下代码，获取所有页面数据：

url = "http://weidawang.xyz/page/"
for i in range(100):
    resp= requests.get(url+str(i+1)) # 获取页面 html 代码
    if(resp.status_code==200):       # 判断请求是否成功
        # req.encoding='utf-8'       # 如果出现乱码记得加上
        bs = bs4.BeautifulSoup(resp.text,"html.parser") # 解析 html 数据

进入www.weidawang.xyz，点击 F12 观察网页源码结构，定位我们想要的对象。

如下图所示：

我们的目的地是在 class content-right -> post-card -> card-title -> a 标签中。

所以，我们可以通过以下代码，获取所有符合要求的 a 标签：

l = bs.select(".content-right .post-card .card-title a")

获得结果

然后我们可以对获得的 a 标签列表执行以下代码，获取内部文字值：

for itm in l:
    print(itm.get_text())

补充知识

有时候，我们需要的不是标签中的文字，而是标签中的某个属性值，比如 href、id，这个使用只需要对标签元素使用 get() 方法就能获得对应的值。

例如，针对标签 itm：

itm.get("href") # 获取 href 值
itm.get("id")   # 获取 id 值

完整代码

赶快去尝试吧！

import bs4
import requests

url = "http://weidawang.xyz/page/"
for i in range(100):
    resp= requests.get(url+str(i+1))
    if(resp.status_code==200):
        # req.encoding='utf-8'
        bs = bs4.BeautifulSoup(resp.text,"html.parser")
        l = bs.select(".content-right .post-card .card-title a")
        for itm in l:
            print(itm.get_text())

我的个人博客 Ahoh(www.ahoh.club)，找我一起玩耍吧！！

查看全文

相关阅读:
CodeForcesGym 100524A Astronomy Problem
ZOJ 2567 Trade
HDU 3157 Crazy Circuits
CodeForcesGym 100212E Long Dominoes
UVALive 6507 Passwords
[转]
java socket
Spark RDD Operations（2）
Spark cache 和 persist
vim 基础命令

原文地址：https://www.cnblogs.com/weidawang/p/15430848.html