zoukankan html css js c++ java

Python爬虫-爬取斗鱼网页selenium+bs

爬取斗鱼网页（selenium+chromedriver得到网页，用Beasutiful Soup提取信息）

=============================

=================================

=======================================

#self.driver.page_source 得到页面源码用 xml解析
soup = BeautifulSoup(self.driver.page_source, 'xml')

结果示例：

================================

 1 ''''
 2 任务：
 3 爬去斗鱼直播内容
 4 https://www.douyu.com/directory/all
 5 思路：
 6 1. 利用selenium得到页面内容
 7 2. 利用xpath或者bs等在页面中进行信息提取
 8 '''
 9 
10 from selenium import webdriver
11 from bs4 import BeautifulSoup
12 
13 
14 class Douyu():
15     #初始化方法
16     def setUp(self):
17         self.driver = webdriver.Chrome()
18         self.url = 'https://www.douyu.com/directory/all'
19 
20 
21     def douyu(self):
22         self.driver.get(self.url)
23 
24         while True:
25             soup = BeautifulSoup(self.driver.page_source, 'xml')
26 
27             # 返回当前页面所有放假标题列表和观众人数
28             titles = soup.find_all('h3', {'class':'ellipsis'})
29             nums = soup.find_all('span', {'class':'dy-num fr'})
30 
31             for title, num in zip(titles, nums):
32                 print("房间{0} 总共观赏人数{1}".format(title.get_text().strip(), num.get_text().strip()))
33 
34     def destr(self):
35         self.driver.quit()
36 
37 if __name__ == '__main__':
38     douyu = Douyu()
39     douyu.setUp()
40     douyu.douyu()
41     douyu.destr()

查看全文

相关阅读:
Mysql问题1862
S3TC IAP15F2K61S2点亮一个发光二极管keil和stc-isp软件操作
 .NET练习计算平方根
 求一个整数以内的素数(函数实现)
判断一个数是不是素数(函数实现)
#号在进制输出值的作用，美化输出
 分类——决策树模型（附有决策树生成步骤）
分类：贝叶斯分类之新闻组数据组学习（查看数据类型的方法）（环境:Pycharm）
分类：K-近邻分类之鸢尾花数据集学习（包含数据预处理中的标准化）（环境：Pycharm）
编写一个程序，求2～n间的素数，n由键盘输入，循环变量分别从2到n、2到(int)sqrt(n)，分别测出两个循环的所用时间。

原文地址：https://www.cnblogs.com/xuxaut-558/p/10088617.html