zoukankan html css js c++ java

爬取斗鱼房间的信息

>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

说明：仅学习参考，如有侵权，将立即删除此内容

<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<

>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
version_1
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<

目标：爬去斗鱼的房间信息
domain = "https://www.douyu.com/g_yz"

技术：selenium
难点：
（1）在通过find_element_by_xpath选择元素的时候，一定要注意标签内属性的值，前后是否有空格，
这是最容易出错的地方，如" hahah"或"hahah "等情况，结合网页源码一起看。
（2）需要强制等待，以让网页显示完整的数据，方便提取数据。

说明：
（1）通过find_element_by_xpath来找元素很慢，理想的使用场景是：通过selenium抓取到网页源代码，
然后通过xpath或bs4或正则,来提取关键信息，最后通过find_elements_by_xpath来提取下一页地址，
然后循环上一步。
也就是说只通过selenium来实现网页源代码的抓取，模拟人的点击操作或链式操作，
然后通过xpath或bs4或正则,来提取关键信息。
（2）需要使用强制等待，即time.sleep()，时间的长度，可以由函数生成，不过要保证最低等待时间。
（3）本例使用的是"https://www.douyu.com/g_yz",只是抓取了部分内容，但是斗鱼的网页结构性很强，所以能够通用。
将self.start_url换成任何分类下的首网址即可复用，如“https://www.douyu.com/directory/all”抓取所有内容，
也行得通。

源码：

from selenium import webdriver
import time
import json

class DySpider():
    def __init__(self):
        self.start_url = 'https://www.douyu.com/g_yz'
        self.driver = webdriver.Chrome()
    
    def parse_source(self):
        # 强制等待10s
        time.sleep(10)
        # 分组
        li_list = self.driver.find_elements_by_xpath("//ul[@class='layout-Cover-list']/li")
        print("当前页内容数量",len(li_list))
        li_item = list()
        for li in li_list:
            item = dict()
            item["room_title"] = li.find_element_by_xpath(".//h3[@class='DyListCover-intro']").text
            item["room_image"] = li.find_element_by_xpath(".//img[@class='DyImg-content is-normal ']").get_attribute("src")
            item["room_href"] = li.find_element_by_xpath(".//a[@class='DyListCover-wrap']").get_attribute("href")
            item["room_anchor"] = li.find_element_by_xpath(".//h2[@class='DyListCover-user']").text
            item["room_tag"] = li.find_element_by_xpath(".//span[@class='DyListCover-zone']").text
            item["room_hot"] = li.find_element_by_xpath(".//span[@class='DyListCover-hot']").text
            print(item)
            li_item.append(item)
        next_page_url = self.driver.find_elements_by_xpath("//div[@class='ListFooter']//li[@class=' dy-Pagination-next']")
        print("next_page_url:",next_page_url)
        next_page_url = next_page_url[0] if len(next_page_url)>0 else None
        return li_item,next_page_url

    def savefile_to_json(self,filename,content):
        with open(filename,'w',encoding='utf8') as f:
            f.write(json.dumps(content,ensure_ascii=False,indent=2))
            print("保存"+filename+"文件成功")

    def run(self):
        # 请求第一个url
        self.driver.get(self.start_url)

        # 处理get到的内容,获取下页地址
        li_item,next_page_url = self.parse_source()

        # 保存内容到列表
        room_content = list()
        room_content.append(li_item)

        # 循环处理下一页
        while next_page_url is not None:
            next_page_url.click()
            # 处理get到的内容,获取下页地址
            li_item, next_page_url = self.parse_source()
            # 保存内容到列表
            room_content.append(li_item)

        self.savefile_to_json("斗鱼_颜值.json",room_content)

        self.driver.close()

if __name__=='__main__':
    obj = DySpider()
    obj.run()

查看全文

相关阅读:
LightOJ 1236 Pairs Forming LCM（算数基本定理）
LightOJ 1197 Help Hanzo(区间素数筛法)
hdu4291 A Short problem（矩阵快速幂+循环节）
弗洛伊德判圈法
 poj 1845 Sumdiv (算数基本定理+逆元）
2018 ACM-ICPC 亚洲青岛区域网络赛 K XOR Clique(异或）
牛客网暑期ACM多校训练营（第二场）A-run
最长上升子序列和最长公共子序列
 Olympic Bus
现代密码学

原文地址：https://www.cnblogs.com/nuochengze/p/12930212.html