zoukankan html css js c++ java

案例3 百度贴吧爬虫

import requests


class TiebaSpider:
    """贴吧爬虫"""
    def __init__(self, keywords):
        # 贴吧名称
        self.kw = keywords
        # 目标地址
        self.url = "https://tieba.baidu.com/f?ie=utf-8"
        # 伪装请求
        self.headers = {
            "User-Agent": "请求头"
        }

    def get_data(self, start_page, end_page):
        """
        采集数据
        :param start_page: 采集数据的起始页面
        :param end_page: 采集数据的结束页面
        :return: 返回采集结果
        """
        for i in range(start_page, end_page + 1):
            # 设置参数
            ps = {"kw": self.kw, "pn": ((i-1) * 50)}
            # 发送请求获取数据: get请求后拼接参数数据
            response = requests.get(self.url, params=ps, headers=self.headers)
            # 存储数据
            file_name = f"tieba_{i}.html"
            self._save_data(file_name, response.content)

    def _save_data(self, file_name, content):
        """存储数据"""
        with open(f"data/{file_name}", mode="wb") as file:
            file.write(content)


if __name__ == "__main__":
    # 创建爬虫对象
    tb = TiebaSpider("王者荣耀")
    # 获取数据
    tb.get_data(1, 2)

查看全文

相关阅读:
[转]一致性hash算法
 [转]算法的时间复杂度和空间复杂度详解
 [转]B树（多向平衡查找树）详解
 spring中ApplicationContextAware接口描述
 [转]web.xml中<url-pattern>详解
 [转]linux中vim命令
 [转]Java GC的原理
 [转]浅谈UML的概念和模型之UML九种图
 Jmeter做读取csv接口测试
 IDLE崩溃：IDLE's subprocess didn't make connection. Either IDLE can't start a...

原文地址：https://www.cnblogs.com/duxiangjie/p/13924897.html