zoukankan html css js c++ java

案例4 百度搜索爬虫

import requests
import os

# 伪造请求头
headers = {
    "User-Agent": "请求头",
}


def baidu_spider(kw):
    """百度搜索 爬虫应用"""

    # 发送请求，获取响应数据
    ps = {"wd": kw}
    resp = requests.get("https://www.baidu.com/s?", params=ps, headers=headers)
    # 存储数据
    # resp.encoding = "UTF-8"
    # _save_data(resp.text)
    # ② 存储数据
    _save_data_binary(resp.content)


def _save_data(content: str) -> None:
    """保存数据"""
    # 判断存储数据的文件夹是否存在，不存在->创建
    _verify_data_diractory()
    # 存储数据
    with open("data/baidu_search2.html", mode="w") as file:
        file.write(content)


def _save_data_binary(content: bytes) -> None:
    """保存数据"""
    # 判断存储数据的文件夹是否存在，不存在->创建
    _verify_data_diractory()
    # 存储数据
    with open("data/baidu_search.html", mode="wb") as file:
        file.write(content)


def _verify_data_diractory():
    """验证数据文件夹是否存在"""
    # 判断存储数据的文件夹是否存在，不存在->创建
    if not os.path.exists("data"):
        os.mkdir("data")


kw = input("请输入要搜索的关键词：")
baidu_spider(kw)

查看全文

相关阅读:
idea自动整理代码
 idea生成一个类的get/set/toStirng/构造函数等等方法
 idea生成一个java类Class
解决eclipse不能下载最新的maven仓库中的jar包
 如何解决eclipse控制台信息显示不全
 tomcat-jdbc连接池配置
 三步教你安装微软系统,使用uiso制作U盘启动盘
 好用的java反编译 eclipse插件
 SpringBoot常用应用属性配置表
 SpringBoot的配置文件

原文地址：https://www.cnblogs.com/duxiangjie/p/13924970.html