import requests
import os
# 伪造请求头
headers = {
"User-Agent": "请求头",
}
def baidu_spider(kw):
"""百度搜索 爬虫应用"""
# 发送请求,获取响应数据
ps = {"wd": kw}
resp = requests.get("https://www.baidu.com/s?", params=ps, headers=headers)
# 存储数据
# resp.encoding = "UTF-8"
# _save_data(resp.text)
# ② 存储数据
_save_data_binary(resp.content)
def _save_data(content: str) -> None:
"""保存数据"""
# 判断存储数据的文件夹是否存在,不存在->创建
_verify_data_diractory()
# 存储数据
with open("data/baidu_search2.html", mode="w") as file:
file.write(content)
def _save_data_binary(content: bytes) -> None:
"""保存数据"""
# 判断存储数据的文件夹是否存在,不存在->创建
_verify_data_diractory()
# 存储数据
with open("data/baidu_search.html", mode="wb") as file:
file.write(content)
def _verify_data_diractory():
"""验证数据文件夹是否存在"""
# 判断存储数据的文件夹是否存在,不存在->创建
if not os.path.exists("data"):
os.mkdir("data")
kw = input("请输入要搜索的关键词:")
baidu_spider(kw)