zoukankan      html  css  js  c++  java
  • 百度翻译-爬虫

    百度翻译-爬虫

    爬取思路

    1.首先打开百度翻译,输入dog查看运行过程

    2.打开抓包,发现有三个sub的post请求,确定为ajax,最后一个post请求携带完整参数dog

    3.然后查看返回数据为json串

    import requests
    import json
    if __name__ == '__main__':
        post_url="https://fanyi.baidu.com/sug"
        kw=input("请输入你要翻译的文字:")
        # 修改爬虫的UA为浏览器的UA
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
        }
        data={
            "kw": kw
        }
        res=requests.post(url=post_url,data=data,headers=headers)
        data_json=res.json()
        with open(f"{kw}.json","w",encoding="utf8")as fw:
            #json.dumps 序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=False:
            json.dump(data_json,fw,ensure_ascii=False)
            print("爬取翻译成功")
    
    
    
    
  • 相关阅读:
    RPC学习
    json
    jsf
    ajax分析
    async分析
    web后台
    servlet和CGI区别(转)
    forward和redirect
    (转)jvm
    Async分析
  • 原文地址:https://www.cnblogs.com/zx125/p/11385029.html
Copyright © 2011-2022 走看看