zoukankan      html  css  js  c++  java
  • 爬虫试水

    昨天晚上在群里听大佬聊了很久的爬虫,今天决定来练波手。

    目标:有道翻


    爬虫个人见解:

    爬虫本质是一个向接口发请求,接受响应,再从响应中获取我们想要的内容。
    不管是java还是python,甚至其他语言,只要可以充当一个浏览器客户端
    的身份,向服务器发送请求,可以用来做爬虫,而且随着爬虫的流行,反爬
    机制也在不断升级,对一些参数的加密,甚至隐藏,这都需要一个比较高的js
    水平和调试能力。
    

    1.进入页面,F12,看看我们需要的是哪些接口

    ![在这里插入图片描述](https://img-blog.csdnimg.cn/20200206220440375.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1llbktvYw==,size_16,color_FFFFFF,t_70

    1.1发现了这个接口是我们所需要的,然后我们再继续观察我们所需要的参数,有哪些

    在这里插入图片描述

    1.2每次刷新sign,slat,ts都在变化,说明这些玩意肯定经过特殊的处理,找找js,看看咋回事。

    在这里插入图片描述
    因为是翻译的接口,我优先去看这个fanyi的js,说不定有我们想要的。ctrl+f查找下我们的参数。
    在这里插入图片描述
    找到了我们所需要的。。。哈哈哈

    1.4总结一下我们的参数。

    ts:时间戳
    bv:md5加密navigator.appVersion这个变量
    salt:ts+加上一个100以内的随机数
    sign:拼接"fanyide---"和我们输入的字符串和salt+"n...."之后md5加密
    

    上脚本:

    import requests
    import time
    import hashlib
    import json
    import urllib.parse
    def md5encode(str):
        hash=hashlib.md5()
        hash.update(bytes(str,encoding="utf-8"))
        return hash.hexdigest()
    def dictres(str1):
        navi="Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0"
        bv=md5encode(navi)  #加密md5
        ts=str(round(time.time()*1000))  ##时间戳
        salt=ts+"90"
        sign=md5encode("fanyideskweb" + str1 + salt + "n%A-rKaT5fb[Gy?;N5@Tj")  #将前面的两个参数拼接
        dicter={"smartresult": ["dict", "rule"],
             "i": str1,
                "from": "AUTO",
                "to": "AUTO",
                "smartresult": "dict",
                "client": "fanyideskweb",
                      "salt": salt,
                "sign": sign,
                "ts": ts,
                      "bv": bv,
                "doctype": "json", "version": "2.1", "keyfrom": "fanyi.web",
                      "action": "FY_BY_CLICKBUTTION"
            }
        return dicter
    url="http://fanyi.youdao.com/translate_o?smartresult=dict&"
    dicter=dictres("I Love")
    dicter=urllib.parse.urlencode(dicter,encoding="utf-8")
    headers={
    "Host": "fanyi.youdao.com",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0",
     "Accept":"application/json, text/javascript, */*; q=0.01",
    "Accept-Language": "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2",
    "Accept-Encoding": "gzip, deflate",
    "Content-Type":"application/x-www-form-urlencoded; charset=UTF-8",
    "X-Requested-With": "XMLHttpRequest",
    "Content-Length": "241",
    "Origin":"http://fanyi.youdao.com",
    "Connection": "keep-alive",
    "Referer": "http://fanyi.youdao.com/",
    "Cookie": "OUDAO_MOBILE_ACCESS_TYPE=1; OUTFOX_SEARCH_USER_ID=415492750@10.169.0.84; JSESSIONID=aaay_N_BxKsAh94ZLNzax; ___rl__test__cookies=1580994034695; OUTFOX_SEARCH_USER_ID_NCOO=2106452202.0045033"
    }
    res=requests.post(url,data=dicter,headers=headers)
    print(type(res))
    finalres=res.json()
    print(finalres['translateResult'][0][0]['tgt'])
    
    
    
  • 相关阅读:
    语句结构1练习
    语句结构(1)
    常用dos命令(4)
    常用dos命令(3)
    常用dos命令(2)
    常用dos命令(1)
    因式分解 · Factor Combinations
    电话号码的字母组合 · Letter Combinations of a Phone Number
    286 walls and gate最近的出口
    286被围绕的区域 · Surrounded Regions
  • 原文地址:https://www.cnblogs.com/YenKoc/p/12779939.html
Copyright © 2011-2022 走看看