zoukankan      html  css  js  c++  java
  • python爬虫

    前言

    由于最近一直没有一个练手的平台,苦苦寻找好久,找到了猿人学平台,其实我很早就知道这个平台,他们2020年刚还是搞爬虫大赛的时候我就看到了,只是没有仔细去研究,都只是大概的看了下,最近有空就特意的分析了下,还真的有点东西,至少我觉得比较有意思

     

    分析

    先看题:

     

     

     

    然后查看翻页,这个接口不难找:

     

     

     

    但是看提交的参数:

     

     

     

     

     

     

     

    page就不多说了,看都有个m,而且经过我的测试,每次都是变化的,那么我们的关键点就是去研究这个m参数怎么生成的了。先看:d150b9b187bfa0fd8977605c0561d6f8丨1631621912,

    大概率猜测竖线后面的就是个时间戳,前面的大概率是时间戳经过原生md5或者魔改版md5生成的,经过我的测试,发现至少不是原生md5生成的,那么就算是魔改版md5,我们也还是得去分析源码了,还是回到怎么找这个m变量吧,但是,问题出现了,相信稍微有点接触的朋友都知道,这个m参数是不是也太大众化了,要全局搜索肯定是很难搜到的啊,而再看哈,后面有个【丨】,好像有点用,搜索看看:

     

    没戏,没有,相信以前研究过第一题的朋友看到这里估计要懵了,因为以前是可以的,没错,因为我以前就分析过第一题,确实搜竖线是可以搜出来的,但是,此时此刻,不行了,我也不知道为啥,反正就是不行,怎么办,换其他思路了。

    我最开始的思路是对接口打断点:

     

    刷新页面,它自动断到这里:

     

    也就停顿了一小会儿,它就有个风控检测:

     

    这个还有点意思,后面看了下逻辑,大胆猜测它是在后端验证了时间戳

    反正就是走这条路效果不好,后面的思路换成查看调用栈,首先找到接口,然后点这个:

     

     (终于可以光明正大的把地址给出来了,不用每次截图打码了)

     

     

    我点的是第一页的接口,然后看到下面的调用栈,补充下,调用栈的调用先后顺序是从下到上的

     

     

     

    我先点下这个匿名函数的:

     

     

     

     打开看到就是些代码,暂时没看出有什么用,再看倒数第二个:

     

     

     

    找到关键点

     

     倒数第二个代码并不多,拷贝一份在本地看下:

     

     

     

    这个代码读起来有点累啊,这x开头是16进制编码,我们先去转换一下,我用的这个网站的转换:https://tool.lu/js/index.html

     

     

     

     

    点解密之后它提示是否要解码,点确定,然后复制解密后的结果放到本地看下,唉,这个竖线出现了,那么后面的操作基本就跟各位在网上看到的逻辑差不多了

     

    那么,也就是说【u4e28】= 【丨】,注意,这个竖线还是中文的竖线,不是英文的,在python里是这样的,不管它开头是几根反斜杠,反正后面的值至少是对上了

     

     

     

     

    我估计老手在一开始的时候就会把【丨】转为常用的编码去搜了

     

     

    大概的看下逻辑,虽然它这个变量名被混淆了,但是不妨碍我们读逻辑:

     

     

    也就是,m 的值本质上等于

    oo0O0(_0x2268f9['toStr' + 'ing']()) + window['f'] + '丨' + Date['parse'](new Date()) + (16798545 + -72936737 + 156138192) / (-1 * 3483 + -9059 + 13542)
    

     

    后面的时间戳相关的,经过我的测试,基本是固定的,是的,那什么后面的【(16798545 + -72936737 + 156138192) / (-1 * 3483 + -9059 + 13542)】基本是固定的,主要就是看这个oo0O0函数了,插一句,假如后面的时间戳相关的参数是变的,怎么办?

    那就只有每次在模拟生成m变量之前都要先去请求一次对应网址取获取实时的数据然后拼接到下面的结果里即可

     

     

    oo0O0这个名字我想应该比较特殊,看能否搜到,一搜果然搜到了:

     

     

     

    经过查看之后,实际的定义区域在第二个搜索结果里,

    再插一句,假如这个函数名也被混淆过怎么办?

    尝试将名字改成各种编码然后再去搜,如果还是搜不到那就难搞了

     

    打开第二个搜索结果:

     

     

     

    哎,这不就是调用栈里的那个匿名函数吗,对上了哈,那至少说明我们的思路是没有问题的,把这整个代码拷贝存到本地文件,然后直接搜oo0看看:

     

     

     

    先把代码缩一下,看下整体逻辑,最后返回了一个空,有点奇怪

     

     

     

    先假设它确实是空的话,那么我们的代码就是如下了:

    '' + window['f'] + '丨' + Date['parse'](new Date()) + (16798545 + -72936737 + 156138192) / (-1 * 3483 + -9059 + 13542)

     

    那就只剩下window['f']了,而搜遍整个代码,愣是没有找到有关window['f']的,这可太奇怪了,再回头看看这个oo0O0函数,说明这个返回空是不成立的,一定做了一些操作,从reurn 返回空往上看,有个eval

     

     

     

    这个有点猫腻啊,再看这个atob,它是一个内置的转为base64的函数,先啥都不管,先控制台看下是啥:

     

     

     

    唉~,这最后不就是window.f吗,就是刚才我们要找的,把这段复制出来,大概浏览了下代码,就是自己魔改了一个md5方法,果然,我上面说对了,魔改的

     

     

     

    紧接着看这个mwqqppz又是啥,是一个占位参数,再回去看刚才的eval

     

     

     

    既然atob(window['b'])是hex_md5(mwqqppz),那么后面的J('0x0', ']dQW')是啥,不急,先把上面定义的u和J定义到控制台,看下是啥,

     

     

     

     

     

     

    ok,再看:

     

     

     

    那么,

    atob(window['b'])[J('0x0', ']dQW')](J('0x1', 'GTu!'), 'x27' + mw + 'x27')

    就等于

    hex_md5(mwqqppz)['replace']('mwqqppz', 'x27' + mw + 'x27')

    而这个mv呢,又是啥:

     

     

     mw就是调用oo0O0时传进去的参数,那就是前面的_0x2268f9['toStr' + 'ing']()了,而,我们知道_0x2268f9就是个时间戳

     

    var _0x2268f9 = Date['parse'](new Date()) + (16798545 + -72936737 + 156138192)

     

     

    执行看下:

     

     

    先不管这个值对不对,至少看着像那么回事了,那么,接着再看,

     

     

    那么x27也可以省略了

     

    好的,最后的验证了:先把接口那边的参数复制过来定义到控制台,方便对应

     

     

     然后,现在我们要把1631621872带回去看,然后推出的结果能不能对的上竖线左边的值,如果对的上,那么我们的逆向就成功了,

     

     

     

     

     

     

     

     

    ok了,整个逻辑终于整理清楚了

     

    抠出代码

    我们把上面所有用到的js代码整理到一个js文件里

    var hexcase = 0;
    var b64pad = "";
    var chrsz = 16;
    
    function hex_md5(a) {
        return binl2hex(core_md5(str2binl(a), a.length * chrsz))
    }
    
    function b64_md5(a) {
        return binl2b64(core_md5(str2binl(a), a.length * chrsz))
    }
    
    function str_md5(a) {
        return binl2str(core_md5(str2binl(a), a.length * chrsz))
    }
    
    function hex_hmac_md5(a, b) {
        return binl2hex(core_hmac_md5(a, b))
    }
    
    function b64_hmac_md5(a, b) {
        return binl2b64(core_hmac_md5(a, b))
    }
    
    function str_hmac_md5(a, b) {
        return binl2str(core_hmac_md5(a, b))
    }
    
    function md5_vm_test() {
        return hex_md5("abc") == "900150983cd24fb0d6963f7d28e17f72"
    }
    
    function core_md5(p, k) {
        p[k >> 5] |= 128 << ((k) % 32);
        p[(((k + 64) >>> 9) << 4) + 14] = k;
        var o = 1732584193;
        var n = -271733879;
        var m = -1732584194;
        var l = 271733878;
        for (var g = 0; g < p.length; g += 16) {
            var j = o;
            var h = n;
            var f = m;
            var e = l;
            o = md5_ff(o, n, m, l, p[g + 0], 7, -680976936);
            l = md5_ff(l, o, n, m, p[g + 1], 12, -389564586);
            m = md5_ff(m, l, o, n, p[g + 2], 17, 606105819);
            n = md5_ff(n, m, l, o, p[g + 3], 22, -1044525330);
            o = md5_ff(o, n, m, l, p[g + 4], 7, -176418897);
            l = md5_ff(l, o, n, m, p[g + 5], 12, 1200080426);
            m = md5_ff(m, l, o, n, p[g + 6], 17, -1473231341);
            n = md5_ff(n, m, l, o, p[g + 7], 22, -45705983);
            o = md5_ff(o, n, m, l, p[g + 8], 7, 1770035416);
            l = md5_ff(l, o, n, m, p[g + 9], 12, -1958414417);
            m = md5_ff(m, l, o, n, p[g + 10], 17, -42063);
            n = md5_ff(n, m, l, o, p[g + 11], 22, -1990404162);
            o = md5_ff(o, n, m, l, p[g + 12], 7, 1804660682);
            l = md5_ff(l, o, n, m, p[g + 13], 12, -40341101);
            m = md5_ff(m, l, o, n, p[g + 14], 17, -1502002290);
            n = md5_ff(n, m, l, o, p[g + 15], 22, 1236535329);
            o = md5_gg(o, n, m, l, p[g + 1], 5, -165796510);
            l = md5_gg(l, o, n, m, p[g + 6], 9, -1069501632);
            m = md5_gg(m, l, o, n, p[g + 11], 14, 643717713);
            n = md5_gg(n, m, l, o, p[g + 0], 20, -373897302);
            o = md5_gg(o, n, m, l, p[g + 5], 5, -701558691);
            l = md5_gg(l, o, n, m, p[g + 10], 9, 38016083);
            m = md5_gg(m, l, o, n, p[g + 15], 14, -660478335);
            n = md5_gg(n, m, l, o, p[g + 4], 20, -405537848);
            o = md5_gg(o, n, m, l, p[g + 9], 5, 568446438);
            l = md5_gg(l, o, n, m, p[g + 14], 9, -1019803690);
            m = md5_gg(m, l, o, n, p[g + 3], 14, -187363961);
            n = md5_gg(n, m, l, o, p[g + 8], 20, 1163531501);
            o = md5_gg(o, n, m, l, p[g + 13], 5, -1444681467);
            l = md5_gg(l, o, n, m, p[g + 2], 9, -51403784);
            m = md5_gg(m, l, o, n, p[g + 7], 14, 1735328473);
            n = md5_gg(n, m, l, o, p[g + 12], 20, -1921207734);
            o = md5_hh(o, n, m, l, p[g + 5], 4, -378558);
            l = md5_hh(l, o, n, m, p[g + 8], 11, -2022574463);
            m = md5_hh(m, l, o, n, p[g + 11], 16, 1839030562);
            n = md5_hh(n, m, l, o, p[g + 14], 23, -35309556);
            o = md5_hh(o, n, m, l, p[g + 1], 4, -1530992060);
            l = md5_hh(l, o, n, m, p[g + 4], 11, 1272893353);
            m = md5_hh(m, l, o, n, p[g + 7], 16, -155497632);
            n = md5_hh(n, m, l, o, p[g + 10], 23, -1094730640);
            o = md5_hh(o, n, m, l, p[g + 13], 4, 681279174);
            l = md5_hh(l, o, n, m, p[g + 0], 11, -358537222);
            m = md5_hh(m, l, o, n, p[g + 3], 16, -722881979);
            n = md5_hh(n, m, l, o, p[g + 6], 23, 76029189);
            o = md5_hh(o, n, m, l, p[g + 9], 4, -640364487);
            l = md5_hh(l, o, n, m, p[g + 12], 11, -421815835);
            m = md5_hh(m, l, o, n, p[g + 15], 16, 530742520);
            n = md5_hh(n, m, l, o, p[g + 2], 23, -995338651);
            o = md5_ii(o, n, m, l, p[g + 0], 6, -198630844);
            l = md5_ii(l, o, n, m, p[g + 7], 10, 11261161415);
            m = md5_ii(m, l, o, n, p[g + 14], 15, -1416354905);
            n = md5_ii(n, m, l, o, p[g + 5], 21, -57434055);
            o = md5_ii(o, n, m, l, p[g + 12], 6, 1700485571);
            l = md5_ii(l, o, n, m, p[g + 3], 10, -1894446606);
            m = md5_ii(m, l, o, n, p[g + 10], 15, -1051523);
            n = md5_ii(n, m, l, o, p[g + 1], 21, -2054922799);
            o = md5_ii(o, n, m, l, p[g + 8], 6, 1873313359);
            l = md5_ii(l, o, n, m, p[g + 15], 10, -30611744);
            m = md5_ii(m, l, o, n, p[g + 6], 15, -1560198380);
            n = md5_ii(n, m, l, o, p[g + 13], 21, 1309151649);
            o = md5_ii(o, n, m, l, p[g + 4], 6, -145523070);
            l = md5_ii(l, o, n, m, p[g + 11], 10, -1120210379);
            m = md5_ii(m, l, o, n, p[g + 2], 15, 718787259);
            n = md5_ii(n, m, l, o, p[g + 9], 21, -343485551);
            o = safe_add(o, j);
            n = safe_add(n, h);
            m = safe_add(m, f);
            l = safe_add(l, e)
        }
        return Array(o, n, m, l)
    }
    
    function md5_cmn(h, e, d, c, g, f) {
        return safe_add(bit_rol(safe_add(safe_add(e, h), safe_add(c, f)), g), d)
    }
    
    function md5_ff(g, f, k, j, e, i, h) {
        return md5_cmn((f & k) | ((~f) & j), g, f, e, i, h)
    }
    
    function md5_gg(g, f, k, j, e, i, h) {
        return md5_cmn((f & j) | (k & (~j)), g, f, e, i, h)
    }
    
    function md5_hh(g, f, k, j, e, i, h) {
        return md5_cmn(f ^ k ^ j, g, f, e, i, h)
    }
    
    function md5_ii(g, f, k, j, e, i, h) {
        return md5_cmn(k ^ (f | (~j)), g, f, e, i, h)
    }
    
    function core_hmac_md5(c, f) {
        var e = str2binl(c);
        if (e.length > 16) {
            e = core_md5(e, c.length * chrsz)
        }
        var a = Array(16), d = Array(16);
        for (var b = 0; b < 16; b++) {
            a[b] = e[b] ^ 909522486;
            d[b] = e[b] ^ 1549556828
        }
        var g = core_md5(a.concat(str2binl(f)), 512 + f.length * chrsz);
        return core_md5(d.concat(g), 512 + 128)
    }
    
    function safe_add(a, d) {
        var c = (a & 65535) + (d & 65535);
        var b = (a >> 16) + (d >> 16) + (c >> 16);
        return (b << 16) | (c & 65535)
    }
    
    function bit_rol(a, b) {
        return (a << b) | (a >>> (32 - b))
    }
    
    function str2binl(d) {
        var c = Array();
        var a = (1 << chrsz) - 1;
        for (var b = 0; b < d.length * chrsz; b += chrsz) {
            c[b >> 5] |= (d.charCodeAt(b / chrsz) & a) << (b % 32)
        }
        return c
    }
    
    function binl2str(c) {
        var d = "";
        var a = (1 << chrsz) - 1;
        for (var b = 0; b < c.length * 32; b += chrsz) {
            d += String.fromCharCode((c[b >> 5] >>> (b % 32)) & a)
        }
        return d
    }
    
    function binl2hex(c) {
        var b = hexcase ? "0123456789ABCDEF" : "0123456789abcdef";
        var d = "";
        for (var a = 0; a < c.length * 4; a++) {
            d += b.charAt((c[a >> 2] >> ((a % 4) * 8 + 4)) & 15) + b.charAt((c[a >> 2] >> ((a % 4) * 8)) & 15)
        }
        return d
    }
    
    function binl2b64(d) {
        var c = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/";
        var f = "";
        for (var b = 0; b < d.length * 4; b += 3) {
            var e = (((d[b >> 2] >> 8 * (b % 4)) & 255) << 16) | (((d[b + 1 >> 2] >> 8 * ((b + 1) % 4)) & 255) << 8) | ((d[b + 2 >> 2] >> 8 * ((b + 2) % 4)) & 255);
            for (var a = 0; a < 4; a++) {
                if (b * 8 + a * 6 > d.length * 32) {
                    f += b64pad
                } else {
                    f += c.charAt((e >> 6 * (3 - a)) & 63)
                }
            }
        }
        return f
    };
    
    
    request = function () {
        var t = Date['parse'](new Date()) + (16798545 + -72936737 + 156138192),
            f = hex_md5(''+t),
            timestemp = t / (-1 * 3483 + -9059 + 13542),
            url = f + '丨' + timestemp;
        return [f, timestemp, url]
    }

     

     

    用python实现

     

     

     

    看似没有问题,现在开始完整的翻页和数据处理:

     

    import requests
    import execjs
    
    
    def get_m():
        f = open('vm_decode.js', encoding='utf-8') # 文件名就是刚才抠出来的那段代码
        js = f.read()
        f.close()
        js_dom = execjs.compile(js)
        result = js_dom.call('request')
        if result:
            params = result.pop()
            print(f'当前params: {params}')
            return result
    
    
    headers = {
        'accept': 'application/json, text/javascript, */*; q=0.01',
        'accept-encoding': 'gzip, deflate, br',
        'accept-language': 'zh-CN,zh;q=0.9',
        'cache-control': 'no-cache',
        'cookie': 'Hm_lvt_9bcbda9cbf86757998a2339a0437208e=1631182393; Hm_lvt_c99546cf032aaa5a679230de9a95c7db=1631182393; no-alert3=true; vaptchaNetway=cn; tk=9019357195599414472; Hm_lvt_0362c7a08a9a04ccf3a8463c590e1e2f=1631240634; Hm_lpvt_0362c7a08a9a04ccf3a8463c590e1e2f=1631240669; sessionid=换成你的id; Hm_lpvt_9bcbda9cbf86757998a2339a0437208e=1631528163; Hm_lpvt_c99546cf032aaa5a679230de9a95c7db=1631528665', # 这里如果不带sessionid没法对第4页和第5翻页
        'pragma': 'no-cache',
        'referer': 'https://match.yuanrenxue.com/match/1',
        'sec-ch-ua': '"Google Chrome";v="93", " Not;A Brand";v="99", "Chromium";v="93"',
        'sec-ch-ua-mobile': '?0',
        'sec-ch-ua-platform': '"macOS"',
        'sec-fetch-dest': 'empty',
        'sec-fetch-mode': 'cors',
        'sec-fetch-site': 'same-origin',
        'user-agent': 'yuanrenxue.project',
        'x-requested-with': 'XMLHttpRequest',
    }
    
    
    def fecth(m, t, i=0):
        if i:
            url = f'https://match.yuanrenxue.com/api/match/1?page={i}&m={m}%E4%B8%A8{t}'
        else:
            url = f'https://match.yuanrenxue.com/api/match/1?m={m}%E4%B8%A8{t}'
        req = requests.get(url, headers=headers)
        res = req.json()
        if res:
            data = res.get('data')
            data = [temp.get('value') for temp in data]
            print('temp', data)
            return data
    
    
    def get_answer():
        sum_number = 0
        index = 0
    
        for i in range(1, 6):
            m, t = get_m()
            cont = fecth(m, t, i)
            sum_number += sum(cont)
            index += len(cont)
        print('答案:', sum_number / index)
    
    
    get_answer()

     

    执行:

     

     

     

    把这个答案拿去网站提交:

     

     

    补充

    补充下,为啥我对接口打断点的时候,停顿了一会儿再放开断点就有个风控检测,由上面分析,那个加密参数其实就是时间戳的md5,那么它在后端接收到这个参数,再转回时间戳,发现距离此时此刻已经过去很久了,那就多半有人在调试了,因为你想,正常发起请求,在send之前都已经生成好了,如果不是网络原因请求再返回数据,也就几秒钟时间,那么我就用这几秒来判断你是否超过了正常的请求时间,超过则被检测到

     

    总结

     

    其实这个题,你说难吗?不难,但是考察很多知识,确实可以练练手的

    另外感谢猿人学这个平台,让大家可以光明正大的爬别人网站,哈哈哈哈

     

  • 相关阅读:
    01背包
    manacher马拉车算法
    盒子放球的DP
    Children’s Queue
    抽象类_作为接口
    斯特林数
    欧拉路HDU3018
    2019 SDN上机第三次作业
    第05组 Alpha冲刺(2/4)
    Alpha冲刺(1/4)
  • 原文地址:https://www.cnblogs.com/Eeyhan/p/15263037.html
Copyright © 2011-2022 走看看