zoukankan      html  css  js  c++  java
  • 头条爬虫失败的JS逆向过程

    2020年5月28日18:48:03第一次编写。

    头条爬虫失效了,请求新闻详情页面,会返回JS页面,进行JS执行,然后带着JS执行出来的参数再次请求,会请求到正确的页面。

    返回的需要重定向的页面

    <html>
      <head>
        <meta charset="UTF-8" />
      </head>
      <body></body>
      <script src='https://sf1-ttcdn-tos.pstatp.com/obj/rc-web-sdk/acrawler.js'></script>
      <script>
      window.byted_acrawler.init({aid:99999999,dfp:!0});
      var b;
      a:{
      	for(var c=document.cookie.split(/[;&]/),d,e=0;e<c.length;e++){
      		for(d=c[e];""===d.charAt(0);)
        		d=d.substring(1,d.length);
        	if(0===d.indexOf("__ac_nonce=")){
                b=d.substring(11,d.length);
                break a
            }}
          b=""}
    	var f=b;
    	var g=window.byted_acrawler.sign("",f);
    	document.cookie="__ac_signature=; expires=Mon, 20 Sep 1970 00:00:00 UTC; path=/;";
    document.cookie="__ac_signature="+g+"; expires="+(new Date((new Date).getTime()+18E5)).toGMTString()+"; path=/;";
          window.location.reload();
    </script>
    </html>
    

    JS描述

    1. 初始化加密函数
    2. 获取cookie里面的__ac_nonce=
    3. 将其加密后,放入__ac_signature=Cookie中
    4. 重新请求页面

    现在我们的重要任务就是这个加密函数了

    对加密函数进行解析

    访问上面的请求地址,发现JS文件是这样的

    Function(function(t){return'w={S(S,a){if(!y[S]){y[S]={};for(K=0;K<S;K)y[S][S.charAt(K)]=K}y[S][a]}a=String.fromCharCode,y={},K={x:(a){null==a?"":""==a?null:K.y(a,32,(y){S("ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/=",a.charAt(y})},y:(S,y,K){p,i,J,r,q,o,m,z=[],n=4,T=4,l=3,V="",j=[],u={val:K(0),position:y,index:1};for(p=0;p<3;p+=1)z[p]=p;for(J=0,q=Math.pow(2,2),o=1;o!=q;)r=u.val&u.position,u.position>>=1,0==u.position&&(u.position=y,u.val=K(u.index,J|=(r>0?1:0)*o,o<<=1;switch(J){case 0:for(J=0,q=Math.pow(2,8),o=1;o!=q;)r=u.val&u.position,u.position>>=1,0==u.position&&(u.position=y,u.val=K(u.index,J|=(r>0?1:0)*o,o<<=1;m=a(J)1:for(J=0,q=Math.pow(2,16),o=1;o!=q;)r=u.val&u.position,u.position>>=1,0==u.position&&(u.position=y,u.val=K(u.index,J|=(r>0?1:0)*o,o<<=1;m=a(J)2:""}for(z[3]=m,i=m,j.push(m);;){if(u.index>S)"";for(J=0,q=Math.pow(2,l),o=1;o!=q;)r=u.val&u.position,u.position>>=1,0==u.position&&(u.position=y,u.val=K(u.index,J|=(r>0?1:0)*o,o<<=1;switch(m=J){case 0:for(J=0,q=Math.pow(2,8),o=1;o!=q;)r=u.val&u.position,u.position>>=1,0==u.position&&(u.position=y,u.val=K(u.index,J|=(r>0?1:0)*o,o<<=1;z[T]=a(J),m=T-1,n--1:for(J=0,q=Math.pow(2,16),o=1;o!=q;)r=u.val&u.position,u.position>>=1,0==u.position&&(u.position=y,u.val=K(u.index,J|=(r>0?1:0)*o,o<<=1;z[T]=a(J),m=T-1,n--2:j.join("")}if(0==n&&(n=Math.pow(2,l),l),z[m])V=z[m]if(m!==T)null;V=i+i.charAt(0)}j.push(V),z[T]=i+V.charAt(0),i=V,0==--n&&(n=Math.pow(2,l),l)}}};K};""==typeof define&&define.amd?define({w}):"undefined"!=typeof module&&null!=module?module.exports=w:"undefined"!=typeof angular&&null!=angular&&angular.module("w",[]).factory("w",{w}),eval(w.x("";'.replace(/[-]/g,function(m){return t[m.charCodeAt(0)&15]})}("var function ().length++return ));break;case ;else{".split("")))();
    

    你会发现这里面有很多不能正常显示的符号,选择用notepad++打开

    wiki

    我们对原始的JS文件进行修改

    在文件的最后面的截取放在Chrome中执行。

    然后对最前面和之后面的部分进行修改。

    在最前面定义了一个变量t,原因是将其和之前的JS方法相同,执行结果为

    点击Copy将其复制出来。现在我们进入JS文件的第二层。对其进行简单分析,发现了

    eval执行了JS,现在我们只要JS的转义内容,并不需要其执行。

    首先复制这一块,放入Chrome中执行,然后复制eval里面的内容,
    ,执行的结果为,点击copy,我们现在进入第三层

    按照之前的分析,我们需要执行TAC里面的内容了,但是TAC里面的内容是会被执行的,与之前的概念是不一样的,之前的eval里面的内容是需要解析之后,使用eval执行的。

    现在我们将代码格式化一下。

    var _typeof = "function" == typeof Symbol && "symbol" == typeof Symbol.iterator ?
    function(f) {
        return typeof f
    }: function(f) {
        return f && "function" == typeof Symbol && f.constructor === Symbol && f !== Symbol.prototype ? "symbol": typeof f
    };
    TAC = function() {
        function f(f, a, b, d, c, r) {
            null == r && (r = this);
            var n, i, o = {},
            l = o.d = c ? c.d + 1 : 0;
            for (o["$" + l] = o, i = 0; i < l; i++) o[n = "$" + i] = c[n];
            for (i = 0, l = o.length = d.length; i < l; i++) o[i] = d[i];
            return e(f, a, b, o, r)[1]
        }
        function e(r, o, l, t, v, y) {
            function h(f) {
                S[++A] = f
            }
            function k() {
                return S[A--]
            }
            function m(f, e) {
                for (var a = b,
                d = "",
                c = 0; c < f.length; c++) {
                    var r = f.charCodeAt(c);
                    d += String.fromCharCode(a ^ r),
                    a = (a << 1) + c + e + 1 + (a >> 1) & 255
                }
                return d
            }
            null == v && (v = this);
            var g, C, x, I, S = [],
            A = 0;
            y && (g = y);
            for (var w = o + 2 * l; o < w;) {
                var z = 13 * i(r, o) % 241;
                if (o += 2, 0 == (3 & z)) if (0 == (3 & (z >>= 2))) {
                    if (0 == (z >>= 2)) return [1, S[A--]];
                    if (2 == z) oprand = n(r, o),
                    o += 2 * oprand[0],
                    I = oprand[1],
                    S[++A] = +I;
                    else if (4 == z) g = S[A--],
                    S[A] = S[A] * g;
                    else if (6 == z) g = S[A--],
                    S[A] = S[A] != g;
                    else if (13 == z) C = S[A--],
                    x = S[A--],
                    (I = S[A--]).x === e ? S[++A] = f(r, I.pc, I.len, C, I.z, x) : S[++A] = I.apply(x, C);
                    else {
                        if (15 != z) break;
                        oprand = n(r, o),
                        I = oprand[1],
                        S[A] = function(a, b) {
                            var d = function e() {
                                var a = arguments;
                                return f(r, e.pc, e.len, a, e.z, this)
                            };
                            return d.pc = a,
                            d.len = b,
                            d.x = e,
                            d.z = t,
                            d
                        } (o + 6, I - 4),
                        o += 2 * I - 2
                    }
                } else if (1 == (3 & z)) if (3 == (z >>= 2)) g = S[--A],
                S[A] = g(S[A + 1]);
                else if (5 == z) S[A -= 1] = S[A][S[A + 1]];
                else if (7 == z) S[A] = --S[A];
                else {
                    if (9 != z) break;
                    g = S[A--],
                    S[A] = typeof g
                } else if (2 == (3 & z)) if (6 == (z >>= 2)) S[A] = u(S[A]);
                else if (8 == z) g = S[A--],
                oprand = n(r, o),
                o += 2 * oprand[0],
                S[A--][m(a[oprand[1]], oprand[1])] = g;
                else {
                    if (10 != z) {
                        if (12 == z) throw S[A--];
                        break
                    }
                    S[A] = ~S[A]
                } else if (0 == (z >>= 2)) S[++A] = null;
                else if (2 == z) g = S[A--],
                S[A] = S[A] >= g;
                else if (9 == z) g = k(),
                C = k(),
                t[0] = 65599 * t[0] + t[g].charCodeAt(C) >>> 0;
                else if (11 == z) S[++A] = void 0;
                else {
                    if (13 != z) break;
                    g = S[A--],
                    S[A] = S[A] && g
                } else if (1 == (3 & z)) if (0 == (3 & (z >>= 2))) {
                    if (4 == (z >>= 2)) {
                        oprand = n(r, o),
                        I = oprand[1];
                        try {
                            if (d[c][2] = 1, 1 == (g = e(r, o + 6, I - 4, t, v))[0]) return g
                        } catch(y) {
                            if (d[c] && d[c][1] && 1 == (g = e(r, d[c][1][0], d[c][1][1], t, v, y))[0]) return g
                        } finally {
                            if (d[c] && d[c][0] && 1 == (g = e(r, d[c][0][0], d[c][0][1], t, v))[0]) return g;
                            d[c] = 0,
                            c--
                        }
                        o += 2 * I - 2
                    } else if (6 == z) oprand = n(r, o),
                    o += 2 * oprand[0],
                    I = oprand[1],
                    S[A -= I] = p("x,y", "return new x[y](" + Array(I + 1).join(",x[++y]").substr(1) + ")")(S, A);
                    else if (8 == z) g = S[A--],
                    S[A] = S[A] & g;
                    else if (10 != z) break
                } else if (1 == (3 & z)) if (0 == (z >>= 2)) S[A] = !S[A];
                else if (7 == z) C = S[A--],
                g = delete S[A--][C];
                else if (9 == z) oprand = n(r, o),
                o += 2 * oprand[0],
                S[A] = S[A][m(a[oprand[1]], oprand[1])];
                else {
                    if (11 != z) break;
                    g = S[A--],
                    S[A] = S[A] << g
                } else if (2 == (3 & z)) if (1 == (z >>= 2)) S[++A] = g;
                else if (3 == z) g = S[A--],
                S[A] = S[A] <= g;
                else if (10 == z) g = S[A -= 2][S[A + 1]] = S[A + 2],
                A--;
                else if (12 == z) g = S[A],
                S[++A] = g;
                else {
                    if (14 != z) break;
                    g = S[A--],
                    S[A] = S[A] || g
                } else if (0 == (z >>= 2)) S[A] = !S[A];
                else if (2 == z) oprand = n(r, o),
                o += 2 * (I = oprand[1]) - 2;
                else if (4 == z) g = S[A--],
                S[A] = S[A] / g;
                else if (6 == z) g = S[A--],
                S[A] = S[A] !== g;
                else {
                    if (13 != z) break;
                    S[++A] = v
                } else if (2 == (3 & z)) if (0 == (3 & (z >>= 2))) if (1 == (z >>= 2)) g = S[A--],
                S[A] = S[A] > g;
                else if (8 == z) oprand = n(r, o),
                o += 2 * oprand[0],
                I = oprand[1],
                C = A + 1,
                S[A -= I - 1] = I ? S.slice(A, C) : [];
                else if (10 == z) oprand = n(r, o),
                o += 2 * oprand[0],
                I = oprand[1],
                g = S[A--],
                t[I] = g;
                else {
                    if (12 != z) break;
                    g = S[A--],
                    S[A] = S[A] >> g
                } else if (1 == (3 & z)) if (0 == (z >>= 2)) S[++A] = s;
                else if (2 == z) g = S[A--],
                S[A] = S[A] + g;
                else if (4 == z) g = S[A--],
                S[A] = S[A] == g;
                else if (11 == z) oprand = n(r, o),
                o += 2 * oprand[0],
                I = oprand[1],
                S[--A] = p("x,y", "return x " + m(a[I], I) + " y")(S[A], S[A + 1]);
                else {
                    if (13 != z) break;
                    g = S[A - 1],
                    C = S[A],
                    S[++A] = g,
                    S[++A] = C
                } else if (2 == (3 & z)) if (1 == (z >>= 2)) oprand = n(r, o),
                o += 2 * oprand[0],
                S[++A] = m(a[oprand[1]], oprand[1]);
                else if (3 == z) S[A--] ? o += 6 : (oprand = n(r, o), o += 2 * (I = oprand[1]) - 2);
                else if (5 == z) g = S[A--],
                S[A] = S[A] % g;
                else if (7 == z) g = S[A--],
                S[A] = S[A] instanceof g;
                else {
                    if (14 != z) break;
                    S[++A] = !1
                } else if (4 == (z >>= 2)) oprand = n(r, o),
                I = oprand[1],
                d[c][0] && !d[c][2] ? d[c][1] = [o + 6, I - 4] : d[c++] = [0, [o + 6, I - 4], 0],
                o += 2 * I - 2;
                else if (6 == z) oprand = n(r, o),
                o += 2 * oprand[0],
                I = oprand[1],
                S[++A] = t["$" + I];
                else {
                    if (8 != z) break;
                    g = S[A--],
                    S[A] = S[A] | g
                } else if (0 == (3 & (z >>= 2))) if (1 == (z >>= 2)) oprand = n(r, o),
                o += 2 * oprand[0],
                I = oprand[1],
                S[++A] = +m(a[I], I);
                else if (3 == z) g = S[A--],
                S[A] = S[A] - g;
                else if (5 == z) g = S[A--],
                S[A] = S[A] === g;
                else if (12 == z) C = S[A--],
                x = S[A--],
                (I = S[A--]).x === e ? S[++A] = f(r, I.pc, I.len, C, I.z, x) : S[++A] = I.apply(x, C);
                else {
                    if (14 != z) break;
                    g = S[A],
                    S[A] = S[A - 1],
                    S[A - 1] = g
                } else if (1 == (3 & z)) if (2 == (z >>= 2)) h(function(f) {
                    var e = 0,
                    a = f.length;
                    return function() {
                        var b = e < a;
                        b && h(f[e++]),
                        h(b)
                    }
                } (S[A]));
                else if (4 == z) oprand = n(r, o),
                o += 2 * oprand[0],
                I = oprand[1],
                g = t[I],
                S[++A] = g;
                else if (6 == z) S[A] = ++S[A];
                else {
                    if (8 != z) break;
                    g = S[A--],
                    S[A] = S[A] in g
                } else if (2 == (3 & z)) if (5 == (z >>= 2));
                else if (7 == z) g = S[A--];
                else if (9 == z) g = S[A--],
                S[A] = S[A] ^ g;
                else {
                    if (11 != z) break;
                    oprand = n(r, o),
                    I = oprand[1],
                    d[++c] = [[o + 6, I - 4], 0, 0],
                    o += 2 * I - 2
                } else if (1 == (z >>= 2)) g = S[A--],
                S[A] = S[A] < g;
                else if (8 == z) oprand = n(r, o),
                o += 2 * oprand[0],
                I = oprand[1],
                S[A] = S[A][I];
                else if (10 == z) S[++A] = !0;
                else {
                    if (12 != z) break;
                    g = S[A--],
                    S[A] = S[A] >>> g
                }
            }
            return [0, null]
        }
        var a = [],
        b = 0,
        d = [],
        c = 0,
        r = function(f, e) {
            var a = "" + f[e++] + f[e];
            return parseInt(a, 16)
        },
        n = function(f, e) {
            var a = f[e++],
            b = f[e],
            d = parseInt("" + a + b, 16);
            if (d >> 7 == 0) return d >> 6 != 0 && (d = -64 | 63 & d),
            [1, d];
            if (d >> 6 == 2) {
                var c = parseInt("" + f[++e] + f[++e], 16);
                return 0 != (32 & d) ? d = -32 | 31 & d: d &= 31,
                d <<= 8,
                c = d + c,
                [2, c]
            }
            if (d >> 6 == 3) {
                var r = parseInt("" + f[++e] + f[++e], 16),
                n = parseInt("" + f[++e] + f[++e], 16);
                return 0 != (32 & d) ? d = -32 | 31 & d: d &= 31,
                d <<= 16,
                r <<= 8,
                n = d + r + n,
                [3, n]
            }
        },
        i = function(f, e) {
            var a = f[e++],
            b = f[e];
            return parseInt("" + a + b, 16)
        },
        o = function(f, e) {
            var a = "" + f[e++] + f[e];
            return a = parseInt(a, 16),
            String.fromCharCode(a)
        },
        l = function(f, e, a) {
            for (var b = "",
            d = 0; d < a; d++) b += o(f, e),
            e += 2;
            return b
        },
        t = function(f, e, b) {
            for (var d = 0; d < b; d++) {
                var c = n(f, e);
                e += 2 * c[0];
                var r = l(f, e, c[1]);
                a.push(r),
                e += 2 * c[1]
            }
        },
        s = this,
        p = s.Function,
        u = Object.keys ||
        function(f) {
            var e = {},
            a = 0;
            for (var b in f) e[a++] = b;
            return e.length = a,
            e
        };
        return function(e) {
            e.length;
            for (var d = 0,
            c = "",
            i = d; i < d + 16;) c += o(e, i),
            i += 2;
            if ("HNOJ@?RC" != c) throw new Error("error magic number " + c);
            n(e, d += 16);
            d += 8,
            b = 0;
            for (var l = 0; l < 4; l++) {
                var s = r(e, d + 2 * l);
                b += (3 & s) << 2 * l
            }
            d += 16;
            var p = n(e, d += 16),
            u = p[1],
            v = d += 2 * p[0];
            d += p[1];
            var y = n(e, d);
            y[1];
            d += 2 * y[0],
            a = [],
            t(e, d, y[1]),
            f(e, v, u, [])
        }
    } (),
    TAC("", []);
    

    大致浏览一下代码,特征为

    1. 比较多的位运算,四则运算。
    2. 没有看到标准JS的内容,如window,document等之类的内容。
    3. 整个的方法里面,全部都是运算操作,还有赋值的操作。
    4. 最后TAC返回的是一个function,该方法调用了里面其他的方法。

    如果我们将其作为node代码运行,并不会报错,但是在JS文件中的最下面加上前面HTML代码里面JS加密的内容,就会看到错误


    你可能会比较好奇为什么上面的看不懂得东西能执行。可以试试下面得代码,上面是加密,下面得解密执行。原理是一样得。

    const a = 'var iFan = "1"; console.log("iFan = " + iFan)'
    let c = "";
    for(let i = 0; i < a.length; i++) {
        let b = a.substring(i, i+1).charCodeAt('')
        if (("" + b).length < 3) {
            c = c + "0" + b;
        }else{
            c = c + b;
        }
    }
    console.log(c);
    ///////////////////////////////
    let d = '';
    for(let i = 0; i < c.length; i+=3) {
        d += String.fromCharCode(c.substring(i, i+3));
    }
    console.log(d);
    eval(d);
    

    我们知道NodeJs里面的一些变量和浏览器是不同的,比如就没有window变量,但是有global变量

    window = global
    

    我们将其赋值给window之后,还是会发现少变量。当你一点点window内的变量进行完善之后,会发现你模拟了一个真正的浏览器。照这个思路,我发现了JsDom这个包。可以使用一下,将jsdom内的windowdocuemntnavigate等变量都赋值后,还是不行,因为缺少了一个叫canvas的东西,canvas是HTML5出的画图的,这个是无界面浏览器很难模拟的。你可以装上Node的一个canvas的包之后,jsdom也是可以模拟出来的(192.168.2.187上我已经弄好了环境,canvas比较难装,可以直接使用上面的。)。最终这块代码可以运行之后,你会发现,加密出来的长度比较短,和直接在浏览器上运行有很大的差别。

    上面的一通操作之后,我们发现,没有作用。究其原因,还是Node的变量环境和Chrome有一定的差别,现在我们需要看一看,到底差别在哪。

    我们需要在https://sf1-ttcdn-tos.pstatp.com/obj/rc-web-sdk/acrawler.js网址下执行,否则会出现跨域得异常,所以我们又会看到一个信息,加密函数在执行时,会进行AJAX请求

    我们在JS代码中加入这一串,放入Chrome中执行,你的浏览器这时会比较卡,会看到加密函数可能会用到得变量。很多信息是用户比较隐私得信息,比如Cpu,显卡,Cookie等信息。

    检测是否为自动浏览器
    H5里面的Storage
    这是发送了一个AJAX请求,跨域的,浏览器给你提示了下
    调用canvas进行画图
    鼠标键盘的事件
    时间
    webgl,获取一些浏览器的和计算机的信息,我会在下面加上JS代码
    在body中添加节点,并删除
    Websocket
    鼠标的移动事件
    添加节点并删除

    加密使用得东西太多了,没办法判断是否都用上,而且如果都用上得话,如果后台解密得话,能否都获取到这些信息,如果都获取了这些信息,头条是完全可以反推出你这个用户得一些信息得。

    加密出来的信息一定是可以解密的,否则,他就失去了将信息回传回去的必要了。
    之后的解决思路为

    1. 模拟出加密函数需要获取的值,现在已经尝试了用jsdom,失败。
    2. 本地不进行模拟的根本原因是:太多了!干不过来!
    3. 尝试对加密函数进行平坦化,尽量使代码可读,去除掉非加密程序块,保留必要的。
    4. 递归太深了,拉平了之后可能会好很多。

    关于我说的递归太深,你体验下

    JS解析到现在,算是到了比较难得地方了。我也找过网上得一些教程,博客,但是就是到了模拟全局变量得时候,写得很模糊。

    头条爬虫得JS逆向到这就进行不下去了,暂时停止先找找思路吧。

    // 使用chrome,F12打开控制台,在console执行就好。
    var canvas = document.createElement('canvas');
    var gl = canvas.getContext('webgl');  // 等同于 canvas.getContext('experimental-webgl');
    
    var debugInfo = gl.getExtension('WEBGL_debug_renderer_info');
    // GPU制造商
    console.log( gl.getParameter(debugInfo.UNMASKED_VENDOR_WEBGL) );
    // GPU型号
    console.log( gl.getParameter(debugInfo.UNMASKED_RENDERER_WEBGL) );
    

    本次JS逆向过程不包括其他实验过程,如puppeter,mimtproxy等。
    手机的API也不包括,虽然也实验了,需要换成低版本才可以。

  • 相关阅读:
    本地复现Zabbix v2.2.x, 3.0.0-3.0.3 jsrpc 参数 profileIdx2 SQL 注入漏洞
    本地搭建复现st2-045漏洞
    Ubuntu安装Vulapps漏洞靶场
    如何在腾讯云Ubuntu服务器安装kali下的神器
    nginx 跳转配置
    Chocolatey 的安装
    MySQL 5.1 主从同步配置
    针对Windows Server 2008 Web 服务 IIS+php 配置的一些心得
    解决IIS7+php的组合上传限制30M的问题
    ssh 文件权限影响登录
  • 原文地址:https://www.cnblogs.com/iFanLiwei/p/12986319.html
Copyright © 2011-2022 走看看