zoukankan      html  css  js  c++  java
  • VMProtect虚拟机保护分析入门

    开始

    以前在逆向分析的时候,遇见VMP的代码就束手无策,只能跳过。最近在分析的时候又遇见vmp,准备研究一下。我这次遇见的VMP用查壳工具看是VMProtect(1.60-2.05)[-]。所以本次选用的壳版本是VMP1.8

    VMP介绍

    VMP全称VMProtect,号称目前软件保护最扣一道防线。为了防止逆向分析人员对软件的逆向分析,VMP最主要的是对指定关键代码进行虚拟化,同时再加一些乱序跳转和大量的废指令,反调试,内存保护,导入表保护,使逆向分析人员无法分析执行的代码,经过VMP虚拟机的代码被膨胀好多倍。本次学习只研究VMP最关键和最难的部分:虚拟化

    初步对比

    我在visual stdio里写了下面代码,并对加壳时TestVmpFunc函数选择虚拟化。本都得使用的调试器是x64dbg

    #include <iostream>
    
    _declspec(naked) void TestVmpFunc()
    {
        __asm
        {
            mov eax,0x100
            mov ebx,0x1000
            add eax,ebx
            retn
        }
    }
    int main()
    {
        //下面这是特征码,用于在调试器里定位自己的这段代码
        __asm {
            mov eax,eax
            mov eax,eax
        }
    
        while (true) {
            __asm {
                pushad
                mov eax, TestVmpFunc
                call eax
                popad
            }
            system("pause");
        }
        std::cout << "完成了" << std::endl;
        return 0;
    }
    
    

    用调试器附加观察原来只有四条汇编指令:

    0ff4358cc6b45c7af9664a1dcca63a8d.png

    被虚拟化后成这样:

    55569acc5d065d116c130e958f122a88.png

    代码被虚拟化之后,假如在调试器中单步执行会跳来跳去,一条汇编会变成成百上千条指令,无法判断他在干什么。

    基本原理

    经过一番查资料,知道本质来讲VMP是一个基于堆栈机的intel指令模拟器,对过编译把原来的intel指令编译成精心设计的一组虚拟指令,然后用自己的一套引擎来解释执行。VMP加壳后,他会将原来的代码进行删除,导致基本完全无法进行还原。

    VMP是防止别人逆向分析自己的代码,逆向分析的目的是分析代码,了解代码逻辑和代码的目的,然后加以利用。看样子,目前只能通过对虚拟机引擎的分析,来搞懂虚拟机引擎,然后理清代码流程,达到逆向分析的目的。

    自己实现一个简单的虚拟机加深了解

    定义寄存器和内存

    这里第8个寄存器为指令指针寄存器类似x86的eip

    uint32_t g_regs[8];//8个寄存器
    uint32_t g_mem[1000];//1000个内存空间
    

    这里为了简单,规定每条指令都有三个操作数(哪怕某一条指令用不到三个参数)

    指令格式为:OPCODE r,s,t

    //指令操作数
    struct Instruct {
    &nbsp;&nbsp;&nbsp; uint32_t opcode;
    &nbsp;&nbsp;&nbsp; uint32_t r;
    &nbsp;&nbsp;&nbsp; uint32_t s;
    &nbsp;&nbsp;&nbsp; uint32_t t;
    };
    
    

    声明OPCode

    enum OP_CODE  {
        opSTOP,/*停止执行 忽略r,s,t参数*/
        opIN,/*读入一个值放到reg[r]里*/
        opOUT,/*将reg[r]的值输入*/
        opADD,/*regs[r] = regs[s] + regs[t]*/
        
    
        opLD,//regs[r]=dmem[regs[s] + t]
        opST,//dmem[regs[s] + t] = regs[r]
    
        opLDA,//regs[r]= regs[s]+t
        opLDC,//regs[r]=t
    };
    
    std::vector<instruct> g_instruct_list;//指令列表
    

    初始化

    void Init()
    {
        memset(g_regs, 0, sizeof(g_regs));
        g_instruct_list.clear();
    }
    

    加载代码

    void LoadCode(const std::string & file_name)
    {
        //代码文件为txt文件
        //每行模式为opcode,r,s,t
        //例如:1,0,0,0 
        std::ifstream file(file_name);
        if (!file.is_open()) {
            return;
        }
    
        auto GetOneInstruct = [&file](Instruct & instruct) {
            char elem; 
            uint32_t values[4] = { 0 };
            bool success = true;
            for (int i = 0; i < 4 ; i++) {
                file >> values[i];
                if (file.fail()) {
                    success = false;
                    break;
                }
                if (i < 4 - 1) {
                    file >> elem;
                }
            }
            if (!success) {
                return false;
            }
            instruct = { values[0],values[1],values[2],values[3] };
            return true;
        };
    
        Instruct instruct;
        while (GetOneInstruct(instruct)) {
            g_instruct_list.push_back(instruct);
        }
    }
    

    运行指令

    bool RunInstruct(const Instruct& instruct)
    {
        switch (instruct.opcode) {
        case opSTOP:
            return false;
        case opIN:
            Handle_opIN(instruct);
            break;
        case opOUT:
            Handle_opOUT(instruct);
            break;
        case opADD:
            Handle_opADD(instruct);
            break;
        default:
            throw std::logic_error("Invalid Op Code:" + std::to_string(instruct.opcode));
            break;
        }
        return true;
    }
    
    void RunCode() {
    
        while (true) {
            uint32_t eip = g_regs[7];
            if (eip > g_instruct_list.size() - 1) {
                break;
            }
            const Instruct& instruct = g_instruct_list.at(eip);
            if (!RunInstruct(instruct)) {
                break;
            }
            g_regs[7]++;
        }
    }
    // handle处理
    void Handle_opIN(const Instruct& instruct);
    void Handle_opOUT(const Instruct& instruct);
    void Handle_opADD(const Instruct& instruct);
    void Handle_opLD(const Instruct& instruct);
    void Handle_opST(const Instruct& instruct);
    void Handle_opLDA(const Instruct& instruct);
    void Handle_opLDC(const Instruct& instruct);
    

    测试

    int main()
    {
        Init();
        LoadCode("asm.txt");
        RunCode();
    
        return -1;
    }
    
    

    初步分析

    虚拟机入口

    00952380 | 68 95514200              | push 425195                                                 |
    00952385 | E8 FC220100              | call testvmp.vmp.964686                                     |
    

    push 425195的作用

    经过对后面的流程进行分析,得知这里的425195在虚拟机跳转衔接上起到了关键的作用。VMP为了防止逆向分析的一个重要的干扰就是乱序,运行几行汇编就各种jump,VMP使用的jump方法是JXX指令和CALL,RET来进行。

    如下代码使用了push和ret组合实现跳转:

    00963A35 | FF7424 34                | push dword ptr ss:[esp+34]                                  |
    00963A39 | C2 3800                  | ret 38                                                      |
    

    上面的这段代码,假如不知道[esp+34]的值,不知道会跳转到哪里。所以静态分析工具例如ida是就无法分析。然而425195这个值充当了一个Key的作用。VMP巧妙的运用这个值来进行实时计算要跳转的地方。

    虚拟机初始化

    单步进入就会看到虚拟机初始化的代码。

    初始化充斥着许多垃圾指令,注意看注释。

    push 45FFB40D	
    mov byte ptr ss:[esp],C0	
    call testvmp.vmp.962149	
    mov dword ptr ss:[esp+4],edx	
    mov byte ptr ss:[esp],22	
    pushfd	
    mov dword ptr ss:[esp+4],edi	
    jmp testvmp.vmp.9633F4	
    mov word ptr ss:[esp],cx	
    mov dword ptr ss:[esp],eax	
    pushad	
    jmp testvmp.vmp.9641DB	
    pushfd	
    mov dword ptr ss:[esp+20],esi	
    call <testvmp.vmp.sub_963725>	
    mov dword ptr ss:[esp+20],ebx	
    mov dword ptr ss:[esp+8],5870296F	
    mov dword ptr ss:[esp+1C],eax	
    pushfd	
    push esi	保存寄存器ESI
    pushfd	
    pop dword ptr ss:[esp+20]	
    push A9CEAE65	
    pushad	
    push dword ptr ss:[esp+4]	
    mov byte ptr ss:[esp],49	
    lea esp,dword ptr ss:[esp+48]	弹栈
    jmp testvmp.vmp.9636DA	
    bt ax,3	
    bswap di	
    cmc	
    and dh,dh	
    push ebp	保存寄存器EBP
    xadd si,di	
    movsx bp,al	
    not edi	
    push ecx	保存寄存器ECX
    ror esi,5	
    clc	
    push dword ptr ds:[962430]	
    inc si	
    push 540000	这个值与之前PUSH来的KEY共同计算指令handle下一跳地址
    jmp testvmp.vmp.963343	
    test cl,F7	
    rcr si,cl	
    pushad	
    mov esi,dword ptr ss:[esp+50]	
    sbb ebp,23A52066	
    ror di,1	
    lea ebp,dword ptr ss:[esp+20]	
    sar di,cl	
    bsr dx,bp	
    inc edi	
    sub esp,A0	分配栈空间
    shl dh,6	
    ror dx,cl	
    dec edi	
    mov al,dl	
    mov edi,esp	VM寄存器指针
    push ebx	
    call testvmp.vmp.964391	
    bswap edx	
    add esi,dword ptr ss:[ebp]	重定位
    add esp,8	
    
    

    运行大致逻辑

    经过我对刚才加壳的代码进行多次单步执行分析,得到被加虚拟机的代码运行流程如下。

    f9f9c87470ad70319643b250d1c906a2.png

    EBP为虚拟机自己的栈顶地址类似x86的esp

    EDI为虚拟机寄存器基地址

    详细分析

    下面对各个关键点通过汇编和数据进行详细分析

    ESI的逻辑

    代码流是通过ESI来进行的

    ESI先来自那个Push进来的Key

    0096334A | 8B7424 50                | mov esi,dword ptr ss:[esp+50]                               | var_4 进虚拟机push的Key
    

    再加那个540000的偏移

    00964393 | 0375 00                  | add esi,dword ptr ss:[ebp]                                  | esi+= 540000
    

    本次VMP版本ESI是每次累减而不是累加

    ESI操作完现在是00965195

    0d11cafc73116aaaf434f7df8ca450ee.png

    每次取的是[esi-1],也就是esi所示的前一个字节

    0096439B | 8A46 FF                  | mov al,byte ptr ds:[esi-1]                                  | 
    

    al现在就指向这里

    67a4900b0845dba0bc61ca37a341c13d.png

    每次算完edx(下一跳地址)之后esi还会-1

    00964785 | 83EE 01                  | sub esi,1                                                   | esi:sub_9650C6+CF
    

    第一条VM指令VMPop Reg

    实际上ESI指向的2C是寄存器索引

    00964241 | 891407                   | mov dword ptr ds:[edi+eax],edx                              | Handle eax是root esi指的那个字节
    

    2C/4 = B 所以本次VMP指令就是

    VMPop Reg11

    从第一条VM指令看Handle跳转代码的逻辑

    每次要跳到哪个HANDLE取决于这行汇编代码

    009643B0 | 8B1485 AD3C9600          | mov edx,dword ptr ds:[eax*4+<sub_963cad>]                   | 这里的EDX决定着后面ret 38 ret到 [963CAD + Index * 4]+540000-1  edx-1+540000
    

    可以看到这里有一个表,那就是963CAD,

    b2312745e624e3c6d33e7c5cb7fab1ee.png

    这个表里的值是一个偏移。要想跳到实际的HANDLE要把这个值+540000然后再-1

    比如,要跳到这个表索引为0的handle就是要跳到[963CAD+0 * 4]+540000-1 = 004246D4+540000-1=009646d3,正好是PopReeg4 handle

    乍看这一个表,表里有重复的值,不知道是什么意思。

    这个 index刚好就是之前的esi的值。也就是这里

    29f160bb2eb91f074d738b10055a6bfd.png

    那么说明esi指令的这个地方,有两个用处?

    1. 决定指令流向,因为他代码一个指令的索引
    2. 寄存器索引,因为他也代码了一个寄存器索引

    这看起来很诡异,因为esi所指向的这个字节他即充当了操作数寄存器的索引,又充当了本条指令handle的索引。

    除非是这样:先把流程弄好,再按排好的流程再填充这个963CAD表。

    比如说,本条指定是

    VMPop Reg12

    则在ESI指向的那块内存里写入12 * 4 = 0x30,然后再在esi指向的内存里写入0x30,然后再在963CAD这个表里的0x30索引的位置写入VMPop 的HANDLE。

    第二条VM指令 立即数压栈

    第二条指令的时候ESI指向这里

    8dbbd85b4851f1a72c218eba26f75629.png

    所以索引是0x46

    这个指令跳到的handle会读取[esi-4]的一个DWORD。

    ee44a2ebe058c3489b6b9bb0c858d231.png

    读的位置也就是这里:

    37dce97eb09e0d755c97f1ac9549e4e4.png

    转换成DWORD就是DA94102D,后面又用bswap指令转成了2D1094DA,所以这个立即数实际上是2D1094DA

    执行完又将esi前移4字节

    ebed7adedf1e4ed11a3d8e4db6067184.png

    由于这个handel有如下代码

    0096206F | 83ED 04                  | sub ebp,4                                                   |
    00963B9E | 8945 00                  | mov dword ptr ss:[ebp],eax                                  | eax是立即数
    

    所以说这个是将立即数压栈的handle

    第三条VM指令 加法

    34ffc252a8040799b5bb5513e521a7c5.png

    所以这个加法的操作是[ebp+4]=[ebp]+[ebp+4]

    完整逆向VMP结果

    VMPop Reg11
    VMPushDWORD 2D1094DA
    VMAdd [EBP+4]=[EBP]+[EBP+4]
    VMPop Reg5
    VMPop Reg6
    VMPop Reg14
    VMPop Reg2
    VMPop Reg7
    VMPop Reg5
    VMPop Reg4
    VMPop Reg0
    VMPop Reg3
    VMPop Reg10
    VMPop Reg15
    VMPop Reg9
    VMPop Reg0
    VMPush WORD 0x100
    VMPUsh WORD 0x1000
    VMPop Reg9
    VMPop Reg8
    VMPush Reg15
    VMPhsh Reg9
    VMPush Reg8
    VmAdd
    VMPopReg R13
    VMPopReg R12
    VMPopReg R10
    VmPush Reg3
    VmPUsh Reg0
    VMPush Reg9
    VMPush Reg12
    VMPush Reg13
    VmPUsh Reg2
    VMPush Reg14
    VmPUsh Reg3
    VmPUsh Reg9

    下一步要做的

    下一步就是要写脚本对更复杂的代码进行自动解析。</sub_963cad></testvmp.vmp.sub_963725>

    本人新博客网址为:http://www.hizds.com
    本博客注有“转”字样的为转载文章,其余为本人原创文章,转载请务必注明出处或保存此段。c++/lua/windows逆向交流群:69148232
  • 相关阅读:
    '?'变化左右括号,使得字符串括号匹配
    二叉树中最大值节电和最小值节点之间的路径
    python 处理传输层的报文 TCP/UDP
    hook笔记分享
    scrapy-splash学习
    pycharm解决关闭flask后依旧可以访问服务
    python一些常用代码块
    阿里系纯滑块验证码破解思路
    python代理池搭建
    关于scrapy的验证码处理
  • 原文地址:https://www.cnblogs.com/zhangdongsheng/p/15521903.html
Copyright © 2011-2022 走看看