zoukankan      html  css  js  c++  java
  • 逆向工程——二进制炸弹(CSAPP Project)

    实验文件:https://files.cnblogs.com/remlostime/bomb.zip

    题中给出了一个二进制文件(可执行文件),共6个关卡,每关要输入一个密码才能过关,就像解谜游戏一样,还是很有意思的,同时对于程序(函数,返回值,堆栈的组织)如何运行的有更深的理解。

    破解唯一可用的线索就只有这个二进制文件了。这题是对于反汇编能有更深入练习,加上还能熟悉gdb,objdump这类调试工具和反汇编工具。每一关的考察点也是由浅入深。

    最开始的时候很没头绪,就只是按照提示用objdump –d bomb把汇编代码整个打印出来,然后大致浏览了一下,差不多几十页的样子,发现其中有六个函数phase_1……phase_6,基本上也就可以确定就是这六个关卡了。

    ===============phase_1===============

    知识点:string,函数调用,栈

    phase_1

    用了差不多一个星期断断续续地寻找感觉的phase_1,最主要不知道从何入手。虽然phase_1也不过10+行指令,但最初我的出发点错了:完全依靠人工去读代码而不使用更便捷的gdb去调试和查看内存和寄存器的情况。

    比方说,困扰了我好几天之久的strings_not_equal函数。现在看来,函数的名字已再清楚不过的体现了函数的意义。而我最初还深入到函数中去读各种寄存器、各种内存,最后被一个内存地址卡住了,死活不知道内存里的值是多少,还用人工去计算。最后终于恍然大悟,不就是放入栈中两个字符串,然后比较它们是否相等吗?

    可以看到0x8048b22和0x8048b27指令中分别放入了两个字符串,一个在地址0x8049678中,另一个在0x8(%ebp)中。而0x8(%ebp)是函数phase_1的参数,所以依此可以判断0x8(%ebp)的内存地址中的值是我们输入的字符串,而0x8049678则可能是程序中硬编码的一个字符串。那么,找到这个内存地址中的字符串便能解决问题了。那么如何去寻找呢,于是乎我又翻看我的那几十页代码纸,企图人工计算出来。后来发现数据段的的值没有包含。终于,我开始想到了gdb这个工具。干嘛不在0x8048b22处设个断点,然后到时打印0x8049678地址中的值不就行了吗?终于的终于,最强调试器上场。

    break

    print

    如图,密钥就是:The future will be better tomorrow.

    经过如此简单的一个函数,基本上学会了函数是如何被调用,参数是如何放置的,以及学会了一点简单的gdb调试。另外,应当集中精力在主要问题上,对于strings_not_equal的函数的深入解读就是不明智的,只有当发现stings_not_equal的运作方式真正重要时才去关注。

    ===============phase_2===============

    经过phase_1的训练,以后的关卡的破解模式也终于找到了,所以越来越难但花的时间却并非是线性增长的。

    知识点:循环语句,数组

    phase_2

    在1中可以看到%eax由于是调用者维护的寄存器,所以调用函数read_six_numbers时需要先入栈。0x8(%ebp)保存的应该是六个数字的地址。看了下read_six_numbers函数,基本上就是判断是否输入的数字为六个,所以重点还是phase_2函数本身。

    在看到0x8048b54地址中的指令,cmpl $0x1,-0x20(%ebp)和je 8048b5f,为了确定-0x20(%ebp)中的值是否为1。而-0x20(%ebp)中的值是什么呢?猜测可能和输入的六个数有关,但我也懒得计算到底是哪个了。于是先在初始时随便输入六个数,比如:1 2 3 4 5 6,然后在0x8048b54处设立一个断点,用命令:p *(int *) ($ebp - 0x20) 查看其中的值,发现是输入的第一个整数。然后,就可以确定了第一个参数必须为1,炸弹才不会爆炸(0x8048b5a黄线标出)。

    可以看到2是一个循环语句,共作了5次,其中%ebx是循环变量,而%esi中保存的是第一个整数的地址值,相当于一个数组中的起始地址(基地址),而后面的key points中的代码就是确定后续的五个数应该是多少的关键了,可以看到a-0x8(%esi, %ebx, 4)b-0x4(%esi, %ebx, 4)的地址就差0x4,也就是一个32位整数的地址,所以猜测可能是相邻两个数的一个比较。假设有数组A,由于数组地址是从小到大增长,所以地址数组索引b=a+1,根据指令可以得出A[b]=A[a]*%eax,其中%eax就是%ebx,每次%eax就等于循环变量(其中变量=2,3,4,5,6)。初始时,A[1]=1。所以,A[2] = A[1] * 2 = 2,A[3] = A[2] * 3 = 6,A[4] = A[3] * 4 = 24,A[5] = A[4] * 5 = 120,A[6] = A[5] * 6 = 720。

    所以答案就是:1 2 6 24 120 720

    ===============phase_3===============

    知识点:switch语句

    phase_3

    这关基本上就是对switch语句的反汇编,最重要的是理解了switch的跳转表的结构就能重新刻画出switch的结构了,问题就迎刃而解了。可以看到1中最后call 08048878<sscanf@plt>,猜测sscanf可能是C语言的内部函数,于是查到其定义为:int sscanf(const char *str, const char *format,…),给出一个使用实例:sscanf(“s 1”, “%s %d”, str, &a),函数返回2(因为接收了2个参数),str为char*类型,保存”s”;a为int类型,保存1。由此,压入栈中的四个地址:-0x8(%ebp), -0x4(%ebp), 0x8049968 和 0x8(%ebp)这四个参数就是传递给sscanf。于是查看0x8049968中的值,得到:

    p2

    由此,便推断出此关需要输入两个整数类型。

    再看0x8048bae处的指令,为了不让指令跳转到explode_bomb处,得出表达式*(-0x4(%ebp)) – 0x7 <= 0(*(addr)是取出addr地址中的值),由于ja是对无符号数比较,所以第一个参数取值范围:0 1 2 3 4 5 6 7

    在2中的指令块就是一个比较明显的switch语句块了,最主要的一个线索就是jmp *0x80496cc(, %eax, 4),根据地址0x80496cc + 4%eax中值确定跳转地址,也就是说跳转表存在0x80496cc ~ 0x80496cc + 4 * 7 的地址段中。

    于是,将这个跳转表打印如下,就可以很清晰的得到2中的跳转结构,于是根据此结构又可以得到2下方用高级语言重写的switch代码。

    switch

    再往下看,可以看到0x8048c23中-0x4(%ebp)和5进行比较,如果大于5则爆炸,所以第一个参数进一步去除了6和7。根据switch中的ret值,我们得到了第二个参数,于是答案就有6组(任意皆可):

    0 179

    1 -678

    2 -199

    3 -900

    4 -169

    5 -411

    发现当代码很长时,从后向前读会很有帮助,既从结果推知过程该干些什么能目的更明确。在之后的关卡中都用的是从结果推到过程中。

    ===============phase_4===============

    知识点:递归

    phase_4

    1中可以看到sscanf(0x8(%ebp), 0x804996b, %eax)中的*0x804996b=”%d”,所以需要传入一个整数。另外由0x8048c8b的指令进一步确认了只能传入一个整数。而接下来的指令可以看出传入的整数应该>0,否则炸弹爆炸。而这个整数又作为func4的参数传入。0x8048ca6的指令中,我们可以确定func4(-0x4(%ebp))=144才能过关。

    那么深入一下func4的运作机理就是很有必要的,如下图给出了func4:

    func4

    在上图中1作为func4的递归主体根据jg 8048c4e可以看出是一个循环语句,另外%ebx(即传入的参数)作为循环变量,此变量每次-2。另外在0x8048c42处,给出了递归结束的条件(%ebx<=1则返回1),根据如上的一些分析,大致的就可以还原出函数的一个全貌了。用C语言重写一下,得出:

    int func4(int n)
    
    {
    
    	if (n <= 1)
    
    		return 1;
    
    	int ret = 0;
    
    	for(int i = n; i > 1; i -= 2)
    
    	{
    
    		int m = i - 1;
    
    		ret += func4(m);
    
    	}
    
    	return ret + 1;
    
    }
    

    最后,只要暴力搜索一下func4(n)=144的n的值就可以了,n=11。

    ===============phase_5===============

    知识点:字串变换,ascii转换,寻址

    phase_5

    这关可以说是phase_1的增强版,1可以看出此段指令对我们输入的原字符串做了些处理,所以很可能并不能简单的输入在2中的地址*0x80496c=”titans”的字符串。那么先从2入手,首先%ecx中存的是什么地址呢?倒推到0x8048cd6可以看到%ecx = -0xb(%ebp),所以这个地址并非是我们输入字符串的地址。而这个地址中的赋值可能就是在1中进行的。由movsbl -0x1(%ebx, %edx, 1), %eax和%edx的取值1,2,3,4,5,6可以推断出源地址的值。再由mov %al, -0x1(%edx, %ecx, 1)来推断目标地址。得出如下的对应关系:

    sd其中%ebx=0x8(%ebp)输入字符串首字符地址,%ecx = -0xb(%ebp)

    另外,根据and $0xf, %eax和mov 0x804a5c0(%eax), %al这两条指令可以知道,source->dest的赋值是根据我们输入每个字符串各位的最低四位(%eax)+0x804a5c0中地址所对应的字符回传给dest的对应地址。于是,将0x804a5c0中的字符串打印如下:

    mem

    我们的目标字符串”titans”所对应的位置是cd,c0,cd,c5,cb,c1。所以,当输入字符串时,它们的末4位分别应为d,0,d,5,b,1。打印出0~126的ascii所对应的字符表,我选取了mpmeka(6d 70 6d 65 6b 61)作为答案。

    ===============phase_6===============

    知识点:寻址

    phase_6

    总算到了最后的关卡,但似乎觉得比前几关容易些,可能是因为我用了tricky的方法,偷懒了。可以看到1中的函数定义long int strtol(const char* str, char **endptr, int base),基本上就是输入一个字符串,然后此函数中base=10(0xa),endptr=0x0(NULL),而str就是我们输入的参数,函数将其转换成10进制数。而2中调用了fun6函数,由于fun6函数实在太长懒得看了,发现传入的参数是一个硬编码地址0x804a630,所以应该和输入的参数没关系。也就是说fun6的返回值是固定的,那么干嘛不在fun6运行结束的地方设个断点,然后查看%eax的值不就完了嘛。如下:

    eax

    又看到3是一个循环8次的语句,于是只要找出最后%eax为多少就行了,如下:

    8

    可以看到最后%eax=0x804a5d0,然后在打印出此地址中的值就行了:

    res

    转换成十进制就是198。

    这题的fun6实在长到吐血,但理解fun6对解题的帮助并不大,所以直接看结果会明智些。

     

     

     

     

    当当,最后一题解决啦!终于打倒大boos了!放礼花啦!

    succ

     

     

     

     

     

     

     

     

     

     

     

     

     

    ===============secret_phase===============

    知识点:加强版递归,改变寄存器变量

    咳咳,你还在看吗?好吧,最终的隐藏大boss来了。不负众望,果然是最有挑战的一关。

    首先,你得发现有这么个隐藏关卡。发现了还不够,你得把它调出来。这还不够,你还得输入正确的密码,最后赢得比赛。

    首先要发现隐藏关卡,那你就得通读代码,所以把代码打在纸上能更清晰些。

    其次,如何调出关卡就得分析secret_phase在哪里被调用了,可以发现其被调用的地方只有一处,在phase_defused的代码中,而phase_defused是每关拆完之后会被调用的。于是拿来phase_defused分析一下:

    defused

    可以看到,必须要过了第6关隐藏关卡才能被调用(其实用点特殊手段也能执行)。紧接着,就是一个sscanf(“11”, %d %s”, %eax, %ebx)的调用,由于0x804943e的指令告诉我们%eax(sscanf的返回值)要等于2才能顺利进行。”11”只能传入一个整型%d,所以sscanf返回1,而且由于硬编码,所以当时我就想到改变”11”所在的内存值,变成”1 s”就能顺利返回2了。但转念一想既然改变内存那寄存器%eax不也可以改变吗?何必舍近求远,找到最关键的那个变量直接改了不就行了。于是直接在0x80493e处设断点,在那里用命令p $eax=2,把%eax改成2就行了。同时在0x8049451出如法炮制,把%eax改成0就行了。于是乎,哇咔咔,终于见到最终大boss了。(另外,经过此番醒悟,我终于觉得连输入的密码都是浮云,只要每次在每个关卡的判断的关键处设断点,直接修改寄存器,连代码都不用理解就成了。这想法实在是邪恶!)

    第三阶段最艰苦的征程开始了。放上大boss的真容:

    secret_phase

    程序首先是读入一行read_line,接着是strtol(%eax, NULL, 10)的调用,也就是我们需要输入一个10进制数。接下来这个10进制数会被作为fun7的参数(0x8048e28,另外一个参数在0x804a6e4(查看得知为0x24))。而此参数首先应该满足的条件为%eax – 1 – 0x3e8 <= 0,既: %eax <= 0x3e9 (1001)。而从0x8048e39中,可以知道%eax=0x5时才能成功过关,也就是fun7要返回5。

    那么,查看fun7的代码如下:

    fun7

    这是一个加强版的递归汇编,但也并非难道还原不出。最开始,我犯了个极大的错误在0x8048dcd处,勿把pushl 0x4(%ecx)当作把(0x4+%ecx)入栈,其实应该是把(0x4+%ecx)地址中的值入栈,所以怎么做怎么不对,从头到尾的检查了好几遍,花掉了3、4个小时终于是领悟了这么个bug。如上图,其实原理和phase_4的递归是一样的,只不过稍微分支多了点。可以写出如下的C代码的递归版本:

    int fun7(const int *a, int b)
    
    {
    
    	if (a == NULL)
    
    		return -1;
    
    	int ret = 0;
    
    	if (*a - b > 0)
    
    	{
    
    		ret = fun7(*(a + 4), b);
    
    		ret *= 2
    
    	}
    
    	else if (*a - b == 0)
    
    		return 0;
    
    	else
    
    	{
    
    		ret = fun7(*(a + 8), b);
    
    		ret = ret * 2 + 1;
    
    	}
    
    	return ret;
    
    }
    

    由于最后的返回值是5,根据函数数的结构可以想到这样的结构:

    递归

    用穷举的方法试了下,似乎也只有这样一个唯一的结构可以得出5。

    根据以上的结构以及C代码,就可以知道要做些什么了。

    1)*0x804a6e4=0x24,之后在*a-b<0 (0x24 – b < 0)的分支中*(a + 8)=0x804a6cc,所以fun7(0x804a6cc, b)。

    2)*0x804a6cc=0x32,*a-b>0 (0x32 - b > 0),递归fun7(*(0x804a6cc + 4) = 0x804a6b4, b)。

    3)*0x804a6b4=0x2d,*a-b<0 (0x2d - b < 0),fun7(*(0x804a6b4 + 8) = 0x804a648, b)。

    4)*0x804a648=0x2f,*a – b == 0 (0x2f – b == 0),所以b = 0x2f,递归返回。

    得到3个不等式和一个等式:

    1) 0x24 – 0x2f < 0

    2) 0x32 – 0x2f > 0

    3) 0x2d – 0x2f < 0

    4) b = 0x2f

    都符合要求,所以我们得出最后输入的值就是十进制数47(0x2f)。

    总算是最终完结篇了,现在又对hello,world的运作方式更进一步了。

  • 相关阅读:
    beego——过滤器
    beego——session控制
    Differentiation 导数和变化率
    验证码识别
    pip 下载慢
    ORB
    决策树
    机器学习第二章 配对网站
    K-近邻算法
    ubuntu下安装配置OpenCV
  • 原文地址:https://www.cnblogs.com/chkkch/p/2052708.html
Copyright © 2011-2022 走看看