zoukankan      html  css  js  c++  java
  • Linux下简单C语言小程序的反汇编分析

    韩洋
    原创作品转载请注明出处
    《Linux内核分析》MOOC课程http://mooc.study.163.com/course/USTC-1000029000

    写在开始,本文为因为参加MOOC相关课程而写的作业,如有疏漏,还请指出。

    选了一门Linux内核分析课程,因为阅读内核代码中或多或少要涉及到At&T汇编代码的阅读,所以这里写下一个对一个简单C命令行程序的反汇编分析过程,一方面完成作业,另一方面当作练手。下面开始:

    1、编写我们的C语言小程序

    这里我们使用简单的例子,代码如下:

     1 #include <stdio.h>
     2 
     3 int exG(int x)
     4 {
     5     return x + 5;
     6 }
     7 
     8 int exF(int x)
     9 {
    10     return exG(x);
    11 }
    12 
    13 int main(void)
    14 {
    15     return exF(10) + 2;
    16 }

    使用vim等编辑器写入上述代码,保存到main.c,然后使用下面命令生成汇编源文件:
    x86系统:
    $gcc -S -o main.s main.c
    x64系统:
    $gcc -m32 -S -o main.s main.c
    因为我们这里以32位平台为例子,所以在x64机器上要加上-m32来使GCC生成32位的汇编源文件。

    2、处理源文件

    执行完上述命令后,当前目录下就会有一个main.s的文件,使用vim打开,不需要的链接信息[以"."开头的行],得到如下汇编代码:

     1 exG:
     2     pushl    %ebp
     3     movl    %esp, %ebp
     4     movl    8(%ebp), %eax
     5     addl    $5, %eax
     6     popl    %ebp
     7     ret
     8 exF:
     9     pushl    %ebp
    10     movl    %esp, %ebp
    11     pushl    8(%ebp)
    12     call    exG
    13     addl    $4, %esp
    14     leave
    15     ret
    16 main:
    17     pushl    %ebp
    18     movl    %esp, %ebp
    19     pushl    $10
    20     call    exF
    21     addl    $4, %esp
    22     addl    $2, %eax
    23     leave
    24     ret

    可以看到这个文件里是GCC帮我们生成的汇编代码,这里需要说明下AT&T格式和intel格式,这两种格式GCC是都可以生成的,如果要生成intel格式的汇编代码,只需要加上 -masm=intel选项即可,但是Linux下默认是使用AT&T格式来书写汇编代码,Linux Kernel代码中也是AT&T格式,我们要慢慢习惯使用AT&T格式书写汇编代码。这里最需要注意的AT&T和intel汇编格式不同点是:

    AT&T格式的汇编指令是“源操作数在前,目的操作数在后”,而intel格式是反过来的,即如下:
    AT&T格式:movl %eax, %edx
    Intel格式:mov edx, eax
    表示同一个意思,即把eax寄存器的内容放入edx寄存器。这里需要注意的是AT&T格式的movl里的l表示指令的操作数都是32位,类似的还是有movb,movw,movq,分别表示8位,16位和64位的操作数。更具体的AT&T汇编语法请执行Google或者查阅相关书籍。

    3、汇编代码分析

    下面开始分析汇编代码,运行程序后,C Runtime会在进行一系列准备工作后把我们让eip指向我们的main函数开始执行,所以这里从main开始分析:

    首先进入gdb调试环境:
    在我们的机器上输入如下命令生成带有调试信息的elf文件,然后进入gdb进行调试:
    $gcc -m32 -g -o main main.c
    $gdb main -tui -q
    进入gdb后,输入layout asm切换到反汇编视图,同时在main函数处下断点:
    (gdb)layout asm
    (gdb)b main

    然后我们使用
    (gdb)si
    来逐条指令执行并观察寄存器变化情况,如图:

    对于main函数:

    逐条指令执行
    (gdb)si

    pushl    %ebp
    movl    %esp, %ebp
    ...

    这两条是Prolog,其作用包含保存当前的栈环境,以确保函数能正确返回和为当前函数开辟新的栈空间。这两句的执行效果是把当前的ebp值入栈,再把ebp入栈后的esp中的值放入ebp。此时,esp和ebp都指向同一个内存地址。
    这里需要说明的是入栈和出栈操作,在intel的x86架构上,栈是从高地址向低地址增长,所以:

    入栈等价于:1、esp先下移留出对应的空间;2、把相应数值放入刚刚留出的空间完成入栈

    出栈等价于:1、从当前esp指向内存取出数值;2、esp向上移动,释放相应空间

    此时栈中的情况如下如所示:[从这里开始,下图中每个空格皆表示4字节内存空间]

    图1

    继续逐条指令执行

    1 pushl    $10
    2 call    exF
    3 addl    $4, %esp
    4 ....

    pushl $10,当前esp先减4,然后把宽度为4直接的数值10放入esp当前指向的内存中。

    call  exF ,函数调用指令,首先把当前eip的值[当前eip指向第三条指令,即addl $4, %esp]入栈,然后跳转到exF函数的第一条指令开始执行。
    此时栈中的情况如下如所示:
    图2

    对于exF函数:

    逐条指令执行
    (gdb)si

    1 pushl    %ebp
    2 movl    %esp, %ebp
    3 pushl    8(%ebp)
    4 call    exG
    5 addl $4, %esp
    6 ....

    这里前条指令和main函数的头两条指令作用相同,保存当前栈环境,为exF函数开辟新的栈空间 

    pushl 8(%ebp),该指令把当前ebp中的数值加8后作为内存地址,并把该内存地址指向的内存空间内的数值"10"放入栈中。[参考图2可以发现其实就是把调用函数是传入的参数入栈]
    call exG,函数调用指令,当前eip入栈后,跳转到exG函数的第一条指令执行。

    此时栈中的情况如下如所示:

    图3

    对于exG函数:

    逐条指令执行
    (gdb)si

    1 pushl    %ebp
    2 movl    %esp, %ebp
    3 movl    8(%ebp), %eax
    4 addl    $5, %eax
    5 popl    %ebp
    6 ret

    首先依然是函数前言(Prolog),保存栈环境,开辟新的栈空间

    此时栈中的情况如下如所示:

    图4

    此时GDB里使用bt 查看运行栈情况如下图:

    movl 8(%ebp),%eax 该指令把当前ebp中的数值加8后作为内存地址,并把该内存地址指向的内存空间内的数值“10”放入eax寄存器中。[参照图4可以发现就是把调用函数是传入的参数放入eax寄存器]
    addl $5, %eax AT&T汇编语言中$符号后面跟上数字表示一个立即数,这里即为把eax中的值加上5,再放回eax,此时eax的值为15.
    popl %ebp,从栈中获取旧的esp值,并放入ebp寄存器。[这里之所以没有再加上一条movl %ebp, %esp是因为函数中esp的值并没有改变,依然指向存放旧esp值的内存空间]
    ret 等价于pop eip,从当前栈顶,即esp所指内存处获取值,作为eip,然后跳转到eip中存放的地址继续执行。
    此时栈中情况如图:
    图5

    到这里,函数exG已经返回,其返回值存储在eax寄存器中,即返回值为15

    返回到函数exF中

    1 ...
    2 addl    $4, %esp
    3 leave
    4 ret

    程序从上述指令开始继续执行,
    addl $4, %esp 回收栈空间,栈空间收缩4个字节,
    leave,等价于 如下两条指令
        movl %ebp, %esp
        pop %ebp
    即函数结语[EpiLog],释放exF函数使用的栈空间,此时栈中情况如图:
    图6

    再接着是ret指令,该指令执行后,函数exF返回,程序回到main函数继续执行,此时栈中情况如图:

    图7

    此时eax中存放的是函数exF的返回值,即15

    回到main函数继续执行

    1 ...
    2 addl    $4, %esp
    3 addl    $2, %eax
    4 leave
    5 ret

    addl $4, %esp 栈收缩4个字节,回收栈空间
    addl $2, %eax 此时eax中的值是main函数调用函数exF的得到的返回值,即15,本条指令将eax中的值加2后放回eax,执行后eax中的值为17
    leave 函数结语,本条指令执行后,ebp的值为图7中黑色Old EBP表示的值,esp指向图7中黑色Old ebp所在内存空间的上一个内存空间,该处存放的是指向CRT调用main函数后紧接的指令的所在的内存地址
    ret main函数返回

    4、总结

    计算机工作的过程实际上就是“取指令,执行指令”的循环,程序在执行时被装入内存,计算机从内存中某个位置开始读取指令按照一定逻辑顺序执行,直到程序结束。在执行过程中根据需要为程序中各个模块在内存中开辟一定的空间[如栈,堆],运行栈对应函数调用十分重要,函数参数和自动变量都存储于运行栈中。计算机从内存的什么地方开始执行指令完全由cpu中指令指针寄存器[EIP]中的值决定,并不会区分内存中什么地方是代码段,什么地方是数据段。

  • 相关阅读:
    SQL语句编写
    触发器
    plot函数中的type中的参数
    【转】R中read.table详解
    7月18日R笔记
    RMySQL在windows下的安装方法
    WinXP下面实现JAVA对R调用 (rJava包设置)
    用R进行文档层次聚类完整实例(tm包)
    R学习之R层次聚类方法(tm包)
    R对term进行层次聚类完整实例(tm包)
  • 原文地址:https://www.cnblogs.com/exiahan/p/4310010.html
Copyright © 2011-2022 走看看