如何解读IL代码
关于IL代码,我有将从三个方面去揭开它神秘的面纱。IL代码是什么?我们为什么要去读懂IL代码?我们如何去读懂IL代码?这三个问题的解答,将是我解读IL代码的整体思路。
IL代码是什么?IL(Intermediate Language),它也称为CIL或者MSIL,翻译成中文就是“中间语言”。C#的JIT编译器可以将C#源程序编译为.exe或.dll文件,但此时编译出来的程序代码并不是CPU能直接执行的二进制代码,而是传说中的IL代码。因此,.exe或者.dll文件都可以被VS安装自带的ILDASM打开,查看IL代码。
我们为什么要去读懂IL代码?无论精通哪一门技术,我们都应该从其本质出发,探明最核心的运作机理,最终有效地理解和掌握它。对于C#语言来说,掌握IL语言就如同抓住了C#语言的本质,它可以有效地帮助我们去理解编译器的运作机理。对于一些C#高手而言,深入地研究IL语言后,能对IL语言直接进行修改后编译。但就我目前的水准,读懂IL代码是为了更深入地理解C#各种特性,比如C#中最重要的一些基本特性,委托、事件。
我们又将如何去读懂IL代码?在读懂IL代码之前,我必须先给大家介绍一下,C#代码编译环境下的内存结构。就我目前已知分为5大块内存区。分别为,托管堆,线程堆栈,计算栈,调用栈,代码区。
托管堆(Managed Heap):存放引用类型的数据,引用类型的数据由GC(Garbage Collection)负责管理。
线程堆栈(Thread Heap Stack):存放值类型的数据和引用类型地址,值类型的数据由操作系统直接负责管理。
计算栈(Evaluation Stack):临时存放值类型的数据和引用类型的地址的堆栈。符合先进后出(FILO)基本栈规则。
调用栈(Call Stack):其中的Record Frame用于存放.locals init(int32 V_0)指令的参数值,是一个局部变量表,不符合先进后出(FILO)基本栈规则。
代码区(Code):存放各种程序指令集。
数据内存区有4个,按等级可以划分成3个级别。托管区为最高级,只有存放引用类型数据;线程堆栈为第二级,存放值类型数据与引用类型地址;计算栈和调用栈为第三级,在线程中调用方法时,主要在这两个栈中操作数据。要看懂IL代码第一步便是需要清晰地了解计算栈与调用栈互相操作数据的关系。下面我将引入一个IL代码实例来说明几个内存区是如何互相操作数据的。
C#源代码
using System;
namespace ILDemo
{
class Program
{
static void Main(string[] args)
{
int i = 1;
int j = 2;
int k = 3;
int answer = i + j + k;
Console.WriteLine("i+j+k=" + answer);
Console.ReadKey();
}
}
}
IL代码
.method private hidebysig static void Main(string[] args) cil managed
{
.entrypoint //程序入口
// 代码大小 42 (0x2a)
.maxstack 2 // 计算出计算堆栈的能存几个值
.locals init ([0] int32 i,
[1] int32 j,
[2] int32 k,
[3] int32 answer) //定义int32类型的i,j,k,answer放入调用栈
IL_0000: nop //无操作
IL_0001: ldc.i4.1 //把i的值从线程堆栈放到计算堆栈上
IL_0002: stloc.0 //把计算堆栈顶部的值(i的值)放到调用堆栈索引0处
IL_0003: ldc.i4.2 //把j的值从线程堆栈放到计算堆栈上
IL_0004: stloc.1 //把计算堆栈顶部的值(j的值)放到调用堆栈索引1处
IL_0005: ldc.i4.3 //把k的值从线程堆栈放到计算堆栈上
IL_0006: stloc.2 //把计算堆栈顶部的值(k的值)放到调用堆栈索引2处
IL_0007: ldloc.0 //把调用堆栈索引为0处的值复制到计算堆栈
IL_0008: ldloc.1 //把调用堆栈索引为1处的值复制到计算堆栈
IL_0009: add //相加
IL_000a: ldloc.2 //把调用堆栈索引为2处的值复制到计算堆栈
IL_000b: add //相加
IL_000c: stloc.3 //把计算堆栈顶部的值(add的值)放到调用堆栈索引3处
IL_000d: ldstr "i+j+k=" //推送对元数据中存储的字符串的新对象引用。
IL_0012: ldloc.3 //把调用堆栈索引为3处的值复制到计算堆栈
IL_0013: box [mscorlib]System.Int32 //装箱
IL_0018: call string [mscorlib]System.String::Concat(object,object) //调用内部方法
IL_001d: call void [mscorlib]System.Console::WriteLine(string) //调用WriteLine
IL_0022: nop //无操作
IL_0023: call valuetype [mscorlib]System.ConsoleKeyInfo [mscorlib]System.Console::ReadKey() //调用ConsoleKey
IL_0028: pop //无操作
IL_0029: ret //return
} // end of method Program::Main
总结:1.ldloc.0前缀ld,load含义载入,即压入计算栈;loc,locals含义调用栈,即取值于调用栈第0位参数。
2.其他的ld前缀都是取值于线程堆栈。比如ldc.i4.0,ldstr,ldfld,ldfld。
3.st前缀,store含义存储,即弹出计算栈。弹出的值存放于调用栈。
基于以上3条结论,大家基本可以看懂大部分IL代码的方法内部计算栈和调用栈的数据交互。在随后的博文中,我会叙述一下如何通过IL代码去深入理解委托、事件。希望大家能够支持一下。