用 IDA 反汇编动态库
最近,一直在学习如何利用 IDA 来反汇编动态库,这里把我的学习心得写下来。为简
单起见,这里就自己所写的一个动态库里的一个简单函数进行一下反汇编,给出如何写出
其 C 代码的详细过程,希望对新手有点帮助。废话少说,先给出其动态连接库的 C 代码如
下
_declspec(dllexport) int add(char a, int b, int c[2])
{
int d = a + b + c[0] + c[1];
return d;
}
至于为什么要设置这样的参数,待会在反汇编时进行说明。下面给出其详细的反汇编
过程,并补充相关的经验总结。
第一步、装载动态库文件” first .dll”,装载之后得到下面的截图:
通过在 Functions 一栏中双击 add 函数,我们来到 add()函数的地方(同上图),我们看
到”text:10001010 add proc near ; CODE XREF: add(char,int,int * const)j”这样一栏显示了 add
函数的参数,虽然有点出入,但大体正确。可能是因为 add 函数本身比较简单,所以 IDA
很容易就识别出了其参数,一般地,IDA 是识别不出来的,网上有一个插件为”Flair.v5.20”
据说可以部分地解决函数的参数识别问题,但这个软件我没有下载到,就不说这个了 。
第二步、我们看到”.text:10001010”这些栏有很多标示,在下面的汇编语句中会用到。
我们看接下来的三行代码 :
.text:10001010 push ebp
.text:10001011 mov ebp, esp
.text:10001013 sub esp, 44h
这三行代码模式基本上是固定的,(至少我遇到的都是这样)首先是保存 ebp, 然后用 ebp
来保存 esp 的原始指向,再将 esp 的指向向上移动 44h 个字节,(当然这里 44h 不是固定
的)为什么会有这样固定的代码呢?就代码 “sub esp 44h”而言,在原 esp 的基础上向上移动
44h 的字节空间,而 esp ----- esp-44h 这个 44h 的空间是为了存放一般变量的。其他两行相
信读者很容易理解其理由。
第三步、看下面三行代码.
.text:10001016 push ebx
.text:10001017 push esi
.text:10001018 push edi
当我们在函数的开头看到这样的代码时,而后面又没有紧跟着”call + function”时,我们
大可不用理解,因为这些 push 语句目的都是为了不破坏原始 ebx,esi,edi 的值而将他们保存
起来,并且这里我们可以看到,是保存在 esp-44h 之上的。也就是说,如果我们看到函数
的开头出现将寄存器 push 进 esp-x 之上的空间(我们将”esp-x 至 esp”的堆栈空间成为“一般
变量栈空间”),这里就是指 push 进 esp-44h 之上的堆栈空间,我们不用去关心,在函数末
尾肯定会有相应的代码将他们还原的。(待会我们会看到)
第四步、继续向下看,进入关键代码段。在做进一步解释之前我先画一幅堆栈图。
如下 :
好了,有了上一幅图,说明起来会容易些。看接下来的四条代码 :
.text:10001019 lea edi, [ebp+var_44]
.text:1000101C mov ecx, 11h
.text:10001021 mov eax, 0CCCCCCCCh
.text:10001026 rep stosd
这四条代码和上面的三条代码一样,其模式一般是固定不变的。其作用就是实现了“一般变
量栈空间”的初始化。这里将图中所示的“一般变量栈空间“初始化为 0xCCCCCCCC.其具体
的代码解释如下 :
lea edi, [ebp+var_44] : edi = ebp + vat_44
edi
exi
ebx
一
般
变
量
堆
栈
空
间
can1
can2
can3
ebp = esp ( 假设这里是最先的 esp ,
且 值 为 0x0013ff80, “1000101 代
码” )
(esp-44h) 指 向 , 为 (0x0013ff80-
44h)
esp-44h 之上的空间
ebp+arg_0
ebp+arg_4
ebp+arg_8
mov ecx, 11h : ecx = 0x11h
mov eax, 0CCCCCCCCh : eax = 0xCCCCCCCC;
rep stosd : for(int i1=0; i1<ecx; i1++)edi[i1] = eax;
这里因为 ecx=0x11(44h/4),所以将整个“一般变量栈空间”全部初始化为 eax=0xCCCCCCCC;
这下就清楚了为什么上面的四条代码一般模式是固定的,原因就是对将要用到的“一般变量
栈空间”进行初始化。
第五步、进入核心代码段
.text:10001028 movsx eax, [ebp+arg_0]
.text:1000102C add eax, [ebp+arg_4]
.text:1000102F mov ecx, [ebp+arg_8]
.text:10001032 add eax, [ecx]
.text:10001034 mov edx, [ebp+arg_8]
.text:10001037 add eax, [edx+4]
.text:1000103A mov [ebp+var_4], eax
.text:1000103D mov eax, [ebp+var_4]
从图上我们可以知道 arg_0,arg_4,arg_8 分别是 0x8,0xc,0x10。(要是从图上看不清,请参考
文件”first.txt”)代码”movsx eax, [ebp+arg_0]”表示将[ebp+arg_0]的值进行有符号扩展后传给
eax。但是这里的[ebp+arg_0]究竟是什么呢?我们假设[ebp+arg_0]=can1,如图,那么”movsx
eax, [ebp+arg_0]”就表示”eax = (char)can1”。因为我们有源代码,我们知道函数 add()的参数
为 int add(char a, int b, int c[2]),这样我们有理由怀疑(char)can1 就是 char a,即 add 的第一个
参数。我们接着看下一条代码:” add eax, [ebp+arg_4]”,有了上面的猜想,我们不无理由
认 为 [ebp+arg_4] 就 是 can2 , 这 样 就 实 现 了 eax = can1+can2; 再 看 代 码 ” mov ecx,
[ebp+arg_8]”和” add eax, [ecx]”,我们可以猜想得到[ebp+arg_8]其实是一个地址,因为后
面有” add eax, [ecx]”这样的代码,表示为将 ecx 所指向的地址的值传给 eax。所以肯定这
就是 can3,即一个 int 型的地址参数。” add eax, [ecx]”之后,eax = can1+can2+can3[0]。接
下来的两行代码” mov edx, [ebp+arg_8”和” add eax, [edx+4]”与上面的相似,实现了 eax
= can1+can2+can3[0]+can3[1]。再看剩下的两行代码,” mov [ebp+var_4], eax”,” mov eax,
[ebp+var_4]”,这两行代码是先将 eax 的值赋给[ebp+var_4],再将其值给 eax。第一行代码
其实是将结果储存在[ebp+var_4],第二行代码是将返回值给 eax。(一般地,函数的返回值
要是是 int 型的话,都会将返回值赋给 exa,这也可以看成是一种固定的模式)。到这里,
函数基本上完成了,这里可以看出为什么将 add 函数的参数设置成 char,int 和 int*了,目
的就是为了认清楚原来的参数是放在堆栈中具体什么地方就目前可见,函数的第 i 个参数
放在 esp+4+i*4 所指的堆栈中(i 从 1 开始,esp 是指最先的栈顶指针,后来传给了 ebp)
(一般第一个参数都是从[ebp+arg_0]开始,而 arg_0 一般为 8,其他的参数依次放置)。同
时我们也看到了参数返回的值会存放在寄存器 eax 中。这些到底是不是固定的,由于自己
刚入门,不敢随便肯定。
第六步、接下来的代码基本上就是还原先前存储的寄存器,就不做详细解释了。
.text:10001040 pop edi
.text:10001041 pop esi
.text:10001042 pop ebx
.text:10001043 mov esp, ebp
.text:10001045 pop ebp
.text:10001046 retn
.text:10001046 add endp
好了,到这里,我们对用 IDA 反汇编动态库文件有了一定的认识和经验积累。但是这
样反汇编成 C 语言似乎太慢了,对于这个简单的 add()函数还好,遇到难一点的函数那就说
不定了。好在我们有”hexray”这个将汇编代码转成 C 语言代码的插件,下面我们就用试着
用这个插件来写 C 代码。
加载 first.dll 文件后,同样在”Functions”一栏双击函数 add,来到 view 的 add 函数区。
按 F5 键,得到如下的截图
- 1
- 2
- 3
- 4
- 5
- 6
前往页