【免费】UNIX，linux平台可执行文件格式分析1资源-CSDN文库

linux

unix

需积分: 0 121 浏览量 2022-08-08 21:37:41 上传评论收藏 63KB DOCX 举报

资源详情

资源评论

第1章 UNIX/LINUX 平台可执

行文件格式分析

施聪，成都人，高级程序员、网络设计师。长期从事基

于 UNIX/LINUX 下的 c/c++程序设计和数据库建模工作。

可通过 javer@163.com 或 memncmp@yahoo.com.cn 和

他联系。

文档选项

打印本页

将此页作为电子邮件

发送

级别：初级

施聪 (memncmp@yahoo.com.cn), 高级程序员、网络设计师

2004 年 12 月 01 日

本文讨论了 UNIX/LINUX 平台下三种主要的可执行文件格式：a.out（assembler

and link editor output 汇编器和链接编辑器的输出）、COFF（Common Object File

Format 通用对象文件格式）、ELF（Executable and Linking Format 可执行和链

接格式）。首先是对可执行文件格式的一个综述，并通过描述 ELF 文件加载过

程以揭示可执行文件内容与加载运行操作之间的关系。随后依此讨论了此三种文

件格式，并着重讨论 ELF 文件的动态连接机制，其间也穿插了对各种文件格式

优缺点的评价。最后对三种可执行文件格式有一个简单总结，并提出作者对可文

件格式评价的一些感想。

可执行文件格式综述

相对于其它文件类型，可执行文件可能是一个操作系统中最重要的文件类型，因

为它们是完成操作的真正执行者。可执行文件的大小、运行速度、资源占用情况

以及可扩展性、可移植性等与文件格式的定义和文件加载过程紧密相关。研究可

执行文件的格式对编写高性能程序和一些黑客技术的运用都是非常有意义的。

不管何种可执行文件格式，一些基本的要素是必须的，显而易见的，文件中应包

含代码和数据。因为文件可能引用外部文件定义的符号（变量和函数），因此重

定位信息和符号信息也是需要的。一些辅助信息是可选的，如调试信息、硬件信

息等。基本上任意一种可执行文件格式都是按区间保存上述信息，称为段

（Segment）或节（Section）。不同的文件格式中段和节的含义可能有细微区别，

但根据上下文关系可以很清楚的理解，这不是关键问题。最后，可执行文件通常

都有一个文件头部以描述本文件的总体结构。

相对可执行文件有三个重要的概念：编译（compile）、连接（link，也可称为链

接、联接）、加载（load）。源程序文件被编译成目标文件，多个目标文件被连

接成一个最终的可执行文件，可执行文件被加载到内存中运行。因为本文重点是

讨论可执行文件格式，因此加载过程也相对重点讨论。下面是 LINUX 平台下 ELF

文件加载过程的一个简单描述。

1：内核首先读 ELF 文件的头部，然后根据头部的数据指示分别读入各种数据结

构，找到标记为可加载（loadable）的段，并调用函数 mmap()把段内容加载到

内存中。在加载之前，内核把段的标记直接传递给 mmap()，段的标记指示该段

在内存中是否可读、可写，可执行。显然，文本段是只读可执行，而数据段是可

读可写。

这种方式是利用了现代操作系统和处理器对内存的保护功能。

著名的

Shellcode（参考资料 17）的编写技巧则是突破此保护功能的一个实际例子。

2：内核分析出 ELF 文件标记为 PT_INTERP 的段中所对应的动态连接器名称，

并加载动态连接器。现代 LINUX 系统的动态连接器通常是 /lib/ld-linux.so.2，

相关细节在后面有详细描述。

3：内核在新进程的堆栈中设置一些标记-值对，以指示动态连接器的相关操作。

4：内核把控制传递给动态连接器。

5：动态连接器检查程序对外部文件（共享库）的依赖性，并在需要时对其进行

加载。

6：动态连接器对程序的外部引用进行重定位，通俗的讲，就是告诉程序其引用

的外部变量/函数的地址，此地址位于共享库被加载在内存的区间内。动态连接

还有一个延迟（Lazy）定位的特性，即只在"真正"需要引用符号时才重定位，这

对提高程序运行效率有极大帮助。

7：动态连接器执行在 ELF 文件中标记为 .init 的节的代码，进行程序运行的初

始化。在早期系统中，初始化代码对应函数 _init(void)(函数名强制固定)，在现

代系统中，则对应形式为

void

__attribute((constructor))

init_function(void)

{

……

}

其中函数名为任意。

8：动态连接器把控制传递给程序，从 ELF 文件头部中定义的程序进入点开始

执行。在 a.out 格式和 ELF 格式中，程序进入点的值是显式存在的，在 COFF

格式中则是由规范隐含定义。

从上面的描述可以看出，加载文件最重要的是完成两件事情：加载程序段和数据

段到内存；进行外部定义符号的重定位。重定位是程序连接中一个重要概念。我

们知道，一个可执行程序通常是由一个含有 main() 的主程序文件、若干目标文

件、若干共享库（Shared Libraries）组成。（注：采用一些特别的技巧，也可编

写没有 main 函数的程序，请参阅参考资料 2）一个 C 程序可能引用共享库定

义的变量或函数，换句话说就是程序运行时必须知道这些变量/函数的地址。在

静态连接中，程序所有需要使用的外部定义都完全包含在可执行程序中，而动态

连接则只在可执行文件中设置相关外部定义的一些引用信息，真正的重定位是在

程序运行之时。静态连接方式有两个大问题：如果库中变量或函数有任何变化都

必须重新编译连接程序；如果多个程序引用同样的变量/函数，则此变量/函数会

在文件/内存中出现多次，浪费硬盘/内存空间。比较两种连接方式生成的可执行

文件的大小，可以看出有明显的区别。

a.out 文件格式分析

a.out 格式在不同的机器平台和不同的 UNIX 操作系统上有轻微的不同，例如在

MC680x0 平台上有 6 个 section。下面我们讨论的是最"标准"的格式。

a.out 文件包含 7 个 section，格式如下：

exec header（执行头部，也可理解为文件头部）

text segment（文本段）

data segment(数据段)

text relocations(文本重定位段)

data relocations（数据重定位段）

symbol table（符号表）

string table（字符串表）

执行头部的数据结构：

struct exec {

unsigned long a_midmag; /* 魔数和其它信息 */

unsigned long a_text; /* 文本段的长度 */

unsigned long a_data; /* 数据段的长度 */

unsigned long a_bss; /* BSS 段的长度 */

unsigned long a_syms; /* 符号表的长度 */

unsigned long a_entry; /* 程序进入点 */

unsigned long a_trsize; /* 文本重定位表的长度 */

unsigned long a_drsize; /* 数据重定位表的长度 */

};

文件头部主要描述了各个 section 的长度，比较重要的字段是 a_entry（程序进

入点），代表了系统在加载程序并初试化各种环境后开始执行程序代码的入口。

这个字段在后面讨论的 ELF 文件头部中也有出现。由 a.out 格式和头部数据结

构我们可以看出，a.out 的格式非常紧凑，只包含了程序运行所必须的信息（文

本、数据、BSS），而且每个 section 的顺序是固定的。这种结构缺乏扩展性，

如不能包含"现代"可执行文件中常见的调试信息，最初的 UNIX 黑客对 a.out

文件调试使用的工具是 adb，而 adb 是一种机器语言调试器！

a.out 文件中包含符号表和两个重定位表，这三个表的内容在连接目标文件以生

成可执行文件时起作用。在最终可执行的 a.out 文件中，这三个表的长度都为

0。a.out 文件在连接时就把所有外部定义包含在可执行程序中，如果从程序设

计的角度来看，这是一种硬编码方式，或者可称为模块之间是强藕和的。在后面

的讨论中，我们将会具体看到 ELF 格式和动态连接机制是如何对此进行改进的。

a.out 是早期 UNIX 系统使用的可执行文件格式，由 AT&T 设计，现在基本上

已被 ELF 文件格式代替。a.out 的设计比较简单，但其设计思想明显的被后续

回页首

剩余11页未读，继续阅读

评论收藏

内容反馈

UNIX，linux平台可执行文件格式分析1

评论0

最新资源

UNIX，linux平台可执行文件格式分析1

评论0

最新资源

相关推荐

UNIX/Linux平台上可执行文件格式分析

UNIX/LINUX 平台可执行文件格式分析.doc

可执行文件格式分析与应用

UNIX/LINUX 平台可执行文件加载过程

Linux与UNIX系统可执行文件兼容性的研究与实现.pdf

UNIX/LINUX及其使用环境

linux/mac jad可执行文件

unix-dos 文本转换工具

sh2bin:在android或linux系统平台上，将shell脚本打包到可执行文件bin

linux与UNIX调度算法比较分析.docx

PortEx:Java库，用于分析可移植的可执行文件，特别侧重于恶意软件分析和PE格式不正确的鲁棒性

LINUX.UNIX系统编程手册（下册）

史上图形最简单Linux-Unix-Windows批量管理服务器软件工具

Linux内核源代码情景分析 (上下册 高清非扫描 )

ubuntu/linux下实现自己的命令

Linux/UNIX系统编程手册.part1

可执行文件压缩软件，含源代码，减小可执行文件（含dll）的大小

从Linux程序中执行shell（程序、脚本）并获得输出结果

linux内核源代码情景分析

Linux/UNIX系统编程手册.part2

史上图形最简单Linux-Unix批量管理服务器软件工具

linux aarch64架构libreoffice安装包

（牛客网C++课程）Linux 高并发Web服务器项目实战（带定时检测代码）

Linux项目设计_媒体播放器(6818).rar

openssh-server离线安装包

jdk-8u371-linux-x64.tar.gz

VisualGDB 5.6 R9//支持VS2008-VS2022

linux下nginx离线安装包及相关依赖包（附教程）

Linux内核源代码情景分析 (上下册高清非扫描 )