题目：恶意 PDF 文件解析思路

作者：Cryin'

时间：2010/12/03

链接：https://github.com/Cryin/PDFTear

概述

对于 PDF 文件的解析，必须先要熟悉 PDF 文件各式，貌似所有官方的 PDF 文件各式文档都

是英文的。这样就没办法了，硬着头皮去读呗，如果你对自己的英语构自信那就到这里看吧

参考[1]。除此之外就只能找一些国内撰写的相关资料了。熟悉了 PDF 文件各式之后，怎么

解析 PDF 文件呢？我目前的办法是查找 PDF 文件里面的关键字段，这样做的弊端是对于

Obj 对象里的数据流对象(stream)包含的内容是没办法查找的。另外也有一些 PDF 漏洞文件

使用了一些混淆技术，这样的 PDF 文件暂时就没有什么好办法解析了。如下面的情况：

%PDF-1.5

1 0 obj

<</#54#79P#65 R 0 5 O#70e#6e#41c#74i#6fn 3 Pages C#61ta#6c#6f#67>>

endobj

关键字

这里就考虑一般的恶意 PDF 文件，主要是对以下关键字段(个人认为和漏洞不牵扯关系的就

不考虑了)进行查找和解析，如下面所示：

·obj

·endobj

·stream

·endstream

·xref

·trailer

·startxref

·/Page

·/Encrypt

·/ObjStm

·/JS

·/JavaScript

·/AA

·/OpenAction

·/ AcroForm

·/URI

·/Filter

·/JBIG2Decode

·/RichMedia

·/Launch

恶意PDF文件解析思路1

评论0

Worse-PDF:将普通的PDF文件转换为恶意文件。用于从Windows机器上窃取Net-NTLM哈希

用C#来解析PDF文件

java解析PDF文件

PDF.js 解析PDF文件demo

pdf文件解析，用文件流方式处理

利用mui框架和pdf.js插件实现pdf文件解析与查看

完美封装word excel ppt pdf文件解析包，生成手机页面

PDF本地解析Demo

java创建和解析PDF

Unity解析并浏览PDF文件

PDF文件主结构解析

C++解析PDF文件

一种解析PDF文件的源代码

Qt读取Pdf文件Demo

IText解析PDF文件

PDF结构解析

PDF文件解析工具及说明文档

PyPDF2解析pdf文件提取内容插入数据库

Java解析PDF文件源代码(代码中有详细注释)

PDF文件结构参考(v1.3-v1.7)

VM-Pro通用化视觉系统框架V1.6

net framework4.0和4.5开发包（用于visual studio 2022 安装net旧版本）

串口侦听 串口监听 不占用串口 不占用串口的监听

【C#源码】TCP+串口通信的调试工具 （源码+教学视频）

C# 读取西门子S7系列PLC教程及源码 Profinet

用c# 自己封装的Modbus工具类库源码

C#含有ModbusRtu通讯库，通讯示例 硬件设备测试例程

C#源码 上位机 SECS协议，里面包含各种进制转换，用于半导体行业，程序全源码

基于C#与Sql Server的智慧星学生选课管理系统.rar

最新资源

串口侦听串口监听不占用串口不占用串口的监听

【C#源码】TCP+串口通信的调试工具（源码+教学视频）

C#含有ModbusRtu通讯库，通讯示例硬件设备测试例程

C#源码上位机 SECS协议，里面包含各种进制转换，用于半导体行业，程序全源码