目录
1. 引言 ............................................................................................................... 1
2. 提示与提示学习 ........................................................................................... 3
2.1 提示的概念 ............................................................................................................ 3
2.2 提示学习的概念 .................................................................................................... 6
3. 提示注入攻击 ............................................................................................... 7
3.1 直接提示注入 ......................................................................................................... 7
3.1.1 目标劫持....................................................................................................................... 7
3.1.2 提示泄露....................................................................................................................... 9
3.1.3 越狱攻击..................................................................................................................... 11
3.2 间接提示注入 ...................................................................................................... 15
4. 提示注入防御 ............................................................................................. 19
4.1 输入侧防御 ........................................................................................................... 19
4.1.1 提示过滤...................................................................................................................... 19
4.1.2 提示增强...................................................................................................................... 22
4.2 输出侧防御 ........................................................................................................... 27
4.2.1 内容审核过滤 .............................................................................................................. 27
5. 测评数据集构建 ......................................................................................... 30
5.1 基础数据集构建 ................................................................................................... 30
5.1.1 越狱攻击验证数据集 .................................................................................................. 30
5.1.2 目标劫持验证数据集 .................................................................................................. 32
5.1.3 提示泄露验证数据集 .................................................................................................. 33
5.2 测评数据集生成 ................................................................................................... 35
5.2.1 恶意问题数据生成 ...................................................................................................... 35
5.2.2 恶意指令数据生成 ...................................................................................................... 36