2023年最新LLM大语言模型综述文章

需积分: 5 147 浏览量 2023-08-05 17:29:47 上传评论 2 收藏 2MB PDF 举报

2023年最新LLM大语言模型综述文章大语言模型(LLM)是近年来人工智能领域的热门话题，它们可以处理大量数据，学习到丰富的语言知识，并生成高质量的文本。然而，随着LLM的广泛应用，安全风险也随之增加。本报告将对LLM的大语言模型进行综述，着重介绍提示注入攻击的安全风险分析报告。 1. 提示和提示学习在LLM中，提示是一种特殊的输入格式，可以指导模型生成特定的文本。提示学习是指模型通过学习大量数据，学习到提示的模式和结构，从而生成高质量的文本。然而，这种学习方式也存在安全风险，因为攻击者可以通过恶意的提示来控制模型的输出。 2. 提示注入攻击提示注入攻击是一种类型的攻击，攻击者可以通过恶意的提示来控制模型的输出，从而实现攻击的目的。这种攻击可以分为两类：直接提示注入和间接提示注入。 2.1 直接提示注入直接提示注入是指攻击者直接向模型输入恶意的提示，以控制模型的输出。这类攻击可以分为目标劫持、提示泄露和越狱攻击三个方面。 * 目标劫持：攻击者可以通过恶意的提示来劫持模型的输出，迫使模型生成攻击者想要的结果。 * 提示泄露：攻击者可以通过恶意的提示来泄露模型的内部状态，从而获取模型的敏感信息。 * 越狱攻击：攻击者可以通过恶意的提示来越狱模型的安全机制，从而获得模型的控制权。 2.2 间接提示注入间接提示注入是指攻击者通过其他方式来控制模型的输出，而不是直接输入恶意的提示。这类攻击可以通过输入侧的攻击来实现。 3. 提示注入防御为了防御提示注入攻击，需要采取相应的防御措施。这些措施可以分为输入侧防御和模型侧防御两类。 * 输入侧防御：可以通过输入侧的检测和过滤来防御提示注入攻击。 * 模型侧防御：可以通过模型的设计和训练来防御提示注入攻击。 4. 结论 LLM的大语言模型在实现高质量文本生成的同时，也存在着安全风险。为了防御提示注入攻击，需要采取相应的防御措施，确保模型的安全和可靠性。在今后的研究中，我们需要继续关注LLM的大语言模型的安全问题，提高模型的安全性和可靠性。

资源推荐

资源详情

资源评论

大语言模型提示注入攻击安全

风险分析报告

大数据协同安全技术国家工程研究中心

2023 年 7 月 6 日

安全大脑国家新一代人工智能开放创新平台

 
 
目录 
 引言 ............................................................................................................... 1 
 提示与提示学习 ........................................................................................... 3 
1  提示的概念 ............................................................................................................ 3 
2  提示学习的概念 .................................................................................................... 6 
 提示注入攻击 ............................................................................................... 7 
1 直接提示注入 ......................................................................................................... 7 
1.1  目标劫持....................................................................................................................... 7 
1.2  提示泄露....................................................................................................................... 9 
1.3  越狱攻击..................................................................................................................... 11 
2  间接提示注入 ...................................................................................................... 15 
 提示注入防御 ............................................................................................. 19 
1 输入侧防御 ........................................................................................................... 19 
1.1 提示过滤...................................................................................................................... 19 
1.2 提示增强...................................................................................................................... 22 
2 输出侧防御 ........................................................................................................... 27 
2.1 内容审核过滤 .............................................................................................................. 27 
 测评数据集构建 ......................................................................................... 30 
1 基础数据集构建 ................................................................................................... 30 
1.1 越狱攻击验证数据集 .................................................................................................. 30 
1.2 目标劫持验证数据集 .................................................................................................. 32 
1.3 提示泄露验证数据集 .................................................................................................. 33 
2 测评数据集生成 ................................................................................................... 35 
2.1 恶意问题数据生成 ...................................................................................................... 35 
2.2 恶意指令数据生成 ...................................................................................................... 36