ChatGPT潜在的八大“安全隐患”洞察资源-CSDN文库

共2个文件

txt：1个

docx：1个

需积分: 1 36 浏览量 2023-04-20 10:26:45 上传评论收藏 1.26MB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

ChatGPT潜在的八大“安全隐患”洞察.rar （2个子文件）

ChatGPT潜在的八大“安全隐患”洞察.docx 1.31MB

ChatGPT潜在的八大“安全隐患”洞察.txt 0B

全文共 5262 字，阅读大约需要 10 分钟。

一. 概述

当前，AI 的运用与监管备受社会关注。近日，国家互联网信息办公室发布《生成

式人工智能服务管理办法（征求意见稿）》，以期促进生成式人工智能技术健康

发展与规范应用，拉开国内对大预言模型监管的序幕。

随着 ChatGPT 等通用人工智能的革命性突破，AI 技术已成为数字经济时代的核心

驱动力、产业转型升级的重要支撑。然而强劲发展势头下，AI 不可避免会遭遇“成

长烦恼”。本文主要介绍了 ChatGPT 潜在的八大安全隐患，包括隐私数据泄露、

模型窃取、数据重构、成员推断攻击、数据投毒、Prompt Injection 攻击、模型劫

持攻击以及海绵样本攻击，呼吁 ChatGPT 自身的安全隐患不容忽视。

二、ChatGPT 面临的自身安全问题

传统的网络安全手段难以迁移到对 AI 模型安全的保护中，AI 模型所面临的攻击

面相较于传统网络空间是不同的、全新的。

对 MLaaS（机器学习即服务）提供商来说，为了保障人工智能模型和数据相关隐

私，对外仅开放 API 接口提供服务，想要使用模型服务的用户没有机会直接接触

到模型和数据。但由于 AI 模型的特性，在数据本身未遭到泄露的情况下，攻击

者可能仅根据模型输出，通过成员推断攻击、数据重构攻击等，推断出训练数据

的某种属性或恢复训练数据，也能够通过模型窃取重现模型功能与参数。模型输

出易获得的特点决定了 AI 模型相关的隐私泄露很难避免。同时，在模型生命周

期的各个阶段，AI 模型都面临着安全威胁，例如，在训练阶段，通过数据投毒方

式，攻击者使用对抗样本降低模型精度，也可以用后门攻击触发模型的特定行为；

在推理阶段，攻击者通过逃逸攻击误导模型的决策过程。

ChatGPT 作为大型语言模型，在模型的训练、推理、更新阶段采用的策略和过程

上较一般通用模型都要更复杂，越复杂的 AI 系统意味着越多的潜在安全威胁，

ChatGPT 可能会受到多种攻击的影响。以下对 ChatGPT 潜在的安全风险进行介绍。

2.1

隐私数据泄露

OpenAI 在隐私政策中提到，ChatGPT 会收集用户账户信息、对话相关的所有内容、

互动中网页内的各种隐私信息（Cookies、日志、设备信息等），这些信息可能

会被共享给供应商、服务提供商以及附属公司，数据共享过程可能会有未经授权

的攻击者访问到模型相关的隐私数据，包括训练/预测数据（可能涵盖用户信息）

泄露，模型架构、参数、超参数等。

图 1 ChatGPT 官网隐私政策[1]

除了 ChatGPT 自身的隐私泄露风险，近期也出现了利用 ChatGPT 热度对用户隐私

实施窃取攻击的活动。比如，Github 上非官方的开源 ChatGPT 桌面应用项目被发

现植入高危险性木马，用户一旦运行了安装的可执行文件，就会泄露自己的账户

凭证、浏览器 Cookies 等敏感信息，为避免更多的用户中招，该开源项目现已更

改了下载地址。

图 2 开源项目 https://github.com/lencx/ChatGPT 面临木马后门攻击[2]

2.2

模型窃取

文献显示[3,4]，在一些商用 MLaaS（机器学习即服务）上，攻击者通过请求接口，

能窃取到模型结构、模型参数、超参数等隐私信息。模型窃取的价值在于，一旦

攻击者得到目标模型的功能、分布等信息，就可以免于目标模型的收费或以此作

为服务或获取收益，甚至可以基于窃取到的模型对目标模型实施白盒攻击。

图 3 BERT 模型窃取[5]

上图 3 展示了针对 BERT 模型的窃取方案，攻击者首先设计问题来问询目标黑盒

BERT 模型，再根据目标模型的回答来优化训练自己的模型，使自己的模型与目

标 BERT 模型的表现接近。

对 ChatGPT 这样上千亿参数的大体量模型，窃取其完整的功能可能并不现实，一

是大多公司支撑不起 ChatGPT 所需要的设备、电力成本要求，二是业务可能不涉

及 ChatGPT 涵盖的所有领域，因此可以按需针对某一领域进行功能窃取，例如，

攻击者根据目标任务领域，准备大量领域内相关问题，将问题和 ChatGPT 的回答

作为输入，借助知识迁移策略训练本地体积更小的模型，在该领域的效果达到与

ChatGPT 近似的效果，窃取 ChatGPT 的特定功能。

图 4 甲状腺癌相关的问答作为本地模型的输入，可以训练一个甲状腺癌方向的

专业模型

2.3

数据重构

数据重构攻击旨在恢复目标模型的部分或全部训练数据。例如，通过模型反演对

模型接口上获取的信息进行逆向重构，恢复训练数据中的生物特征、病诊记录等

用户敏感信息，如下图 5 所示。

内容反馈

程序员三石

粉丝: 37
资源: 370

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip