没有合适的资源?快使用搜索试试~ 我知道了~
2021-分布式深度学习隐私与安全攻击研究进展与挑战1
需积分: 0 1 下载量 195 浏览量
2022-08-03
20:20:29
上传
评论
收藏 2.88MB PDF 举报
温馨提示
试读
17页
摘要不同于集中式深度学习模式,分布式深度学习摆脱了模型训练过程中数据必须中心化的限制,实现了数据的本地操作,允许各方参与者在不交换数据的情况下进行协作,显著降低
资源详情
资源评论
资源推荐
计 算 机 研 究 与 发 展
DOI
:
10.7544∕issn1000G1239.2021.20200966
JournalofCom
p
uterResearchandDevelo
p
ment 58
(
5
):
927 943
,
2021
收稿日期
:
2020
-
11
-
25
;
修回日期
:
2021
-
02
-
09
基金项目
:
国家自然科学基金项目
(
62072239
,
62002167
);
广西可信软件重点实验室研究课题
(
KX202029
);
中央高校基本科研业 务费专 项资
金
(
30920021129
)
Thiswork wassu
pp
orted b
y
the NationalNaturalScience Foundation ofChina
(
62072239
,
62002167
),
the Guan
g
xiKe
y
Laborator
y
ofTrustedSoftware
(
KX202029
),
andtheFundamentalResearchFundsfortheCentralUniversities
(
30920021129
)
.
通信作者
:
付安民
(
fuam@n
j
ust.edu.cn
)
分布式深度学习隐私与安全攻击研究进展与挑战
周 纯 毅
1
,
2
陈 大 卫
1
王
尚
1
付 安 民
1
,
2
高 艳 松
1
1
(
南京理工大学计算机科学与 工程学 院
南京
210094
)
2
(
桂林电子科技大学广西可信 软件重 点实验 室
广西桂林
541004
)
(
zhouchun
y
i@n
j
ust.edu.cn
)
ResearchandChallen
g
eofDistributedDee
p
Learnin
g
Privac
y
andSecurit
y
Attack
ZhouChun
y
i
1
,
2
,
ChenDawei
1
,
Wan
g
Shan
g
1
,
FuAnmin
1
,
2
,
andGaoYanson
g
1
1
(
Schoolo
f
Com
p
uterScienceandEn
g
ineerin
g
,
Nan
j
in
g
Universit
y
o
f
Science
&
Technolo
gy
,
Nan
j
in
g
210094
)
2
(
Guan
g
xiKe
y
Laborator
y
o
f
TrustedSo
f
tware
,
GuilinUniversit
y
o
f
ElectronicTechnolo
gy
,
Guilin
,
Guan
g
xi
541004
)
Abstract Differentfromthecentralizeddee
p
learnin
g
mode
,
distributeddee
p
learnin
gg
etsridofthe
limitationthatthedatamustbecentralizeddurin
g
themodeltrainin
gp
rocess
,
whichrealizesthelocal
o
p
eration ofthe data
,
and allows all
p
artici
p
ants to collaborate without exchan
g
in
g
data.It
si
g
nificantl
y
reducestheriskofuser
p
rivac
y
leaka
g
e
,
breaksthedataislandfromthetechnicallevel
,
andim
p
rovestheefficienc
y
ofdee
p
learnin
g
.Distributeddee
p
learnin
g
canbewidel
y
usedinsmart
medicalcare
,
smartfinance
,
smartretailandsmarttrans
p
ortation.However
,
t
yp
icalattackssuchas
g
enerativeadversarialnetworkattacks
,
membershi
p
inferenceattacksandbackdoorattacks
,
have
revealedthatdistributeddee
p
learnin
g
stillhasserious
p
rivac
y
vulnerabilitiesandsecurit
y
threats.
This
p
a
p
erfirstcom
p
aresandanal
y
zesthecharacteristicsofthethreedistributeddee
p
learnin
g
modes
andtheircore
p
roblems
,
includin
g
collaborativelearnin
g
,
federatedlearnin
g
ands
p
litlearnin
g
.
Secondl
y
,
from the
p
ers
p
ectiveof
p
rivac
y
attacks
,
itcom
p
rehensivel
y
ex
p
oundsvarioust
yp
esof
p
rivac
y
attacksfacedb
y
distributeddee
p
learnin
g
,
andsummarizestheexistin
gp
rivac
y
attackdefense
methods.Atthesametime
,
fromthe
p
ers
p
ectiveofsecurit
y
attacks
,
the
p
a
p
eranal
y
zestheattack
p
rocessandinherentsecurit
y
threatsofthethreesecurit
y
attacks
:
data
p
oisonin
g
attacks
,
adversarial
sam
p
leattacks
,
andbackdoorattacks
,
andanal
y
zestheexistin
g
securit
y
attackdefensetechnolo
gy
fromthe
p
ers
p
ectivesofdefense
p
rinci
p
les
,
adversar
y
ca
p
abilities
,
anddefenseeffects.Finall
y
,
from
the
p
ers
p
ectiveof
p
rivac
y
andsecurit
y
attacks
,
thefutureresearchdirectionsofdistributeddee
p
learnin
g
arediscussedand
p
ros
p
ected.
Ke
y
words dee
p
learnin
g
;
distributeddee
p
learnin
g
;
p
rivac
y
attack
;
p
rivac
yp
rotection
;
backdoor
attack
摘
要
不同于集中式深度学习模式
,
分布式深度学 习 摆 脱 了模 型训练 过程中 数据必 须中 心 化的 限 制
,
实现了数据的本地操作
,
允许各方参与者在不交换数据的情况下进行协作
,
显著降低了用户隐私泄露风
险
,
从技术层面可以打 破 数 据 孤 岛
,
显 著 提 升 深 度 学 习 的 效 果
,
能 够 广 泛 应 用 于 智 慧 医 疗
、
智 慧 金 融
、
智慧零售和智慧交通等领域
.
但生成对抗式网络攻击
、
成员推理攻击和后门攻击等典型攻击揭露了分布
式深度学习依然存在严重隐私漏洞和安全威胁
.
首先对比分析了联合学习
、
联邦学习和分割学习
3
种主
流的分布式深度学习模式特征及其存在的 核心 问题
.
其次
,
从隐 私 攻击 角 度
,
全面 阐 述了 分 布式 深度学
习所面临的各类隐私攻击
,
并归纳和分析了现有隐私攻击防御手段
.
同时
,
从安全攻击角度
,
深入剖析了
数据投毒攻击
、
对抗样本攻击和后门攻 击
3
种安 全 攻 击 方 法 的 攻 击 过 程 和 内 在 安 全威 胁
,
并从 敌 手 能
力
、
防御原理和防御效果等方面对现有安全攻击防御技术进行了度量
.
最后
,
从隐私与安全攻击角度
,
对
分布式深度学习未来的研究方向进行了讨论和展望
.
关键词
深度学习
;
分布式深度学习
;
隐私攻击
;
隐私保护
;
后门攻击
中图法 分类号
TP391
近年来 全球 掀 起 人 工 智 能 研 发 浪 潮
,
美 国
、
日
本
、
英国
、
德国等世界科技强国纷纷将人工智能上升
为国家战略
,
力图在 新一 轮 国 际 科 技 竞 争 中 掌 握 主
导权
.2017
年 我 国 发布 了
«
新 一 代 人 工 智 能 发 展 规
划
»,
明确 提 出 要 抢抓 人工 智 能 发 展 的 重 大 战 略 机
遇
,
构筑我国人工智能发展的先发优势
,
加快建设创
新型国家
.
深度 学 习 作 为 实 现 人 工 智 能 的 一 种 重 要
方法
,
通过海量训练 数 据 构 建 具 有 很 多 隐 层 的深 度
学习模型
,
获得强大的数据特征学习能力
.
在深度学
习过程中
,
普遍认为训练数据量越大
,
训练得到的模
型的鲁棒性和准确性越高
[
1
]
.
因此
,
深度学习 通 常需
要着重考虑数据的 多 源 性
,
即通 过 汇聚 各 个 机 构 或
者用户数据完成整 体 计 算 任 务
,
以提 高 训练 模 型 的
准确性
.
但在深度学习模型训练过程中
,
运营商可能
会窃取用户的隐私信息
.
同时
,
公司之间的数据共享
需要用户的授权
,
而许 多 用户 出 于 隐 私 泄 露 的 顾 虑
而拒绝数据共享
.
这些因素会导致
“
数据孤岛
”,
难以
创造出
“
1+1>2
”
的 数 据 价 值
[
2
]
.
因 此
,
随 着 各 国 法
律法规对于隐私信息使用的严格限制和公众隐私保
护意识的加强
,
如何在 保 护 数 据 隐 私 的 前 提 下 实 现
行业协作与协同治 理
,
如何 破 解数 据 隐 私 保 护 与 数
据孤岛的两难困境
,
成为 当 下深 度 学 习 应 用 中 亟 待
解决的技术难题
.
不同于 传 统的 集 中式 深度学 习
,
分布式 深度 学
习通过将深度学习 与 协 作 性 模 型 相 结 合
,
使各 个 机
构或者用户在不交换数据的情况下进行协作训练并
获得更加精准 的深 度 学 习 模 型
[
3
]
,
以便 在 满足 隐 私
保护和数据 安 全 的 前 提 下 实 现 数 据 的 有 效 利 用
[
4
]
.
分布式深度学习模型将模型训练过程从云端转移至
用户端
,
允许各方参 与 者 在 不 暴 露 数 据 的 情况 下 完
成 训 练
,
降 低 了 用 户 隐 私 泄 露 风 险
[
5G6
]
和 通 信 开
销
[
7
]
,
从技术层面可以打破数据孤岛
,
明显提高深度
学习的性能
,
能够实现多个领域的落地应用
,
比如智
慧医疗
、
智慧 金 融
、
智 慧 零 售 和 智 慧 交 通 等
[
8
]
.
分 布
式深度学习作为大 数 据 使 用 的 新 范 式
,
是破 解 数据
隐私保护与数据孤 岛 难 题 的 新 思 路
,
一经 提 出就 成
为国际学术界和 产 业 界 关 注 的 焦 点
.
图
1
展 示 了 集
中式深度学习和分布式深度学习训练模式的区别
.
Fi
g
.1 Centralizeddee
p
learnin
g
anddistributeddee
p
learnin
g
图
1
集中式深度学习与分布式深 度学习
海量的用户数据
、
丰富的应用场景促进了分布式
深度学习技术的蓬勃发展
,
但生成对抗式网络攻击
、
成员推理攻击和属性推理攻击等隐私攻击揭露了分
布式深度 学习依 然存 在 严重 隐 私 漏 洞
[
5
]
.
在
2017
年
829
计算机研究与发展
2021
,
58
(
5
)
的计算机和通信安全
(
ACM ConferenceonCom
p
uter
andCommunicationsSecurit
y
)
会 议 上
,
Hita
j
等 人
[
9
]
设计了一种基于生成式对抗网络攻击的新型隐私攻
击方式
.
攻击者伪装成正常用户加入模型训练后
,
可
以基于生成式对抗网络的方法获得其他参与训练者
的数据仿 真 集
,
极 大 地 威 胁 到 用 户 的 数 据 安 全
.
同
时
,
Shokri
等人
[
10
]
提出了一种称为成员推理攻击的
隐私攻击方法
.
攻 击 者 通 过 训 练 多 个 影 子 分 类 器 为
攻击模型提供训练 集
,
训练 好 的攻 击 模 型 可 以 输 出
某条记录是否在目标训练集中
.
最近
,
文献
[
11
]
又提
出了一种属性推理 攻 击
,
可以 在 攻击 者 仅 拥 有 训 练
集子集的情况下获 取 用 户 数 据 集 的各 类 属性 信 息
,
如性别分布
、
年龄分布
、
收入分布 等
.
可见
,
在分布 式
深度学习模式下
,
攻击 者 依然 可 以 通 过 生 成 式 对 抗
网络攻击等一系列典型隐私攻击方式获取用户的隐
私数据信息
.
另一方面
,
在现有的分布式深度学习 框
架中
,
参与者在本地 训 练 模 型 并 向 云 服 务 器 共享 明
文梯度
.
由于无法监管参与者在本地的训练行为
,
使
得分布式学习容易 遭 受 数 据 投 毒
、
对抗 样 本和 后 门
攻击的威胁
.
怀有恶意的参与 者
,
在训练过程中可以
利用数据投毒攻击
,
有目 的 性地 更 改 本 地 数 据 的 标
签
,
上传
“
有毒
”
的梯度
,“
污染
”
协作 训 练的 模 型
,
使
得模型预测结 果 准 确 率 下 降
.
此 外 攻 击 者 可 以 上 传
后门本地模型
,
替换全局模型
,
以便模型有更高的概
率输出攻击者的目标标签
[
12
]
.
综上所 述
,
分布式 深度 学 习是 破解数 据隐私 保
护与数据孤岛难题的新思 路
[
13
]
,
但其依 然 面临 严 重
隐私漏洞和安 全 威 胁
.
本 文 系 统 研 究 和 分 析 了 分 布
式深度学习面临的 隐 私 与 安 全 攻 击 问 题
,
主要 包 含
4
个方面内容
:
1
)
对比分析了联合学习
、
联邦学习和分割学习
3
种主 流 的分 布 式 深 度 学 习 模 式
,
归纳 总 结了 它 们
各自特征及其存在的核心问题
;
2
)
从隐私攻击角度
,
全面阐述了分布式深度学
习所面临的各类隐 私 攻 击
,
并归 纳 和分 析 了 差 分 隐
私
、
同态加密和安全多方计算等隐私攻击防御手段
;
3
)
从 安 全 攻 击 角 度
,
深 入 剖 析 了 数 据 投 毒 攻
击
、
对抗样本攻击和 后 门 攻 击
3
种安 全 攻击 方 法 的
攻击过程和内在安全威胁
,
并从数据集
、
模型输入和
模型训练角度对现有的安全防御技术进行了归纳与
总结
;
4
)
针对现有 的 隐 私 和 安 全 攻 击 与 防 护 研 究 中
存在的主要问题
,
讨论 和 指出 了 分 布 式 深 度 学 习 领
域下一步可能的研究方向
.
1
分布式深度学习概述
分布式深度学习无需用户上传本地数据就可以
协作完成模型训练
,
消除 了 用户 关 于 数 据 云 端 存 储
不可控的担忧
,
缓解了 传 统 集 中 式 深 度 学 习 收 集 用
户数据所带来的隐私泄露问题
.
从训练模式上来看
,
分布式深度学习目 前 主 要 有 联 合 学 习
、
联邦 学 习和
分割学习
3
种
.
1.1
联合学习
联合 学 习 首 次 由
Shokri
等 人
[
14
]
于
2015
年 提
出
,
它打破了集中式深度学习的固有模式
.
如图
2
所
示
,
在这种训练模式下
,
云服务器首先收集一批用户
的数据集训练初始 的 全 局 模 型
,
然后 参 与联 合 学 习
的第
1
个用户下载初始模型并基于自己的数据集使
用随 机 梯 度 下 降 法
(
stochastic
g
radientdescent
,
SGD
)
在本 地 训练 模 型
.
训练 结 束后
,
该用 户 按照 一
定比例随机选择部分模型参数上传到云服务器完成
全局模型的更新
.
当第
1
个用户上传完毕后
,
下一个
用户下载新的全局 模 型
,
并重 复 上述 的 训 练 和 上 传
操作
,
这个过程将持 续 到 模 型 收 敛 或 达 到 预 先设 定
的迭代次数
.
Fi
g
.2 Trainin
g
modeofcollaborativelearnin
g
图
2
联合学习训练模式
然而
,
由于联 合学 习 的训 练流程 是每个 用户异
步进行的
,
因此当网 络 拥塞 或 用 户 离 线 时 会 导 致 全
局参数无法顺利更新
,
其余用户会进入等待状态
,
训
练效率可能会受到严重的影响
.
1.2
联邦学习
联邦学习
[
15
]
在
2017
年由
Goo
g
le
提出
,
它改进
929
周纯毅等
:
分布式深度学习隐私与安全 攻击研 究进展 与挑战
剩余16页未读,继续阅读
张匡龙
- 粉丝: 17
- 资源: 279
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0