【免费】联邦学习隐私保护机制综述(原版)1

机器学习

分布式

需积分: 0 112 浏览量 2022-08-08 21:26:45 上传评论 1 收藏 258KB DOCX 举报

资源详情

资源评论

资源推荐

联邦学习隐私保护机制综述

摘要：随着数据孤岛的出现和隐私意识的增强，传统的中心化的机器学习模式遇到了

一系列挑战。联邦学习作为一种新兴的隐私保护的分布式机器学习模型迅速成为一个热门

的研究问题。有研究表明，机器学习模型的梯度会泄露用户数据集的隐私，能够被攻击者

利用以获取非法的利益，因此，需要采用一些隐私保护的机制来保护这种敏感信息。研究

了当前联邦学习系统中采用的隐私保护机制，并根据研究者们采用的隐私保护技术，将联

邦学习中的隐私保护机制主要分为了五类，总结了不同的隐私保护机制的研究思路和研究

进展。通过对当前联邦学习中使用的隐私保护机制的研究，联邦学习系统的设计人员提高

联邦学习系统的安全性，更好的保护数据隐私。

关键词：联邦学习；隐私保护；

Abstract：With the emergence of data islands and the enhancement of privacy awareness,

the traditional centralized machine learning model has encountered a series of challenges.

Federated learning, as a privacy-protected distributed machine learning model, has quickly

become a hot research topic. Studies have shown that the gradient of the machine learning model

will leak the privacy of user data sets and can be used by attackers to obtain illegal benefits.

Therefore, some privacy protection mechanisms are needed to protect this sensitive information.

We studies the privacy protection mechanisms used in the current federal learning system, and

according to the privacy protection technology adopted by the researchers, divides the privacy

protection mechanisms in the federal learning into five categories, and summarizes the ideas of

different privacy protection mechanisms. We want to introduce the current privacy protection

mechanisms used in federated learning to enable designers of federated systems to improve the

security of federated learning systems and protect data privacy.

Keywords：Federated Learning；privacy protection

引言

近年来，机器学习算法在人工智能领

域内迅猛发展，在计算机视觉、自然语言

处理和推荐算法等领域都有良好的表现。这

些机器学习技术的成功，都是通过大量数据

的训练得到的，然而，一方面，随着人工智

能在各个行业的不断落地，人们对于数据安

全和隐私保护的程度也在不断提高，用户开

始更加关注他们的隐私数据是否未经许可，

便被他人处于商业目的而使用。另一方面，

在法律层面，法律制定者和监管机构也出台

了新的法律来规范数据的管理和使用，典型

的例子有中国 2017 年开始实施的《中华人

民共和国网络安全法》和 2018 年欧盟开始

执行的《通用数据保护条例》（General Data

Protection Regulation，GDPR），这些法律的

实施进一步加剧了在不同组织之间收集和分

享数据的困难。因此，各方面原因导致在许

多应用领域，满足机器学习规模的数据量是

难以达到的，人们不得不面对难以桥接的数

据孤岛。

为了解决上述数据孤岛问题，一种可行

的方案是谷歌的 McMahan 等人于 2016 年

提出的联邦学习（Federated Learning）

[1]

。

联邦学习是多个实体（客户端）协作解决机

器学习数据孤岛问题的一种方案，它在一个

中央服务器或服务提供商的协调下进行，每

个客户端的原始数据存储在本地，无法交换

或迁移，满足了隐私保护和数据安全的要

求。谷歌的联邦学习系统能够通过智能手机

的私人数据来更新其 Gboard 系统（一种虚

拟键盘系统）的输入预测模型，所有使用

Gboard 的智能手机的数据都可以被用来优

化模型，而这一过程并不需要将用户的隐私

数据从智能手机发送到中央设备。

本文主要就联邦学习中的隐私保护机制

进行了调查和研究，从隐私保护技术的角度

对当前的研究联邦学习中的隐私保护的文献

进行了分类，目前联邦学习中主要采用隐私

保护技术有差分隐私、同态加密和安全多方

计算，部分文献也混合使用了上述隐私保护

技术的两种或三种，也有部分文献使用了其

它隐私保护技术。

本文的的主要内容如下：

初始化模型进行模型训练，得到更新的模型

梯度；客户端将模型梯度上传到聚合服务

器；服务器进行模型聚合，可以以客户端数

据集大小为权重进行模型平均；服务器将新

的模型参数下发给客户端，客户端更新本地

模型。

在客户端-服务器的联邦学习的联邦学

习过程中，用户数据没有离开用户的设备，

数据隐私得到了一定程度的保护，但是，

Zhu 等人的研究结果表明分享梯度会泄露隐

私数据

[2]

，服务端能够根据客户端上传的梯

度恢复出客户端的训练数据。因此，在联邦

学习过程中，客户端向服务器分享本地模型

的更新梯度存在敏感数据泄露的隐患。联邦

学习将需要传输的训练数据转化为了训练后

得到的梯度，需要进行隐私保护的敏感数据

也随之变成了梯度，客户端需要使用隐私保

护技术对梯度进行保护，可以使用的技术

有：同态加密、安全多方计算和差分隐私

等。

1.2 威胁模型

联邦学习不可能总是提供足够的隐私保

证，也会遭受潜在的隐私攻击，危及模型和

数据的完整性。Lyu L 等人

[3]

详细的介绍和

总结了联邦学习面对的威胁和攻击。

在联邦学习的威胁模型中，通常会受到

来自内部或外部的攻击，其中内部攻击往往

比外部攻击要强。对于联邦学习的内部攻

击，可以采取单一攻击，拜占庭攻击和女巫

攻击。

根据主动性可以将对手分为半诚实的对

手和恶意的对手，半诚实的对手被认为是诚

实但好奇的，在不违背联邦学习协议的情况

下试图了解其他方的私密状态；而一个活跃

或恶意的对手可以通过修改、重放或删除消

息来随意违背联邦学习协议，还可以进行毁

灭性的攻击。

联邦学习可以分为训练和推理两个阶

段，所以每个阶段受到的攻击也不同。训练

阶段的攻击企图学习、影响和破坏模型本

身，对手可以用数据投毒攻击和模型投毒攻

击，还可以对参与者的更新发动一系列推理

攻击。推理阶段的攻击通常不会篡改目标模

型，只会导致模型产生错误的输出，或收集

关于模型特征的证据。

投毒攻击主要有本地数据采集时的数据

投毒攻击和在局部模型训练过程中的模型投

毒攻击。数据投毒可以分为 clean-label 和

dirty-label 攻击，clean-label 攻击假设对手

无法改变任何训练数据的标签；相比 dirty-

label 攻击中，对手可以将一些它希望用所

需目标标签误分类的数据样本引入到训练集

中。dirty-label 投毒攻击的常见方式是标签

翻转攻击和后面攻击。模型投毒攻击的目标

是在将本地模型更新发送到服务器之前进行

投毒，或者在全局模型中插入隐藏的后门。

推理攻击则可以分为成员推理攻击和属

性推理攻击。成员推理攻击的目的是确定某

一数据点是否被用于训练模型，而属性推理

攻击的用来推断其他参与者的训练数据的属

性。

2 隐私保护技术

2.1 差分隐私

差分隐私是由 Dwork 等人

[4]

在 2006 年

首次提出的，它提供了量化和限制个人信息

泄露的一种输出隐私保护模型。差分隐私的

中心思想是，当攻击者试图从数据集中查询

个体信息时将其混淆，使得敌手无法从查询

结果中辨别个体的敏感性，即函数的输出结

果对于数据集中的任何特定记录都不敏感，

因此，差分隐私能被用来抵抗成员推理攻

击。

定义 1 （

(

𝜖

𝛿

)

―

差分隐私）一个随

机化机制

𝓜

，其定义域为

ℕ

|𝓧|

，如果

𝓜

满

足

(

ϵ,δ

)

―

差分隐私，那么对于任意的输出

集合

𝑺

⊆

Range

(

𝓜

)

和两个最多只有一个元

素不同的相邻数据集

𝒙

和

𝒙

′

，有：

𝑃

𝑟

[

𝓜

(

𝒙

)

∈

𝑺

]

≤

𝑒

𝜀

𝑃

𝑟

𝓜

(

𝒙

′

)

∈

𝑺

𝛿 #

(

)

(1)式中，

𝜖

表示隐私预算；

𝛿

表示失败

概率。一般而言，

𝜖

越小，隐私保护程度越

高，噪声越大，数据可用性越差。

差分隐私的主要实现方式是向数据添加

噪声，主要有两种方式，一种是根据数值型

的输出函数的敏感度添加噪声，比如基于

𝑙

―

敏感度的拉普拉斯噪声（Laplace Noise）

和

𝑙

―

敏感度高斯噪声（Gaussian Noise）；

另一种是根据离散值的指数分布选择噪声。

剩余24页未读，继续阅读

评论收藏

内容反馈

黄涵奕

粉丝: 72
资源: 328

联邦学习隐私保护机制综述(原版)1

评论0

最新资源

联邦学习隐私保护机制综述(原版)1

评论0

联邦学习隐私保护机制综述1

联邦学习隐私保护机制综述0.21

联邦学习安全与隐私保护综述

基于隐私保护的联邦推荐算法综述.docx

用于隐私保护数据访问的联邦学习-研究论文

国内外汞污染分布状况研究综述原版资料全.doc

GDPR 通用数据保护条例 英文原版

Eziriz .NET Reactor 4.6.0.0 官方原版+破解补丁（强大的代码保护和软件防盗版工具）

平行模糊推理机制 英文原版

联邦学习安全与隐私保护研究综述

联邦学习隐私保护研究进展1

ChatGPT模型的联邦学习与隐私保护方法研究.docx

基于联邦学习的教育数据挖掘隐私保护技术探索.pdf

支持多数不规则用户的隐私保护联邦学习框架.docx

Python学习手册英文原版

奇文原版wap奇文原版wap

DeepLearning深度学习综述-高清电子版

基本linux学习原版书籍集合

原版win10-进程保护驱动源码_c_保护驱动_进程保护_win10驱动保护_win10进程保护

基于数据属性修改的联邦学习隐私保护策略.docx

AI与数据隐私保护：联邦学习的破解之道.pdf

机器学习中的隐私保护综述.pdf

黑防原版远程控制黑防原版远程控制黑防原版远程控制

关于k匿名的综述（英文原版论文）

斯坦福机器学习原版学习笔记

蓝宝石显卡-原版480 570 580BIOS.zip

官方原版win7集成sp1简体中文64位x64

最新资源

GDPR 通用数据保护条例英文原版

平行模糊推理机制英文原版