没有合适的资源?快使用搜索试试~ 我知道了~
本地化差分隐私-谢荣1
需积分: 0 3 下载量 118 浏览量
2022-08-03
11:42:44
上传
评论
收藏 1.52MB PDF 举报
温馨提示
试读
26页
摘要:大数据时代信息技术不断发展,个人信息的隐私问题越来越受到关注,如何在数据发布和分析的同时保证其中的个人敏感信息不被泄露是当前面临的重大挑战.中心化差分隐私
资源详情
资源评论
资源推荐
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software, [doi: 10.13328/j.cnki.jos.005364] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
本地化差分隐私研究综述
叶青青
1
,
孟小峰
1
,
朱敏杰
1
,
霍
峥
2
1
(中国人民大学 信息学院,北京 100872)
2
(河北经贸大学 信息技术学院,河北 石家庄 050061)
通讯作者: 孟小峰, E-mail: xfmeng@ruc.edu.cn
摘 要: 大数据时代信息技术不断发展,个人信息的隐私问题越来越受到关注,如何在数据发布和分析的同
时保证其中的个人敏感信息不被泄露是当前面临的重大挑战.中心化差分隐私保护技术建立在可信第三方数
据收集者的假设基础上,然而该假设在现实中不一定成立.基于此提出的本地化差分隐私作为一种新的隐私保
护模型,具有强隐私保护性,不仅可以抵御具有任意背景知识的攻击者,而且能够防止来自不可信第三方的隐
私攻击,对敏感信息提供了更全面的保护.介绍了本地化差分隐私的原理与特性,总结和归纳了该技术的当前
研究工作,重点阐述了该技术的研究热点:本地化差分隐私下的频数统计、均值统计以及满足本地化差分隐私
的扰动机制设计.在对已有技术深入对比分析的基础上,指出了本地化差分隐私保护技术的未来研究挑战.
关键词: 隐私保护;本地化;中心化;差分隐私
中图法分类号: TP311
中文引用格式: 叶青青,孟小峰,朱敏杰,霍峥.本地化差分 隐私研究综述.软件学报,2018,29(7). http://www.jos.org.cn/1000-
9825/5364.htm
英文引用格式: Ye Q, Meng X, Zhu M, Huo Z. Survey on local differential privacy. Ruan Jian Xue Bao/Journal of Software,
2018,29(7) (in Chinese). http://www.jos.org.cn/1000-9825/5364.htm
Survey on Local Differential Privacy
YE Qing-Qing
1
, MENG Xiao-Feng
1
, ZHU Min-Jie
1
, HUO Zheng
2
1
(
School of Information, Renmin University of China, Beijing 100872, China)
2
(
School of Information Technology, Hebei University of Economics and Business, Shijiazhuang, 050061, China)
Abstract: With the development of information technology in the big data era, there has been a growing concern for privacy of personal
information. Privacy preserving is a key challenge when releasing and analyzing data. Centralized differential privacy is based on the
assumption of a trustworthy data collector; however, it is actually a bit difficult to realize in practice. To this end, local differential privacy
has emerged as a new model for privacy preserving with strong privacy guarantees. By resisting adversaries with any background
knowledge and preventing attacks from untrustworthy data collector, local differential privacy can protect private information thoroughly.
Starting with an introduction to the mechanisms and properties, this paper surveys the state of the art of local differential privacy, focusing
on the frequency estimation, mean value estimation and the design of perturbation model. Following a comprehensive comparision and
analysis of existing techniques, further research challenges are put forward.
基 金 项 目 : 国 家 自 然 科 学 基 金 (91646203,61532010,61532016,61379050); 国 家 重 点 研 发 计 划 项 目 (2016YFB1000602,
2016YFB1000603);中国人民大学科学研究基金(11XNL010) ; 河北省自然科学基金(F2015207009)
Foundation item: National Natural Science Foundation of China (91646203,61532010,61532016,61379050); The National Key
Research and Development Program of China(2016YFB1000602, 2016YFB1000603); The Research Funds of Renmin University
(11XNL010); Natural Science Foundation of Hebei(F2015207009)
收稿时间:
2017-06-11; 修改时间: 2017-07-13; 采用时间: 2017-08-22; jos 在线出版时间: 2017-10-17
本文由面向隐私保护的新型技术与密码算法专刊特约编辑薛锐研究员推荐.
CNKI 网络优先出版: 2017-10-17 13:42:45, http://kns.cnki.net/kcms/detail/11.2560.TP.20171017.1342.010.html
2
Journal of Software 软件学报
Key words: privacy preserving; local differential privacy; centralized differential privacy
近年来,隐私问题成为普遍关注的热点问题.大数据时代,信息技术为人类社会带来便捷的同时,也产生了
数据安全与用户隐私的问题.为保证信息技术的长足发展,保护个人数据隐私成为政府和企业的当务之急.在隐
私保护问题上,欧盟走在了时代前沿.2016 年 4 月,欧盟通过了《一般数据法案》
1
(General Data Protection
Regulation, GDPR),规定了个人数据保护跨越国界,同时其明确了用户对个人信息的知情权和被遗忘权.我国于
2017 年 6 月 1 日起施行《中华人民共和国网络安全法》和《最高人民法院、最高人民检察院关于办理侵犯公
民个人信息刑事案件适用法律若干问题的解释》
2
,加强了个人信息保护,其中对于提供公民个人信息违法所得
五千元以上可入罪.
对隐私问题的重视促进了隐私保护技术的研究.就隐私保护技术而言,隐私保护程度和数据可用性是最重
要的衡量指标.为了平衡隐私保护程度和数据可用性,需要引入形式化定义对隐私进行量化,顺应这一发展趋
势,研究者提出了差分隐私
[1,2,3]
技术.作为一种隐私保护模型,其严格定义了隐私保护的强度,即任意一条记录的
添加或删除,都不会影响最终的查询结果.同时,该模型定义了极为严格的攻击模型,其不关心攻击者具有多少
背景知识.相比于
k
-匿名
[4]
,
l
-多样性
[5]
和
t
-紧密性
[6]
等需要特殊攻击假设和背景知识的方法,差分隐私因其独
特的优势,成为当前学术界的研究热点.
传统的差分隐私技术将原始数据集中到一个数据中心,然后发布满足差分隐私的相关统计信息,我们称之
为中心化差分隐私(Centralized Differential Privacy)技术.因此,中心化差分隐私对于敏感信息的保护始终基于
一个前提假设:可信的第三方数据收集者,即保证第三方数据收集者不会窃取或泄露用户的敏感信息.然而,在
实际应用中,即使第三方数据收集者宣称不会窃取和泄露用户的敏感信息,用户的隐私依旧得不到保障.2016
年,社交网络的数据泄露事件层出不穷
3
:美国社交网站 LinkedIn 近 1.7 亿个账户被黑客组织在黑市被公开销售;
谷歌、雅虎和微软等企业超 2.7 亿电子邮箱信息被一名俄罗斯黑客盗取并流入黑市;土耳其近 5000 万公民个
人信息被泄露,总统的个人信息被挂暗网平台;雅虎爆发互联网史上最大数据泄露,超 5 亿用户账户信息被黑客
盗取;美国国安局网站遭入侵,其中黑客工具和数据被泄露,国安局网站因此瘫痪了近一昼夜.此类用户原始信
息泄露事件近年来层见叠出,人们对个人信息的安全性十分担忧.
由此可知,在实际应用中想要找到一个真正可信的第三方数据收集平台十分困难,这极大地限制了中心化
差分隐私技术的应用.鉴此,在不可信第三方数据收集者的场景下,本地化差分隐私(Local Differential Privacy)
[7,8]
技术应运而生,其在继承中心化差分隐私技术定量化定义隐私攻击的基础上,细化了对个人敏感信息的保
护.具体来说,其将数据的隐私化处理过程转移到每个用户上,使得用户能够单独地处理和保护个人敏感信息,
即进行更加彻底的隐私保护.目前,本地化差分技术在工业界已经得到运用:苹果公司将该技术应用在操作系统
iOS 10 上保护用户的设备数据
4
,谷歌公司同样使用该技术从 Chrome 浏览器采集用户的行为统计数据
[19]
.
本地化差分隐私技术继承自中心化差分隐私技术,同时扩展出了新的特性,使该技术具备两大特点:1)充分
考虑任意攻击者的背景知识,并对隐私保护程度进行量化;2)本地化扰动数据,抵御来自不可信第三方数据收集
者的隐私攻击.下面我们通过两个具体应用场景说明本地化差分隐私技术的上述两个特点的重要性.
(1) 众包数据采集.
众包(Crowdsourcing)
[9]
是一种利用群体智慧求解问题的方式,众包技术极大地促进了信息技术的发展,其
中通过众包的方式进行数据采集是一种新的数据采集方式.由于移动设备功能的不断强大,数据收集者可以很
容易将数据采集的任务分配给不同用户,例如,美国 Gigwalk 公司组织用户通过智能设备采集不同商品的价格;
1
https://en.wikipedia.org/wiki/General_Data_Protection_Regulation
2
http://www.spp.gov.cn/xwfbh/wsfbt/201705/t20170509_190088.shtml
3
http://datayuan.baijia.baidu.com/article/715477
4
https://www.wired.com/2016/06/apples-differential-privacy-collecting-data/
叶青青 等:本地化差分隐私研究综述
3
国内数据堂公司组织用户通过“众客堂”APP 进行图片、文本和语音的采集并标注以提供数据服务;高德地图公
司组织用户通过“道路寻宝”APP 采集道路周边信息等.然而,众包数据采集一般与个人行为信息相关,因此当用
户参与众包数据采集时,不可避免地存在泄露个人敏感信息的风险,例如,上传商品的价格时可能泄露个人的购
物偏好信息,上传图片、语音等信息可能泄露个人身份特征信息,上传道路周边信息可能泄露用户的位置和轨
迹信息等.因此,众包数据采集还需要隐私保护技术为其保驾护航.
关于众包数据采集的隐私问题研究,文献[10]曾指出隐私问题是众包技术发展的一大挑战,文献[11]提出
基于
k
-匿名的众包数据保护方法,以及文献[12]提出基于编码扰动的方法等.然而,上述研究并未考虑基于背景
知识的攻击.现如今,各类运营商和大数据企业拥有大量的用户数据,互联网上大规模数据相互关联,各种数据
集成和融合技术蓬勃发展,同时互联网本身的便捷性使得各种类型的信息触手可及,这些因素的综合作用使得
攻击者可以很容易地从中获取背景知识,从而结合用户上传的数据推测用户的敏感信息.例如,某个用户频繁在
工作日上传 A、B 两地之间的不同建筑物图片,若根据背景知识得知 A、B 分别为某居民区和商业区,则能够以
较大概率猜测 A、B 两地分别为该用户的居住和工作地址.因此,在众包数据采集问题上迫切需要一种能够充分
考虑背景知识,严格定义攻击模型的隐私保护技术.
(2) 敏感图像特征提取.
各种各样来自个人的图像中蕴含着诸多敏感信息,例如人脸图像、指纹图像和虹膜图像等生物特征数据
可以唯一精确定位到个人,医学造影图像中蕴含着个人的相关疾病信息.直接对蕴含敏感信息的图像进行存储
和分析,可能泄露其中的隐私.以如今与指纹相关的应用为例,移动智能终端的发展使得移动支付流行开来,其
中以指纹支付最为便捷,因此,指纹图像的敏感性不言而喻.其它蕴含敏感信息的图像亦如此,对此类图像的存
储和分析过程进行相应的隐私保护是必要的.
图像特征提取是图像处理中最初级的运算
[13]
,是进行图像识别的关键.目前已有诸多研究工作围绕图像与
隐私展开,文献[14]以医学图像为例说明了图像中蕴含的隐私问题;文献[15]提出人脸识别过程中的通过安全多
方计算(secure multiparty computation)进行隐私保护;文献[16]基于云计算环境提出图像特征提取过程中基于加
密的隐私保护方法等.然而,现有方法均建立在可信的数据收集者的基础上.在图像信息高度敏感的情形下,可
信第三方数据收集者的假设难以立足,例如,苹果用户曾一度质疑苹果公司的云平台是否存储了用户的指纹图
像.因此,敏感图像特征提取问题上迫切需要一个能够抵御不可信第三方数据收集者的隐私模型.而本地化差分
隐私技术对于敏感图像特征提取的场景具有很好的适应性,该技术在用户端完成对图像的扰动处理,保证了无
论是数据收集者或是数据传输过程中的攻击者,均无法窃取图像中的隐私信息.无独有偶,文献[17]曾指出云计
算环境下本地化差分隐私技术在图像处理这一领域的巨大潜力.
目前,本地化差分隐私技术已经成为继中心化差分隐私技术之后一种强健的隐私保护模型
[19,18,56]
.首先,用
户对原始数据进行满足
-本地化差分隐私的扰动,然后将其传输给第三方数据收集者,数据收集者收到扰动后
的数据后进行一系列的查询和求精处理,以得到有效的统计结果.对本地化差分隐私的研究和应用,主要考虑以
下两个方面问题:(1)如何设计满足
-本地化差分隐私的数据扰动算法,以保护其中的敏感信息;(2)数据收集者
如何对查询结果进行求精处理,以提高统计结果的可用性.
本文综述本地化差分隐私技术的最新研究进展和研究方向,一方面对本地化差分隐私的研究背景、基本
定义、实现机制以及其与中心化差分隐私技术的区别进行阐述,另一方面,对当前本地化差分隐私的研究方向
进行分析,并阐述最新研究进展,其中着重介绍本地化差分隐私下的数据扰动机制以及两种基本的数据发布形
式:频数统计和均值统计.最后,针对本地化差分隐私的特性,提出本地化差分隐私保护技术未来的研究方向并
进行具体分析.
本文第 1 节介绍本地化差分隐私保护技术的基础知识;第 2 节介绍其数据保护框架;第 3、4 节对本地化差
分隐私保护技术的当前研究方向进行概括,并对研究方法进行对比和分析;第 5 节提出本地化差分隐私保护技
术的研究挑战;最后第 6 节总结全文.
4
Journal of Software 软件学报
1 基础知识
本地化差分隐私保护技术是基于中心化差分隐私保护技术提出的数据采集框架,不同于中心化差分隐私
对于可信第三方的假设,其针对的是不可信的第三方数据收集者.本节首先对本地化差分隐私进行形式化定义,
接着阐述满足其定义的一种通用保护机制,最后对本地化和中心化差分隐私保护技术进行对比分析.
1.1 本地化差分隐私的定义
本地化差分隐私下的保护模型充分考虑了数据采集过程中数据收集者窃取或泄露用户隐私的可能性.该
模型中,每个用户首先对数据进行隐私化处理,再将处理后的数据发送给数据收集者,数据收集者对采集到的数
据进行统计,以得到有效的分析结果.即,在对数据进行统计分析的同时,保证个体的隐私信息不被泄露.本地化
差分隐私的形式化定义如下:
定 义 1. 给 定
n
个 用 户,每个 用户 对应 一条 记录 ,给 定 一 个隐 私算 法
M
及其 定义 域
( )Dom M
和 值 域
( )Ran M
,若算法
M
在任意两条记录
t
和
t
(
, ( )t t Dom M
)上得到相同输出结果
*
t
(
*
( )t Ran M
)满足下列不等
式,则
M
满足
-本地化差分隐私.
* *
Pr[ ( ) ] Pr[ ( ) ]M t t e M t t
从定义 1 中可以看出,本地化差分隐私技术通过控制任意两条记录的输出结果的相似性,从而确保算法
M
满足
-本地化差分隐私.简言之,根据隐私算法
M
的某个输出结果,几乎无法推理出其输入数据为哪一条记录.
在中心化差分隐私保护技术中,算法
M
的隐私性通过近邻数据集
[2]
来定义,因此其要求一个可信的第三方数据
收集者来对数据分析结果进行隐私化处理.对于本地化差分隐私技术而言,每个用户能够独立地对个体数据进
行处理,即,隐私化处理过程从数据收集方转移到单个用户端上,因此不再需要可信第三方的介入,同时也免除
了不可信第三方数据收集者可能带来的隐私攻击.
定义 1 从理论的角度保证了算法满足
-本地化差分隐私,而实现
-本地化差分隐私保护需要数据扰动机
制的介入.
1.2 扰动机制
目前,随机响应(Randomized Response)技术
[18]
是本地化差分隐私保护技术的主流扰动机制,本节主要对其
原理进行阐述,对于现有研究中的其它扰动机制,将在 4.3 节中进行分析和比较.
1.2.1 随机响应技术
Warner 于 1965 年提出利用随机响应技术进行隐私保护,我们将其称为 W-RR,其主要思想是利用对敏感问
题响应的不确定性对原始数据进行隐私保护.本节首先介绍随机响应技术的原理,而后分别阐述连续型数据和
离散型数据下随机响应技术的应用.
随机响应技术主要包括两个步骤:扰动性统计和校正.
为了具体介绍随机响应技术,下面首先引入一个具体的问题场景.假设有
n
个用户,其中艾滋病患者的真实
比例为
,但我们并不知道.我们希望对其比例
ˆ
进行统计.于是我们发起一个敏感的问题:“你是否为艾滋病患
者?”每个用户对此进行响应,第
i
个用户的答案
i
X
为是或否,但出于隐私性考虑,用户不会直接响应真实答案.
假设其借助于一枚非均匀的硬币来给出答案,其正面向上的概率为
p
,反面向上的概率为
1
p
.抛出该硬币,若
正面向上则回答真实答案,反面向上则回答相反的答案.
首先,进行扰动性统计.利用上述扰动方法对
n
个用户的回答进行统计,可以得到艾滋病患者人数的统计
值.假设统计结果中,回答“是”的人数为
1
n
,则回答“否”的人数为
1
n n
.显然,按照上述统计,回答“是”和“否”的用
户比例如下:
Pr( " ")= (1 )(1 )
i
X p p
是
Pr( " ")= 1- ) (1 )
i
X p p
否 (
显然,上述统计比例并非真实比例的无偏估计,因此需要对统计结果进行校正.
叶青青 等:本地化差分隐私研究综述
5
接着,对统计结果进行校正.构建以下似然函数:
1 1
[ (1 )(1 )] [(1 ) (1 )]
n n n
L p p p p
并得到
的极大似然估计:
1
1
ˆ
2 1 (2 1)
p n
p p n
以下关于
ˆ
的数学期望保证了
ˆ
是真实分布
的无偏估计:
1
1 1 1
ˆ
( ) 1 1 (1 )(1 )
2( 1) 2( 1)
n
i
i
E p X p p p
p n p
由此可得到校正的统计值,其中
N
表示统计得到的艾滋病人数估计值:
1
1
ˆ
2 1 2 1
p n
N n n
p p
综上,根据总人数
n
、回答“是”的人数
1
n
和扰动概率
p
,即可得到真实患病人数的统计值.为保证其满足
-
本地化差分隐私,根据定义,隐私预算
设定为:
ln
1
p
p
1.2.2 离散型数据的随机响应
随机响应技术 W-RR 仅对包含两种取值的离散型数据进行响应,而对于具有超过两种取值的数据并不适
用.因此,利用 W-RR 对离散型数据进行扰动有以下两种思路:1)对变量的不同取值进行编码和转化,使其满足
W-RR 技术对二值变量的要求;2)改进 W-RR 技术,使其能够直接适用于超过两种取值的变量.假设变量
x
总共
包含
k
种不同取值,其取值集合为
1 2
, ,...,
k
S x x x
,我们称集合
S
为
x
的候选值集合.
(1)第一种思路的思想是:对于
k
个候选值,将每一个候选值都编码成长度为
log k
的 0/1 串,然后对 0/1 串
的每一个位上的 0/1 进行随机响应.然而,由于
logk
并非刚好取整,因此存在某些 0/1 串未能匹配到相应候选值
的情形,由此造成的匹配误差以及随机响应技术本身的扰动误差,将使得数据发布的可用性降低,可见该思路下
的技术难点还在于属性候选值的编码和匹配策略上.基于该思路,本地化差分隐私下,离散型数据的随机响应方
法包括 RAPPOR
[19]
和 S-Hist
[20]
等,详见 4.1.1 节.
(2)第二种思路,需要对 W-RR 技术中的概率分布进行改进.具体来说,W-RR 中将概率分配到变量的两种取
值上,而对于
k
种取值的情况,需要保证概率的分布能够覆盖到
k
种取值中的任意一种.基于该思路,本地化差分
隐私下,离散型数据的随机响应方法包括
k
-RR
[21]
和 O-RR
[22]
等,详见 4.1.1 节.
1.2.3 连续型数据的随机响应
随机响应技术 W-RR 不能直接用于连续型数据的扰动,因此需要对连续型数据进行转换.其主要思想是,将
连续型数据离散化,然后利用离散型数据下的随机响应方法,对数据进行扰动.目前已有的方法一般是将连续型
数据离散化为某两个数值,然后对离散化后的数据利用随机响应技术 W-RR 进行扰动.
通过离散化并扰动后的值得到统计量,如变量的平均值,出于数据可用性的考虑,需保证统计结果与真实
结果的无偏性.因此,面向连续型数据的随机响应技术的难点主要在两个方面:1)如何合理设置离散化的两个数
值;2)如何保证统计结果的无偏性.
基于上述思路,本地化差分隐私下,连续型数据的随机响应方法包括 MeanEst
[23,24]
和 Harmony-mean
[25]
等,
详见 4.2 节.
1.3 本地化与中心化差分隐私的异同点
本地化差分隐私保护技术是在中心化差分隐私保护技术的基础上提出的,其继承了中心化差分隐私保护
技术上的组合特性,同时又对其进行了扩展,利用随机响应的扰动机制抵抗不可信的第三方数据收集者带来的
剩余25页未读,继续阅读
曹多鱼
- 粉丝: 19
- 资源: 314
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0