没有合适的资源?快使用搜索试试~ 我知道了~
针对当前网络环境下由隐私数据识别困难问题所引出的隐私度量与分级需求,提出了一种基于 Shannon信息熵与BP神经网络的隐私数据度量与分级模型。该模型从3个维度建立了两层隐私度量要素,基于数据集本身,利用Shannon信息熵为二级隐私要素定权,并由此计算数据集中各条记录在一级隐私度量要素下的隐私量;利用BP神经网络在不预设度量权值的情况下,输出隐私数据分级结果。实验表明,该模型能够在极低的误判率和较小的误判偏差下实现对隐私数据的度量与分级。
资源推荐
资源详情
资源评论
2018 年 12 月 Journal on Communications December 2018
2018286-1
第 39 卷第 12 期 通 信 学 报 Vol.39
No.12
基于 Shannon 信息熵与 BP 神经网络的
隐私数据度量与分级模型
俞艺涵,付钰,吴晓平
(海军工程大学信息安全系,湖北 武汉 430033)
摘 要:针对当前网络环境下由隐私数据识别困难问题所引出的隐私度量与分级需求,提出了一种基于 Shannon
信息熵与 BP 神经网络的隐私数据度量与分级模型。该模型从 3 个维度建立了两层隐私度量要素,基于数据集本
身,利用 Shannon 信息熵为二级隐私要素定权,并由此计算数据集中各条记录在一级隐私度量要素下的隐私量;
利用 BP 神经网络在不预设度量权值的情况下,输出隐私数据分级结果。实验表明,该模型能够在极低的误判率
和较小的误判偏差下实现对隐私数据的度量与分级。
关键词:隐私安全;信息熵;BP 神经网络;隐私度量
中图分类号:TP301
文献标识码:A
doi: 10.11959/j.issn.1000-436x.2018286
Metric and classification model for privacy data based on
Shannon information entropy and BP neural network
YU Yihan, FU Yu, WU Xiaoping
Naval University of Engineering, Wuhan 430033, China
Abstract: Aiming at the requirements of privacy metric and classification for the difficulty of private data identification
in current network environment, a privacy data metric and classification model based on Shannon information entropy
and BP neural network was proposed. The model establishes two layers of privacy metrics from three dimensions. Based
on the dataset itself, Shannon information entropy was used to weight the secondary privacy elements, and the privacy of
each record in the dataset under the first-level privacy metrics was calculated. The trained BP neural network was used to
output the classification result of privacy data without pre-determining the metric weight. Experiments show that the
model can measure and classify private data with low false rate and small misjudged deviation.
Key words: privacy security, information entropy, BP neural network, privacy metrics
1 引言
当前,移动互联网、大数据计算平台等信息产
业的飞速发展给人们生活带来了极大便利,众多服
务型互联网产业应运而生。这些产业在为用户提供
服务的同时,海量的数据信息在期间流转。以网络
约车平台为例,用户的个人信息、行程信息、司机
信息、车辆信息等数据在用户、平台和司机之间不
断交互,交互的过程中数据往往以满足服务为首要
目的进行呈现,而数据安全常常被忽略。而在海量
数据信息流转间又往往蕴含着巨大的信息价值,其
中不缺乏涉及与隐私相关的数据信息
[1]
,即使仅仅
是网络约车平台上的一则简单评论都可能造成用
户个人隐私的泄露,如何保证这类数据中隐私信息
收稿日期:2018–05–25;修回日期:2018–08–01
基金项目:国家自然科学基金资助项目(No.61100042);国家社会科学基金资助项目(No.15GJ003-201)
Foundation Items: The National Natural Science Foundation of China (No.61100042), The National Social Science Foundatio
n
of China (No.15GJ003-201)
第 12 期 俞艺涵等:基于 Shannon 信息熵与 BP 神经网络的隐私数据度量与分级模型 ·11·
的安全是一个亟需解决的现实问题。
多年来,国内外众多学者已经就如何保护隐私
数据做了大量的研究,在基于数据扰乱、数据匿名
等策略下,提出了一些卓有成效的隐私保护模型和
方法,例如 k-anonymity 模型
[2]
、l-diversity 模型
[3]
以及差分隐私保护技术
[4-5]
。这些隐私保护技术的提
出与发展为隐私数据安全打下了坚实的基础,但在
实际应用中仍受到隐私数据类型多、隐私应用场景
复杂等问题的制约,其中,隐私数据的识别困难问
题尤为突出。由于隐私是一个十分抽象的概念,在
不同隐私场景与不同隐私主体的情况下,隐私的范
畴存在极大差异,很难形成一套通用的隐私界定标
准,这给隐私数据的识别造成了巨大的困难
[6]
。而
当前,隐私信息的载体往往是海量流转在网络间的
数据流,如若不能成功地在大数据环境中遴选出需
要实施隐私保护的数据,而将隐私保护技术无差别
地实施在整个网络数据流中将造成时间和空间 2 个
维度上的巨大开销。对数据进行科学高效的隐私度
量与分级是解决隐私识别困难问题的必要前提。
当前,国内外针对数据隐私度量问题已经有了
许多卓有成效的研究成果。Li 等
[7]
利用 k-匿名模型
提出一种基于计算敏感属性分布值的隐私度量方
法,通过计算数据中敏感属性值的全局分布以及同
一敏感属性在各个等价类中分布的差异程度来度
量隐私泄露风险;Gkountouna 等
[8]
同样基于匿名理
论,构建攻击者背景知识与匿名数据的二叉树图,
通过贝叶斯理论推理构建出预测二叉树图,将其与
隐私信息比较来度量隐私泄露的风险;Clauß 等
[9]
利用信息熵描述数据集中隐私信息的不确定度,在
此基础上,Peng 等
[10]
用通信模型描述隐私保护的过
程,用信息熵度量通信信宿中带有的信息量以此度
量隐私泄露的风险,并利用条件熵对拥有背景知识
攻击者的攻击进行隐私度量,构建了对应的隐私保
护信息熵模型;在差分隐私保护中,则通常以差分
隐私预算
ε
直观地度量隐私保护效果
[11-12]
。可以发
现,当前国内外学者针对隐私度量问题的研究主要
集中在对经隐私保护后的数据进行隐私泄露风险
的度量上,而针对原始数据集自身原有隐私信息量
的度量方法研究成果较少。
由于缺乏通用的隐私界定标准
[13]
,要对某条数
据在隐私层面进行“是”与“否”的判定十分困难,
一种可行的方法是通过制定某种度量与分级规则
来代替隐私界定标准,将评估理论应用到隐私度量
与分级中,即将对单条数据的隐私度量与分级问题
转化为对数据集隐私状况的评估问题,通过选取需
度量的隐私要素作为评估的指标,基于相关评估手
段,以数据集总体隐私状况为标准对数据集中的单
条数据进行隐私度量与分级。这样做在绕过了隐私
界定标准不明确这一“壁垒”的同时,基于数据集
对单条记录进行隐私度量与分级更能反映出某条
记录在即时情况下的隐私重要程度,更能为隐私保
护技术与策略的实施提供依据。但仍将面临以下 2 个
关键问题:1) 由于隐私概念的宽泛性所带来的隐私
度量要素种类多且复杂而引起的效率性问题;2) 由
于隐私应用场景多样性以及隐私拥有者主观因素
不确定性所造成的隐私度量要素定权困难问题。
基于此,本文在 3 个隐私维度下建立 2 层隐私
度量要素的基础上,提出了一种无需事先设定隐私
度量要素权重的隐私数据度量与分级模型。该模型
通过 3 个隐私维度下 2 层隐私要素的设置,借助
Shannon 信息熵对二级隐私要素进行合理定权,并
由此计算出一级隐私要素下的数据隐私量,实现对
隐私要素的降维,随后借助 BP(back propagation)
神经网络实现隐私数据的分级。
2 基础知识
2.1 Shannon 信息熵
信息熵
[14]
(information entropy)这个词是信息论
之父香农(C.E.Shannon)从热力学中借用过来的,热
力学中的热熵是表示分子状态混乱程度的物理量,香
农则用信息熵的概念来描述信源的不确定度。
假设某系统 X 存在 n 种状态,记为
12
{Xx x
,
,
}
n
x
" , ()
i
px (
1, 2 ,in
=
",
)表示状态
i
x
在系统 X 中
出现的概率,则系统 X 的 Shannon 信息熵
Hx()定
义为
[15]
()
1
() ( )log ( )
n
ii
i
Hx px px
=
=−
∑
(1)
其中,
0()1
i
px≤≤
且
1
()1
n
i
i
px
=
=
∑
,规定当
() 0
i
px
=
时, 0log(0) 0
=
。
Shannon
信息熵理论认为,通过信息熵对信息
的无序程度进行度量,信息的信息熵越大,表示信
息的无序程度越高,其带有的信息量就越少;信息
熵越小,信息的无序程度越低,其带有的信息量就
越大。
2018286-2
剩余7页未读,继续阅读
资源评论
weixin_38631282
- 粉丝: 5
- 资源: 923
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功