没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
内容概要:本文详细介绍了大数据分析与隐私保护的关键技术,涵盖了大数据技术框架、大数据安全与隐私保护的差别、早期及基于数据分析的访问控制技术、安全检索技术、同态加密、隐私保护技术及差分隐私等多个方面。文中探讨了数据安全、隐私保护的不同维度,提供了多种技术实现和应用场景。重点讨论了访问控制、数据安全传输、数据匿名、属性加密等关键技术,强调了隐私保护与数据实用性之间的平衡。 适合人群:具备信息安全、大数据技术背景的研究人员、开发人员和管理人员,特别是关注大数据安全与隐私保护技术的专业人士。 使用场景及目标:本文适用于大数据环境下的系统设计与开发,帮助技术人员理解和应用先进的安全与隐私保护技术,保障数据在传输、存储、使用过程中的安全性与隐私性。 其他说明:本文不仅提供了理论基础,还结合实际案例,深入浅出地解析了各种技术的应用场景和实施细节,有助于读者在实践中有效运用相关技术。
资源推荐
资源详情
资源评论
大数据分析与隐私保护
第一章 绪论
1 大数据技术框架
(1)数据采集与预处理:数据采集与预处理(Data Acquisition &Preparation)是大数据应用
的基础是最常见的数据匿名措施,通过将数据置空的方式限制数据发布
(2)数据分析:数据分析(Data Analytics)是大数据应用的核心流程。根据不同层次大致
可分为三类:计算架构、查询与索引,以及数据分析和处理。
(3)数据解释:数据解释(Data Interpretation)旨在更好地支持用户对数据分析结果的使
用,涉及的主要技术有可视化技术和人机交互技术。
(4)数据传输、虚拟集群等其他支撑技术:为大数据处理提供技术支撑
2 大数据安全
(1)如何在满足可用性的前提下实现大数据机密性
安全与效率之间的平衡一直信息安全领域关注的重要问题。在大数据场景下,数据的高
速流动特性以及操作多样性使得数据的安全与效率之间的矛盾更加突出。
(2)如何实现大数据的安全共享
在大数据访问控制中,用户难以信赖服务商正确实施访问控制策略,且在大数据应用中
实现用户角色与权限划分更为困难。
(3)如何实现大数据真实性验证与可信溯源
当一定数量的虚假信息混杂在真实信息之中时,往往容易导致人们误判,最终影响数据
分析结果的准确性。因此,需要基于数据的来源真实性、传播途径、加工处理过程等,了解
各项数据可信度,防止分析得出无意义或者错误的结果。
3 大数据隐私保护
(1)由于去匿名化技术的发展,实现身份匿名越来越困难。仅数据发布时做简单的去标识
处理已经无法保证用户隐私安全,通过链接不同数据源的信息,攻击者可能发起身份重识别
攻击,逆向分析出匿名用户的真实身份,导致用户的身份隐私泄露。
(2)基于大数据对人们状态和行为的预测带来隐私泄露威胁。随着深度学习等人工智能技
术快速发展,通过对用户行为建模与分析,个人行为规律可以被更为准确的预测与识别,刻
意隐藏的敏感属性可以被推测出来。
4 大数据安全与大数据隐私保护的区别与联系
(1)大数据安全需求更为广泛,关注的目标不仅包括数据机密性,还包括数据完整性、
真实性、不可否认性,以及平台安全、数据权属判定等。而隐私保护需求一般仅聚焦于匿名
性。
(2)虽然隐私保护中的数据匿名需求与安全需求之一的机密性需求看上去比较类似,
但后者显然严格得多。匿名性仅防止攻击者将已公布的信息与现实中的用户联系起来,而机
密性则要求数据对于非授权用户完全不可访问。
(3)在大数据安全问题下,一般来说数据对象是有明确定义。而在涉及隐私保护需求
时,所指的用户“隐私”则较为笼统,可能具有多种数据形态存在。
5 密码学中的安全需求
(1)机密性(Confidentiality):信息不泄露给非授权的用户
(2)完整性(Integrity):信息不被非法修改
(3)可用性(Availability):信息系统能正确和及时地为合法用户提供服务的能力
(4)可鉴别性(Authentication):接收者能鉴别和识别信息的来源
(5)抗抵赖性(Non-repudiation):生产信息的人不能事后否认该生产
6 Hash 函数
Hash 函数(也称哈希函数)可将任意长的消息压缩为固定长度的 Hash 值,Hash 函数需满
足如下性质:(1)单向性:从 Hash 值得到原消息是计算上不可行的;(2)抗碰撞性:找
到两个不同的报文 Hash 值相同,是计算上不可行的。Hash 函数可用于文件完整性检验、密
码保存和软件下载等场景。
7 MAC(Message Authentication Code)
MAC(Message Authentication Code)是指消息认证码/报文鉴别码,是基于一个大尺寸数据
生产一个小尺寸数据,在性能上需要避免碰撞。由于 MAC 算法有对称密钥参与,其计算结
果类似于一个加密的 Hash 值,因此 MAC 具有保证可鉴别性和完整性的功能,但不能抗抵赖。
8 对称密码技术、非对称密码技术、Hash+非对称密码技术、MAC+对称密码技术的比较
第二章 安全存储与访问控制技术
一 早期访问控制技术
早期的访问控制技术都是建立在可信引用监控机基础上的。引用监控机是在 1972 年由
Anderson 首次提出的抽象概念,它能够对系统中的主体和客体之间的授权访问关系进行监
控。当数据存储系统中存在一个所有用户都信任的引用监控机时,就可以由它来执行各种访
问控制策略,以实现客体资源的受控共享。
1 基本概念
关于访问控制策略、引用监控机、主体、客体、操作、访问权限等基本概念。
(1)访问控制策略是对系统中用户访问资源行为的安全约束需求的具体描述。
(2)引用监控机(Reference Monitor,RM):指系统中监控主体和客体之间授权访问关系的
部件。
(3)主体:能够发起对资源的访问请求的主动实体,通常为系统的用户或进程。
(4)客体:能够被操作的实体,通常是各类系统和数据资源。
(5)操作:主体对客体的读、写等动作行为。
(6)访问权限:客体及对其的操作形成的二元组<操作,客体>。
2 访问控制模型
在 20 世纪 70 年代,大型资源共享系统出现在政府和企业中。为了应对系统中的资源安
全共享需求,访问控制矩阵等自主访问控制模型和 BLP、Biba 等强制访问控制模型被提出,
并得到了广泛应用。在 20 世纪 80 年代末到 90 年代初,人们发现在商业系统按照工作或职
位来进行访问权限的管理更加方便。因此,基于角色的访问控制模型被提出,并发展成为迄
今为止在企业或组织中应用最为广泛的访问控制模型之一。在 21 世纪初期,互联网技术使
得用户对资源的访问处于开放环境。开放环境往往无法预先获得主客体身份的全集,且存在
身份隐藏的需求。因此,基于属性的访问控制被提出,它通过安全属性来管理授权,而不需
要预先指导访问者身份。
(1)自主访问控制模型
客体的属主决定主体对客体的访问权限。自主访问控制模型可以被表述为(S,O,A)三元组。
其中,S 表示主体集合,O 表示客体集合,且 S⊂O。A 表示访问矩阵,A(si,oj)则表示主体 si
能够对客体 oj 执行的操作权限。访问矩阵中的一行,代表某个主体对系统中所有客体的访
问权限信息,一列代表所有主体对某个客体的访问权限信息。自主访问控制模型的实施由 RM
根据访问矩阵 A 进行判定,而数据的所有者对权限的管理通过修改访问矩阵 A 来实现。
图 访问矩阵
访问矩阵 A 在实际系统中主要有两种实现方式:(a)指定主体的能力表(Capabilities
List,CL):该表记录了每一个主体与一个权限集合的对应关系。权限集合中每个权限被表示
为一个客体以及其上允许的操作集合的二元组。(b)指定客体的访问控制列表(Access
Control List,ACL):该表记录了每一个客体与一个权限集合的对应关系。权限集合中的每个
权限被表示为一个主体以及其能够进行的操作集合的二元组。
(2)强制访问控制模型
1)BLP 模型:机密性、下读上写
BLP(Bell-lapadula)模型被用于保护系统的机密性,防止信息的未授权泄漏。
安全级别 Level:公开(UC)、秘密(S)、机密(C)、绝密(TS)。它们之间的关系为
UC≤S≤C≤TS。
范畴 Category:为一个类别信息构成的集合,例如{中国,军事,科技}。具有该范畴的主
体能够访问那些以该范畴子集为范畴的客体。
安全标记 Label:由安全级别和范畴构成的二元组<Level,Category>,例如<C,{中国,科技>。
支配关系 dom:安全标记 A dom B,当且仅当 Level_A≥Level_B,Category_A⊇Category_B。
图 安全标记之间的支配关系示意图
BLP 模型中在为系统中每个保护范围内的主客体都分配了安全标记后,主体对客体的访
问行为应满足如下两条安全属性:
简单安全属性:主体 S 可以读客体 O,当且仅当 LabelS dom LabelO,且 S 对 O 有自主型
读访问权限。
安全属性:主体 S 可以写客体 O,当且仅当 LabelO dom LabelS,且 S 对 O 具有自主型写
权限。
从信息流角度看,上述两条读/写操作所应遵循的安全属性阻止了信息从高安全级别流
入低安全级别,且使得信息“仅被需要知悉的人所知悉”,因此,能够有效地确保数据的机密
性。但是 BLP 模型这种“下读上写”的规则忽略了完整性的重要安全指标。
2)Biba 模型:完整性、上读下写
Biba 模型是第一个关注完整性的访问控制模型,用于防止用户或应用程序等主体未授权
地修改重要的数据或程序等客体。该模型可以看作是 BLP 模型的对偶。
完整性级别 Level:代表了主/客体的可信度。完整性级别高的主体比完整性级别低的主
体在行为上具有更高的可靠性;完整性级别高的客体比完整性级别低的客体所承载的信息更
加精确和可靠 。
范 畴 Category : 是 基 于 类 别 信 息 对 方 问 行 为 的 进 一 步 约 束 。 若 范 畴
Category_A⊇Category_B,则 A 能写入 B;否则,A 不能写入 B
完整性标记 Label:由完整性级别和范畴构成的二元组<Level,Category>。
支配关系 dom:完整性标记 A dom B,当且仅当 Level_A≥Level_B,Category_A⊇Category_B。
Biba 模型的严格完整性策略是 BLP 模型的对偶,也是不特别指明情况下所谓的 Biba 模
型。它应满足如下安全属性:
完整性特性:主体 S 能够写入客体 O,当且仅当 LabelS dom LabelO。
调用特性:主体 S1 能够调用主体 S2,当且仅当 LabelS1 dom LabelS2。
简单完整性条件:主体 S 能够读取客体 O,当且仅当 LabelO dom LabelS。
基于上述三条安全属性,信息只能从高完整性级别的主客体流向低完整性级别的主客体,
从而有效避免了低完整性级别的主客体对高安全级别主客体的完整性的“污染”。
从上述 BLP 模型和 Biba 模型可以看出,强制访问控制是基于主客体标记之间的支配关
系来实现的。
在大数据场景下,由安全管理员来进行强制访问控制的授权管理是具有挑战性的:(a)
随着主客体规模的急剧增长,安全标记的定义和管理将变得非常繁琐;(b)来自多个应用
的用户主体和数据客体也将使得安全标记难以统一。
(3)基于角色的访问控制模型:RBAC0~3 四个模型及其相互关系
RBAC0 是最基本的模型,定义了用户、角色、会话和访问权限等要素。RBAC1 在 RBAC0
的基础上引入了角色继承的概念。RBAC2 增加了角色之间的约束条件,例如互斥角色等。
RBAC3 是 RBAC1 和 RBAC2 的综合,探讨了角色继承和约束之间的关系。
标准 RBAC 模型包括了 RBAC0~3 四个模型。
RBAC0(Core RBAC),定义了用户、角色、会话和访问权限等要素,并形式化地描述了
访问权限与角色的关系。
RBAC1(Hierarchal RBAC)在 RBAC0 的基础上引入了角色继承的概念,简化了权限管理
的复杂度。
RBAC2(Constraint RBAC)增加了角色之间的约束条件,例如互斥角色、最小权限等。
RBAC3(Combines RBAC)是 RBAC1 和 RBAC2 的综合,探讨了角色继承和约束之间的关
系。
RBAC0 定义了基于角色访问控制的 5 个元素和一个动态的概念,其中 5 个元素包括用户、
角色、对象、操作和权限;一个动态的概念是指会话。
用户
会话
角色
UA用户分配
PA特权分配
user_sessions session_roles
操作 对象
权限(PERM)
图 RBAC0
角色访问控制的基本元素:(a)用户是访问控制的主体,可以发起访问操作请求。
(b)对象是访问控制的客体,指系统中受访问控制机制保护的资源。(c)操作是指对象上
能够被执行的一组访问操作。(d)权限是指对象及其上指定的一组操作,是可以进行权限
管理的最小单元。(e)角色是权限分配的载体,是一组有意义的权限集合。(f)会话用于
维护用户和角色之间的动态映射关系。
元素之间的关系:(a)UA 用户分配:用户和角色之间是多对多的映射关系,记录了管理
员为用户分配的所有角色。(b)PA 特权分配:角色与权限之间也是多对多的映射关系,记
录了管理员为角色分配的所有权限。(c)user_sessions:用户与会话之间的一对多映射关系,
即一个用户可通过登录操作开启一个或多个会话,而每个会话只对应一个用户。(d)
session_roles:会话与角色之间的多对多关系,即用户可以在一个会话中激活多个角色,而
一个角色也可以在多个会话中被激活。
(4)基于属性的访问控制模型:各组成部分的功能及流程
基于属性的访问控制模型是一种适用于开放环境下的访问控制技术。它通过安全属性来
定义授权,并实施访问控制。由于安全属性可以由不同的属性权威分别定义和维护,所以具
备较高的动态性和分散性,能够较好地适应开放式的环境。具体地,它包括如下几个重要概
念:
实体 entity:系统中存在的主体、客体以及权限和环境。
环境 environment:指访问控制发生时的系统环境。
属性 attribute:用于描述上述实体的安全相关信息。它通常由属性名和属性值构成,又
可分为以下几类:(1)主体属性:姓名、性别、年龄;(2)客体属性:创建时间、大小;
(3)权限属性:业务操作读写性质的创建、读、写;(4)环境属性:时间、日期、系统状
态等。
PEP
AA
资源
原始访问请求
访问
PDP
基于属性的
访问请求
判定
结果
属性查询/
查询结果
属性查询/
查询结果
PAP
策略查询/
查询结果
图 ABAC 框架示意图
AA 为属性权威 attribution authority,负责实体属性的创建和管理,并提供属性的查询。
PAP 为策略管理点,负责访问控制策略的创建和管理,并提供策略的查询。
PEP 为策略执行点,负责处理原始访问请求,查询 AA 中的属性信息生成基于属性的访
问请求,并将其发送给 PDP 进行判定,然后根据 PDP 的判定结果实施访问控制。
PDP 为策略判定点,负责根据 PAP 中的策略集对基于属性的访问请求进行判定,并将判
定结果返回 PEP。
基于属性的访问控制模型较为适合大数据的开放式数据共享环境。然而属性的管理和标
记对于安全管理员来说仍然是劳动密集型工作,且需要一定的专业领域知识。在大数据场景
下,数据规模和应用复杂度使得这一问题更加严重。
3 早期访问控制模型和技术在大数据应用场景下的局限性
早期访问控制模型和技术在大数据应用场景下主要存在三方面局限性:(1)存在工作
量大和领域知识匮乏等问题,使得安全管理员的授权管理难度更大;(2)存在访问需求无
法预知、访问需求动态变化和外包存储环境下无法使用的问题,使得严格的访问控制策略难
以适用;(3)数据所有者不具备海量存储以及构建可信引用监控机的能力,使得访问控制
技术难以实现。
二 基于数据分析的访问控制技术
剩余21页未读,继续阅读
资源评论
摆呀摆
- 粉丝: 16
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- (178753438)c#实现Modbus通信的测试例程,包括RTU部分和TCP部分
- YOLOv5算法快递包裹&包装盒缺陷检测权重,模型已经训练好,可以直接推理检测+pyqt界面+数据集
- MATLAB常见工具库使用指南与案例详解
- 基于web的数学题库管理系统设计与实现源码(java毕业设计完整源码).zip
- PPT模板-简历相关内容
- YOLOv5算法快递包裹&包装盒缺陷检测权重+数据集
- 机械设计在线式双工位PCB板螺丝机sw2018可编辑全套设计资料100%好用.zip
- Matlab代码:微电网的优化调度,以微电网的运行成本最小为目标进行优化,并把失负荷惩罚成本计入总目标当中,分别采用PSO算法和麻雀搜索算法(SSA算法,2020年新提出)进行优化求解,可分别求得两种
- (178758214)蓝桥杯嵌入式第十三届国赛
- YOLOv8算法快递包裹&包装盒缺陷检测权重,模型已经训练好+数据集+pyqt可视化界面
- 基于Web的毕业设计选题系统的设计与实现源码(java毕业设计完整源码).zip
- (178924324)人脸数据集总览:包含多个大型人脸数据库,如CMU PIE、ORL、PF01等,涉及多种姿态、光照和表情
- (180101204)VB+ACCESS班级管理系统(源代码+可执行程序+论文+开题报告+外文翻译+答辩ppt).zip
- 基于web的留守儿童网站的设计与实现源码(java毕业设计完整源码+LW).zip
- JAVA智能配电房管理系统源码带数据字典及完整文档JAVA智能配电房管理系统源码带数据字典及完整文档 实现各模块数据显示,报警显示,报表导出功能 此次监控的电力系统有两个配电房,总共四个变压器,5
- 基于web的积分制零食自选销售平台的设计与实现源码(java毕业设计完整源码+LW).zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功