没有合适的资源?快使用搜索试试~ 我知道了~
LDP树的算法2
需积分: 0 0 下载量 5 浏览量
2022-08-03
13:38:58
上传
评论
收藏 1.36MB PDF 举报
温馨提示
试读
18页
背景知识介绍夵估计误差——方差:夽 n · d − 夲 夫 eϵ夨eϵ − 失天2夨头天二、OLH(Optimized Local Hashing) 为了改进奇
资源详情
资源评论
资源推荐
LDP机制下快速的频繁模式挖掘方法
王家礼
2020 年 3 月 16 日
1 简介
目前,本地化差分隐私主要研究方向有频率估计、均值估计、奨奥奡奶她 奨奩奴奴奥奲、频繁模式挖掘和键值数
据收集等。其中,对频繁模式挖掘的工作相 对较少,文献奛夵奝首次提出奌奄奐奍奩奮奥奲方法解决女奥奴夭奖奡奬奵奥奤场景
下本地化数据聚合,并将频繁模式挖掘任务作为开放性问题提出,并没有实际解决该问题。由于本地化差
分隐私具有强隐私保护性,任意第三方不会持有用户的敏感数据,所以,如何在噪声数据上进行频繁模
式挖掘,并且同时保证奌奄奐的隐私性以及估计结果的有效性,成为了当前一大难点问题。文献奛夸奝首次提
出了基于频率推测的候选集构造奓奖奓奍方法,其解决了频繁模式挖掘奴奯奰夭奫问题。该方法的缺点在于,随
着k值得不断增大,频率推测构造候选集的额外开销明细增大(详见夵央失节),极大得限制了方法的应用。
为了解决奓奖奓奍方法额外开销的问题, 本文通过引入奆奐奧奲奯奷奴奨奛夲奝模式挖掘算法, 一方面实现了基
于奌奄奐的频繁模式挖掘方法,另一方面在挖掘结果有效的前提下,大大降低了所需的额外开销。
本文贡献:
失、 奌奄奐机制下频繁模式树的层次建立;
夲、 对模式树及挖掘结果的优化;
夳、 大大降低奓奖奓奍奛夸奝方法的额外计算开销。
2 背景知识介绍
2.1 频繁模式挖掘
频繁模式是指频繁地出现在数据集中的模式,如:项集、子序列或子结构,本文主要针对频繁项集的
挖掘(奆奉奍问题)。自文献奛失奝首次研究在数据库中发掘项集,奆奉奍已被广泛的研究。奆奉奍任务的定义如下。
给定一个用户交易数据库,奆奉奍的目的是发掘数据库中频繁出现的项目和一起出现项目集合(项集)。
频繁项集挖掘(FIM)夺令DB 夽 {t
1
, t
2
, . . . , t
n
}表示n位用户的交易数据集,其中用户u
i
的交易记
录t
i
⊂ I 夽 {x
1
, x
2
, . . . , x
d
},I为总项目集合,x
j
表示项目(或商品),失 ≤ i ≤ n, 失 ≤ j ≤ d。奆奉奍任务的
结果在于挖掘出DB中所有频繁出现的项集。如图失所示,为n 夽 夵, I 夽 {a, b, c, f, g, h, l, n, o, p}时的交易数
据集。
定义、频繁项集(frequent itemset):若X ⊂ I,则X表示一个项集。当其支持度(在数据集中出现
次数)support夨X天不低于给定阈值时,则X是一个频繁项集。
定义、α − itemset:项集X的项目个数记为α 夽 |X|,则X是一个α − itemset。
2.1.1 FPgrowth模式挖掘方法[2]
本节是对非隐私保护情况下,奆奐奧奲奯奷奴奨模式挖掘方法的 简介。奆奐奧奲奯奷奴奨主要分为两个步骤:建立模
式树存储用户信息和挖掘模式树获得频繁模式。
失
夲 背景知识介绍 夲
图 失夺 交易数据集
图 夲夺 预处理数据集
一、建立频繁模式树FP(本文主要工作是,在LDP场景下,构建有效的FP树)
1、建立项头表 ——(第一次扫描数据集,得到项头表,也即频繁失 − itemset)
扫描交易数据集一遍,记录每个项出现的次数,根据给定的最小支持度计数(或最小支持度)筛选得
到频繁失 − itemset及它们的支持度计数,按计数值从大到小依次排序得到项头表。
如:图失交易数据集(每行为一个交易),在给定最小支持度计数为夳得到项头表如图夳
图 夳夺 项头表
2、 预处理数据集 ——(根据所得项头表,预处理数据集,将非频繁的项删除,只保留频繁的项,并
且进行排序)
因为原始的交易数据集中的交易可能包含频繁失 − itemset中没有的项(即除项头表以外的项),所
以对 于每个事务要把非频繁失 − itemset中的项过滤掉,同时为了方便奆奐树的建立,需要把每个交易中的
项夨过滤后天按照其支持度大小排序,得到新交易数据集。预处理后新的交易数据集如图夲。
处理规则: 将原始的交易数据集中的每一个交易夨每一行天删除项头表中没有的项,并且剩下项按照
项头表中每一项的支持度计数从大到小排序(所有交易共用一个项目排序,c, f, a, b, p)。
3、FP树的建立 —— (第二次扫描数据集,根据每个处理后交易记录,构建模式树)
失)、奆奐树的根节点默认为root,其相应的计数为总用户数n;
夲)、将新交易数据集中的每个交易变成奆奐树中的一条路径,并统计每个项出现的次数;
夳)、对于后插入的交易先从树的根节点开始找与其相同的部分,从第一个不重合的项开始建立一个
新的分支。
例:新的交易数据集如图2
扫描第一个交易为c, f, a, p:
扫描第二个交易为c, f, a, b:
夲 背景知识介绍 夳
扫描第三个交易为f, b:
扫描第四个交易为c, b, p:
扫描第五个交易为c, f, a, p:
其中用项头表记录树中对应的项的节点位置,用以进行后续的挖掘步骤。
二、FP树的挖掘(本文直接使用该挖掘过程,未修改)
通过建立的奆奐树,从项头表的最后一项从下到上开始挖掘频繁项集。
挖掘步骤:
从项头表的最后一项从下到上开始,如当前项为i
①得到以i结尾的所有路径的前缀路径,前缀路径是指每个路径删掉该项后的路径。通常前缀路径的
最后一项是一个数字,用来记录该路径出现的次数,该数字以项i的计数为准。
如:项a的前缀路径为夨c, f, 夳天,由以项奆结尾的路径夨c, f, a天删掉a得到,并且项a的计数为夳,所以夨c, f, a天路
径出现的次数为夳。
②根据项i的所有前缀路径得到条件模式基,条件模式基是将项i的所有前缀路径根据计数合并,过滤
掉小于最小支持度的项。
如:项p的前缀路径为夨c, f, a, 夲天,夨c, b, 失天,根据p的前缀路径最后的计数很容得到前缀路径中每一项
出现的次数夨c 夺 夲, f 夺 夲, a 夺 夲天,夨c 夺 失, b 夺 失天,然后将所有的前缀路径合并得到夨c 夺 夳, f 夺 夲, a 夺 夲, b 夺 失天因
为f夁a夁b的计数小于最小支持度计数夳,所以将其过滤得到最终的条件模式基夨c 夺 夳天
夲 背景知识介绍 头
③根据项i的条件模式基画出项奩的条件奆奐树。
如项p的条件奆奐树为:
项a的条件奆奐树为:
④根据项i的条件奆奐树得到项 i 的频繁项集。从左到右遍历项 i 的条件奆奐树的每一条路径,用路径中
的每单个节点和项 i组合得到项i的频繁夲 − itemset,用路径中每夲个节点与项 i组合得到频繁夳 − itemset,
以此类推用路径中的每奫个节点与项i 组合得到项i的频繁k 夫 失 −itemset。
如项p的频繁项集为夺
频繁夲 − itemset:夨c, p, 夳天
项a的频繁项集为:
频繁夲 − itemset:夨c, a, 夳天, 夨f, a, 夳天
频繁夳 − itemset:夨c, f, a, 夳天
⑤继续挖掘剩余项的频繁项集,得到最小支持度为夳的所有频繁项集结果为:
夨c, p, 夳天, 夨c, a, 夳天, 夨f, a, 夳天, 夨c, b, 夳天, 夨c, f, 夳天, 夨c, f, a, 夳天
总结:奆奐奧奲奯奷奴奨方法需要扫描两次原始数据集,分别用于建立项头表 (频繁失 − itemset)和建立模
式树。
2.2 本地化差分隐私(LDP)
LDP定义
2.3 频数估计协议
奌奄奐频数估计的目的是获得任意指定项目x ∈ I 夽 {x
1
, x
2
, . . . , x
d
}在n位用户中真实出现次数θ夨x天的无
偏估计
奾
θ夨x天。
2.3.1 FO协议
最基本场景——每位用户的记录中只有一个项目x,最终估计所有项目的频数值
奾
θ夨x天
一、GRR(Generalized Randomized Response)
用户端——扰动加噪:
∀
y∈I
P r
f
GRR−
夨x天
夽
p 夽
e
e
+d−1
, 奩奦 y 夽 x
q 夽
1
e
+d−1
, 奩奦 y 6夽 x
夨夲天
第三方——统计聚合:
奾
θ
GRR−
夨x天 夽
C夨x天 − n ·q
p − q
夨夳天
剩余17页未读,继续阅读
易烫YCC
- 粉丝: 23
- 资源: 315
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于C和C++的二维绘制工具设计源码 - DrawPro
- Object.defineProperty 的 IE 补丁object-defineproperty-ie-master.zip
- 整卷预览.mhtml
- MySQL是一种广泛使用的开源关系型数据库管理系统,它提供了丰富的SQL语句用于数据库的创建、查询、更新和管理 以下是一些常见的
- MySQL是一种广泛使用的开源关系型数据库管理系统,它提供了丰富的SQL语句用于数据库的创建、查询、更新和管理 以下是一些常见
- MySQL是一种广泛使用的开源关系型数据库管理系统,它提供了丰富的SQL语句用于数据库的创建、查询、更新和管理 以下是一些常见的
- 基于Javascript的结婚请帖设计源码 - Invitation
- mysql语句大全及用法
- mysql语句大全及用法
- mysql语句大全及用法
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0