没有合适的资源?快使用搜索试试~ 我知道了~
基于空间序偶模式挖掘污染源与癌症病例的关系 .docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 11 浏览量
2022-06-26
16:12:58
上传
评论
收藏 356KB DOCX 举报
温馨提示
试读
27页
基于空间序偶模式挖掘污染源与癌症病例的关系 .docx
资源推荐
资源详情
资源评论
1 引言
癌症一直以来都是威胁人类身体健康的疾病之一 是全世界需要共同面对的
公共健康问题。根据世界卫生组织()和癌症研究相关机构估计 年
在全球有 万新发病例和 万死亡病例与癌症相关若不采取有效的控制
措施预计到 年前全世界范围内每年将新增高达 万癌症病例
年将增至 万到 年这一数字将增至 万
。然而癌症治疗技术一
直以来发展缓慢始终没有质的突破所以通过治疗降低癌症致死率并不现实而在
计算机技术蓬勃发展的今天应用新兴技术通过预防降低癌症发病率已经可以实
现。研究癌症发病原因发现遗传因素大约占 而环境因素占比高达
以上
。因此研究生活环境中污染源与癌症病例之间的关系具有重要意义能为癌
症的预防和治疗提供帮助。
空间 (并置)模式是一组空间特征的一个子集其实例在空间中
频繁并置出现。例如医院附近往往都有药店西尼罗河病毒经常发生在蚊子泛滥、
饲养家禽的区域等。空间 模式挖掘是空间数据挖掘中的一项重要任
务其在医学影像、疾病防控、生态保护等领域均具有广泛的应用。在过去的数
十年里国内外学者分别提出了相应的空间 模式的挖掘方法
。
传统的空间 模式挖掘方法由用户给定一个邻近距离阈值来判定特征
的实例是否邻近在挖掘模式的过程中采用空间实例参与到模式实例的参与率度
量特征在模式中的重要性最后采用模式中特征的最小参与率作为模式参与度来
度量模式的频繁(有趣)程度最终获得频繁空间 模式。
然而在不同的应用背景下让没有相关领域知识的用户给出一个合适的邻近
距离阈值对用户来说是一个不小的挑战。如果用户给出一个不合适的邻近距离
阈值很容易造成邻近关系的缺失或错误从而导致挖掘结果不准确。为了避免用
户给出不合适的邻近距离阈值 可以引入 图来解决该问题。 图
由相邻生成元之间连线的垂直平分线组成的连续多边形构成与 图中的
其他生成元相比落入某多边形内的点都是距离该多边形的生成元最近的点。所
以基于这一性质无需用户给出具体的邻近距离阈值利用癌症实例集作为生成元
构造 图对污染源进行划分即可以找到离癌症病例最近的污染源。
另外空间 模式通常都是在基于参与度的基本框架下进行挖掘
但是根据参与度挖掘出的空间 模式可能会忽略特征之间的关系导致
挖掘出大量用户不感兴趣的模式增加用户的困惑。例如若用户想要了解污染源
与癌症之间的关系从而在选择居住地时能有效避开不适宜居住的区域。在传统
的模式挖掘框架下两个频繁空间 模式造纸厂采矿场和造纸厂淋
巴癌都会提供给用户但用户关注的是癌症可能会与哪些污染源有内在联系而
不是哪些污染源在空间上相互邻近且经常位于一起。所以相比于模式 造纸厂采
矿场模式造纸厂淋巴癌才是用户更加感兴趣的蕴含的信息也更有意义。再
例如若用户要研究昆虫与植物之间的关系从而利用昆虫对植物进行授粉来节约
人力成本提高果实产量。那么用户对模式榕小蜂无花果比对模式榕小蜂黄
猄蚁和无花果榕树更加感兴趣因为模式榕小蜂无花果蕴含的信息正是昆虫
与植物之间的关系信息。基于以上思考本文提出一种新的挖掘框架定义了频繁
强空间序偶模式新概念。
进一步分析传统的空间 模式挖掘都是基于团实例模型进行的
要求模式中的所有空间实例两两之间相互邻近。然而现实生活中癌症病例住址
周围可能会有多个污染源这些污染源对该癌症病例都有影响无论污染源之间是
否邻近若按团实例模型进行挖掘可能会忽略不邻近的污染源都对同一个癌症病
例有影响的情况。因此团实例模型并不适用于挖掘目标。相比之下星型实例模
型就能较好地解决该问题它不要求模式中的所有实例之间相互邻近能够挖掘出
不邻近的污染源对同一个癌症病例都有影响的情况所以能够挖掘出更多合理的
和有意义的结果。
另一方面传统的空间 模式挖掘方法只考虑空间实例之间是否邻
近而不关心实例之间邻近的程度。这就存在一个问题用户只能得知哪些污染源
与癌症频繁并置出现并不能知晓这些污染源对癌症影响的大小而影响的大小也
是用户较为关心的。所以在研究污染源与癌症之间的关系时不仅需要考虑污染
源与癌症病例之间是否邻近根据 !" 的地理学第一定律
也需要考虑它们之
间邻近的程度因此本文提出的挖掘方法不仅考虑了污染源与癌症病例之间是否
邻近也考虑了污染源对癌症病例影响的距离衰减效应。通常一个癌症病例附近
可能有多个污染源它们都对同一癌症病例有影响所以本文挖掘方法也将多个污
染源对同一癌症病例影响的叠加效应考虑进去。
综上所述传统的空间 模式挖掘方法存在诸多问题并不适用于
研 究 污 染 源 与 癌 症 病 例 之 间 的 关 系 。 为 解 决 上 述 问 题 本 文 提 出 一 种 基 于
图的空间序偶模式挖掘新方法相比传统的空间并置模式空间序偶模式
更具针对性对分析某些类似重大疾病(如癌症)与生活环境(如污染源)的关
系解决病源追溯、疾病控制和预防等具有积极作用。
本文的主要贡献包括以下 个方面:
()基于 图对污染源实例集进行划分刻画污染源特征与癌症特征
的空间分布特性#
()根据空间特征的分布特性提出全局截断值的概念并结合星型实例模
型定义污染源实例与癌症实例间的邻近关系并且全局截断值不需要用户给出#
()给出空间序偶模式的相关定义提出基于距离衰减效应和影响叠加效应
来评估污染源特征对癌症特征的影响程度的方法设计了挖掘频繁强空间序偶模
式的基本算法和相应的剪枝优化算法#
()在真实数据集和合成数据集上进行大量实验验证了所提挖掘算法是正
确的和有效的。
2 相关工作
空间 模式挖掘一直以来都是空间数据挖掘中的一个热点一般将
特征的最小参与率作为空间 模式的有趣性度量指标
同时文献
提
出一种基于完全连接的挖掘算法#文献
提出一种部分连接的挖掘算法该算法将
实例连接分为块内连接和块间连接降低了完全连接的挖掘算法的开销提升挖掘
效率#文献
提出一种无连接的挖掘算法该算法将空间数据物化为星型邻居通
过查找星型实例避免了文献
中开销巨大的表实例连接操作进一步降低算法的
开销提升挖掘效率。为降低产生大量候选集和存储大量表实例所带来的计算开
销文献
提出一种 $%&"" 算法该算法是在 $%&"" 算法的基础上进一步优
化提高空间 实例计算的速度。为压缩大量的空间 模式
文献
提出闭频繁 模式挖掘算法#文献
提出模式的冗余缩减算法
和代表性频繁 模式挖掘算法#文献
提出极大频繁 模式
挖掘算法#文献
提出极小负 模式挖掘算法#文献
则提出一种新
的 模式支持度度量方法。
针对不同的空间数据类型和特性文献
提出一种不确定性数据的空间
模式挖掘算法#文献
研究了从区间数据中挖掘空间 模式
的算法#文献
针对模糊数据提出两种算法挖掘模糊空间 模式#文
献
针对带稀有特征的数据集提出加权参与度的概念和挖掘带稀有特征的空
间 模式的算法#文献
针对数据带效用提出一种确定特征在模式中
效用权重的方法和挖掘空间高效用 模式的算法#文献
针对扩展空
间对象提出基于缓冲区模型来度量扩展对象的空间关系和无连接的算法挖掘扩
展对象空间 模式。
上述所有算法都需要用户给出距离阈值将空间实例划分为邻近实例和非邻
近实例这一限制条件也让算法的效率和结果的准确性在很大程度上受到用户的
主观性影响。为解决上述问题专家们也给出了相应的解决方法。文献
使用
'"() 三角形剖分来生成实例之间的邻近关系提出一种无距离阈值挖掘空间
模式的算法#文献
给出一种新颖的迭代挖掘框架提出通过迭代选
择信息边来构建邻域图从而实现无距离阈值挖掘空间 模式的算法#
文献
提出一种采用 k 最近邻图代替距离阈值挖掘区域 模式的算
法#文献
提出一种基于网格的扩展空间对象事务并且采用统计测试的方法挖
掘统计上显著的空间 模式的算法以确定儿童癌症病例和污染物排放
之间的相关性#文献
提出一种结合模糊理论运用聚类的方法挖掘恶性肿瘤与
工业污染之间的模糊关系的算法它将工业污染源与恶性肿瘤病例散落在一个个
小区域中在每个区域中对恶性肿瘤病例运用传统 *"++ 算法进行处理对工业
污染源运用聚类的方法进行模糊化处理采用决策表进行规则提取。上述方法均
存在一定的局限性不能很好地解决本文所提出的问题。
为使空间 模式在一般场景下得到更加广泛的应用研究人员做了
大量的工作但是大部分算法只关注模式中空间特征并置的频繁程度默认空间特
征的重要性是相同的而且忽略了不同应用背景下模式中空间特征的特殊性和特
征之间的相互作用程度。所以为了研究污染源与癌症的关系 本文在结合前人研
究的基础上提出空间序偶模式的概念并给出一种全新的频繁强空间序偶模式挖
掘算法#为提高挖掘效率同时也给出了剪枝优化算法。
3 相关定义及性质
,基本定义
在现实生活中空间特征之间往往存在相互作用和相互影响的关系但也时常
存在一种空间特征对另一种空间特征产生影响但反之则不然的情况换句话说这
种影响是单向的例如污染源对癌症病例的影响就是一个典型的单向影响的例子。
本文致力于研究污染源与癌症的关系因此考虑将空间特征集分为污染源特征集
与癌症特征集。
给定一个空间特征集 F-.f
.f
/.f
n
污染源特征集 PF 表示一组污染源特
征的集合PF-p
i
0.p
i
∈.F是空间特征集 F 的子集即 PF⊆F将 PF 中的任一特征
p
i
称为污染源特征。把一个具体空间位置上的污染源对象称为污染源实例 将污
染源实例的集合称为污染源实例集记为 I
P
-I
∪I
∪/I
0PF0
其中 I
i
(1i10PF0)是对
应的污染源特征 p
i
的污染源实例集合。
相应地癌症特征集 CF 表示一组癌症特征的集合是空间特征集 F 中的污染
源特征集 PF 的补集即 CF-c
s
0c
s
∈Fc
s
∉PF将 CF 中的任一特征 c
s
称为癌症
特征。把一个具体空间位置上的癌症对象称为癌症实例将癌症实例的集合称为
癌症实例集记为 I
C
-I
∪I
∪/I
0CF0
其中 I
s
(1s10CF0)是对应的癌症特征 c
s
的癌
症实例集合。
空间特征及其实例分布示例如图
所示包含污染源特征集 PF-23污染
源实例集 I
P
-2,2,2,2,2,3,3,3, 癌症特征集 CF-!和癌症实
例集 I
C
-,,,!,!,!,!,。
图
图 1空间特征及其实例分布示例
Fig.1An Example of Spatial Features and Instances Distribution
现实生活中患癌在很大程度上与癌症病例住址附近的多个污染源有密切关
系距离污染源越近癌症病例受影响的程度越大。所以在研究污染源与癌症的关
系时首先需要找出距离癌症病例住址最近的污染源即对癌症病例影响最大的污
染源实例于是给出以下定义。
将癌症特征 c
s
的实例集作为生成元构造相应的 图将根据
多边形对污染源实例集的划分称为污染源实例集关于癌症特征 c
s
的 划
分记为 VP(c
s
)。
例如图
是污染源实例集关于癌症特征 a 的 划分记为 VP(a)图
是污染源实例集关于癌症特征 b 的 划分记为 VP(b)。
图
图 2污染源实例集关于癌症特征 a 的 Voronoi 划分
Fig.2Voronoi Partition of Pollution Source Instance Set on Cancer
Featurea
图
图 3污染源实例集关于癌症特征 b 的 Voronoi 划分
Fig.3Voronoi Partition of Pollution Source Instance Set on Cancer
Featureb
基于 划分给出 邻居集的定义。
剩余26页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3542
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功