论文研究-基于云计算与医疗大数据的Apriori算法的优化研究 .pdf

所需积分/C币:15 2019-08-19 11:45:27 561KB .PDF
7
收藏 收藏
举报

基于云计算与医疗大数据的Apriori算法的优化研究,王达明,崔晓燕,本文对现有医疗数据挖掘技术中的关联规则算法进行分析与研究,在基于关联规则的经典Apriori算法的前提下,引入了兴趣度阈值对算法��
山国武花论文在丝 (1)基础设施应该是动态的、虚拟的。即基础设施应该根据使用者不同的应用和特姝的 要求采用不同的“化身”。 (2)当应用程序作为一项提供的服务时,应用程序的咨询也同时作为服务供应商的一部 分工作。这往往不是传统供应商的鲜明特征。 (3)一旦应用程疗被使用,供应商和用户之间需要建立起一个双向的连接,以便于处理 程序中的错误以及提供咨询服务。 (4)供应商有义务保证用户数据和程序的安全。 (5)由于供应商的计算机以及数据储存位置的国际性,日前没有相关法律适用于处理云 计算供应商及用户相关的纠纷。 医疗大数据 医疗大数据的产生 随着互联网的迅速发展和不断普及,云计算和物联网等技术也快速兴起,数据正在以 个前所未有的速度累积和扩张,一个属于人数据的时代已经到来,各种研究部门以及机构都 已经将目光放在大数据的问题上。所谓“大数据”,是指通过常用软件工具捕获、管理以及 处理数据所消耙时间超过了可容恐时间的数据集,在强调数据规模( )和多样性 )的同时,也考虑到了产生和变化的速度( )以及确定性 大数据不单单是一项单纯的新技术,而是将引领信息技术产业的又项颠覆性的卓新技术。 据相关预测,中国的大数据市场将在 年增长倍,其中,医疗卫生行业将是其 中占据份额最多的行业之 目前我国的医疗信息化建设进程不断加快,各类医疗卫生机构的信息系统以及数字医疗 设备和仪器的广泛应用使医疗数据呈爆炸性増长,这些数据资源是非常有价值的医疗卫生信 息,他们对疾病的诊断,治疗,研究有很人的价值,医疗费用控制ε医学数据量的快速増长 使医疗卫生行业迎来了属于自己的大数据时代,对这些医疗大数据的创新性管理和应用,将 给生命科学和医疗领域带来一场革命。 医疗大数据主要来自于包括临床医学、疾病监控、医学研究、制药企业、费用管理、生 物信息、健康管理、社交网络等方面,如何利用这些海量信息资源来更好地为医疗卫生行业 的诊断、治疗、科研、管理以及教学等方面服务,已被更多的研究人员和机构所关注。大数 据时代的来临无疑会对我国医疗行业信息化建设起到巨大的影响与推动作用,医疗大数据的 相关技术将解决以往无法解决的一些难点和问题,如何利用好大数据技术并且让其充分发挥 作用是今后相关科研工作者研究的重点 医疗大数据的特点 医疗大数据通常具有以下几个主要特征: (1)数据巨量化:区域医疗数据通常来自于拥有上百万人口以及上百家医疗机构的区域, 并且这些数据呈现逐年增长的趋势。而且依据医疗行业的相关规定,一位患者的数据通常需 要保留至少年。 ()服务实吋性:医疗服务的信息化数据中通常会存在大量在线或实时的数据分析及处 理需求。例如临床中的诊断以及用药建议、健康指标预警等等,这些数据都要求有一定的实 时性 (3)存储形式多样化:医疗数据的存储格式多种多样,既包括各种结构化数据表,还包 山国武花论文在丝 括·些非结构化或者半结构化的文本文档、医疗影像等。 (4)髙价值性:医疗数据所蕴含的价值巨大,对各国的疾病防控、药物研发以及健康保 健都有着十分巨大的作用。 根据相关数据统计显示,目前的医疗行业里,一张普通扫描的图像文件大小就超过 个基因组序列文件包含约 的数据:标准病理图包含的数据量就更大,甚 至接近;如果将这些数据人小乘以人口基数以及人的平均寿命的话,仅仅是一个社区 医院所要累积的数据量,就髙达甚至数量级,而且其中还包含了各种图像、视频 等非结构化的数据,而其他大型医疗机构的数据量就更加庞大 因此,如何能快速地在海量的医疗大薮据中提取到有用信息正成为各企业以及研究机构 的战略性发展方冋,通过大薮据挖掘分析,得到有价值的信息,将对木来的疾病管理、控制、 治疗以及研究等方面都有着非常重要的意义。 医疗云平台 云计算平台依赖于高端的服务器、交换机,构成的一种公用设施化的、可共享的架 构,使得大量的软件应用集聚于此公用设施上,可通过网络连接的形式获取、使用。云计 算可以在医疗行业中被广泛应用,在网终和信息技术飞速发展的今天,在云平台上可将医疗 信息系统、医疗信息服务系统、血液检验结果以及医学图像存储传输系统通过网络连接起来 ,基」厶汁算平合的数字化医院完全有可能实现。即通过云计算架构改造现有的医疗系统, 让每·个人都能在公共场所、学校、办公室等连接到医院,查询自己的个人医疗信息。 云计算的出现有效迎合了医疗大数据的各种特点,运用云计算平台作为服务的实现基 础,医疗大数据可以在云端进行存储和处理,从而达到令医疗大数据可以被随时随地访问 并为人们提供远程医疗服务。将大数据存储在云端一方面可以缓解本地存储的压力,另一方 面还可以将多用户数据融合存储并进行随时随地的访问,而医疗云平台中最重要的一项技术 就是如何对存储在云端的医疗大数据进行挖掘,从而发现用户有兴趣的内容 最常见的医疗数据挖掘就是关联规则的挖掘,如何发现一种最契合医疗大数据以及云计 算的关联规则挖掘算法是当下研究的重点。 基于医疗云平台的关联规则挖掘算法 关联规则的基本概念 定义设,是一个包含,,的项集合。对」已经给定的事务集 是的了集,若满足 则称包含,若集合中项的个数为,则称 集合为项集。 定义若项集 且∩=Φ,则形如→的衣达式被称为关 联规则。其中,为规则前项,为规则后项, 表示包含项集的事务集也可能会 包含项集。若包含项集的事务集有的概率也包含项集,则称 的置信度为 ;若事务集中有的事务包含项集∩,则称关联规则 的支持度为 置信度与支持度的具体表达式如下 公式 公式 定义当一个关联规则的支持度以及置信度都大于最小支持度阈值 及最小 山国武花论文在丝 置信度阈值 ,则称这个关联规则为强关联规则,具体条件如卜表示 公式 )≥ 公式 其中,最小支持度阈佶和最小置信度阙偵可根据具体应用自行定义。当控掘到的关联规 则同时满足这两个条件,则该关联规则有效,否则关联规则无效。 定义当一个事务集中的项集满足()≥ 时,称项集为频繁项集。 算法 算法的基本步骤 基于 算法的迭代可以通过并行化进行改进,所以本文米用 算法并进行优 化以适用于医疗厶平台的数据挖掘。 年 与 为关联规灲挖掘频繁项集的算法称为 算法。 算法通常用于挖掘布尔型、单层、单维关联规则。其核心思想是基于递推的两阶段频集 思想 算法利用的是频繁项集的先验知识,使用逐层搜索的迭代方式,通过频繁 项集搜索频繁项集。其具体步骤为:①首先扫描事务集中各事务出现的次数,将其 与设定的最小支持度阈值 进行比较,产生频繁项集,频繁项集即满足最小支 持度阈值 的事务集合,记作;然后利用频繁项集的值寻找频繁项集 通过该方法依次迭代,直到找不到频繁项集,则算法终止。②通过第一步得到频繁项集 生成满足最小置信度阈值 的关联规则。 在上述的 算法两个步骤中,由于箅一步需要对整个事务集进行扫描,其时间复 杂度很大,所以第一步发现频繁项集通常是整个算法性能的瓶颈 算法通常采用连 接步和剪枝步两个步骤来找出所有的频繁项集。 ()连接步: 为找出所有的频繁项集的集合,要先通过将所有的频繁项集的集合与自身 连接产生候选项集的集合,记作。设和是中的成员,记表示中的第项。 假设 算法将事务集及所有项集中的项都按照字母顺序排序,即对于项集中的 项 。将与自身连接,如果满足: ([1]=[1])&&([2]=[2])&&…&& (公式) )&&(「11 则认为和是可连接。连接和产生的结果是: (公式 (2)剪枝步: 是的超集,换句话说,里的项可能是也可能不是频繁项。通过扫描所有的事务, 确定中每个候选项岀现的次数,通过与最小支持度阈值 进行对比,最终确定该 候选项是否为频繁项。在这可以使用 的性质压缩从而简化计算:任意频繁项集 的所有非空子集也必须是频繁的,反之,如果某个候选的非空子集不是频繁的,那么该候选 肯定不是频繁的。通过这条性质,可以将那些不频繁的后旋即从中剪掉 算法具体步骤如下所述 ①」描事务集并通过与最小支持度阈值 进行比较生成频繁项集 ②通过对频繁项集自连接生成候选项集 山国武花论文在丝 ③计算每个侯选项的支持度,若其结果大于等于最小支持度 ,则加入频繁 项集,其中频繁项集的初始状态为空集: ④若频繁项集为空集,则频繁项集为最大频繁项集,跳转到生成关联规则的步骤 否则跳转②继续循环执行 算法的具体实现图如图所示 扫描数据车D 生成烦繁1项集 k=1 通过频繁k项集生成 候选(k+1)项集 对于候选(k+1)项集中的每个候选项, 通过拦描事务牢U得到其持度 与景小支持度餓值mn如P对比,最 婆得到频繁(k+1项集 生成关联规则↓Y形1)须是否空乘二 N K=k+1 图 算法实现图 作为最为经典的关联规则挖掘算法, 算法被各种行业、各个领域广泛应用,通 过对数据进行关联性分析和控掘, 算法可以得出许多对于决策和判断具有重要参考 价值的信息和规则。 算法的缺陷 按照上述步骤, 算法能够得岀所有的频繁项集,然后根据所设置的最小置信度 阈值 从各种海量的数据中挖掘出有用的关联规则。然而在实际应用,尤其是医疗 数据的挖掘中 算法存在以下弊端: (1)挖掘到的强关联规则是不正确的,通过 算法发现的强关联规则可能是与实际 情况不符,所以并不具有现实意义,同时还具有一定误导的作用,对于医疗人数据的挖 掘尤为重要,不但起不到辅助医疗的作用,而且可能造成错误的诊断。 (2) 算法的关联规则判定只通过设置文持度以及置信度的阈值,若把支持度阈值 设置得过低,尽管可以较完整地挖掘到冇效的关联规则,但是算法廾销过大,会提高算法的 吋间复杂度;袺将支持度阈值设置得过晑,则可能漏抻很多有用规则,无法保证算法的完整 性。这两种情况都会降低 算法的性能。 山国武花论文在丝 (3) 算法在生成候选频繁项集吋要多次遍历数据库,当数据库过于庞大时,系统 的负载会增大,而系统处速度缓慢,大大增加算法的时间复杂度,降低算法的效率。 引入兴趣度的改进 算法 通过各种兴趣度模型的对比与分析,以及对于医疗人数据挖掘的实际需要,本文提出了 一种更为适合的兴趣度模型,如下所示: (∪)-()() 公式 ()「1 本文的兴趣度模型综合了概率、差异性以及相关性的相关知识,结合了中兴趣度模型 的优点。关联规则 兴趣度的计算不但考虑到了前后项的耦合,还从概率学的角度引 入了关联规则→前后项的相关性。同时考虑了后项的概率对关联规则的影响。而基于 差异性的思想,通过将(→)与( )进行求差,可以通过所求得的兴趣 度( )的正负情况得知前项与后项是正相关还是负相关。 本文提出的兴趣度模型算得的兴趣度( )分布在区间之问,当 (→)>0时,说明前项与后项正相关;反之前项与后项负相关,即可能前 项会对后项起到抑制效果;而当(→) 时,说明挖掘到的关联规则 是用户感兴趣的关联规则 通过引入公式的兴趣度模型,木文对经典 算法进行了优化,以解决经典 算法存在的缺陷,对其进行优化。具体的改进 算法如下。 算法改进 算法发现频繁项集 输入:事务数据库;最小支持度计数阈值 输出:频繁项集 找出所有频繁项集 产生候选,并剪枝 扫描进行侯选计数 得到的子集 所有的频繁集 山国武技论文在丝 连接和 剪枝 子程序 的具体功能是根据项频繁集产生侯选项集。 是 循环次的函数,当所比较的两个项集和的前项都相同,只有最后一项不同时, 就对项集和进行连接,产生个新的阶的项集。在新产生的阶项集中,可能有不 是频繁项的候选项,这里就需要进行剪枝步,把那些非频繁项的候选项删除,以避免多余的 资源廾销,这就是 子程序所进行的工作。 算法改进 算法通过引入兴趣度牛成关联规则 输入:频繁项集,最小置信度阈值 ,最小兴趣度阈值 输出:所有用户感兴趣的关联规则 计算置信度 山国武技论文在丝 利用公式计算兴趣度 化的改进算法 发现频繁项步骤 基于 改进的 算法生成频繁项的流程图如下。 事务集D 数据块1 数据块 数据块N Map Map 求出局部选先项集 求出局部候选项集 求出局部候选项集 Reduce cce Reduce 生成全局候选项集 通过候选项集生成频繁项集 化 算法生成频繁项流稈 具体流程如下 (1)通过 将原始事务库划分个 数据块,然后将这些数据块发 送到个节点,节点各自执行任务 (2) 通过 接∏,将个数据块格式化为( )键值对 的形式,具体格式化为( ),其中为事务标识符,为事务集中的事务所对应 的项目 (3)执行函数,通过扌描每个数据块的( 函数先产生局部频繁 山国武花论文在丝 项集,再产生每个数据块的局部候选项集。局部候选项集的产生算法与经典 算法相同。然后计算局部候选项集的局部支持度 每个函数输出中间值 键值对( ),其中为局部候选项集的项, 为的局部支持度。 (4)在每个节点上执行 区数, 函数在本地将函数的输出进行合 并,然后利用函数将这些中间键值对划分为个不同的分区,并分别指派给节 点执行 任务。 (5)每个节点通过 函数将不同数据块的相同候选项集的支持度进行求和, 从而得到其仝局支持度。 (6)将局部侯选项集的全局支持度与最小支持度阈值 进行对比,从而得 到局部频繁项集 ()将个局部频繁项集进行融合,从而得到全局频繁项集。 (8)不断迭代,直至算法终结 其伪代码如下。 算法 化 算法生成频繁项 输入:分块后的事务集,最小支持度阈值 输出:频繁项集 发现频繁项步骤 通过以上步骤得到的频繁项牛成关联规则的步骤如下: (1)将数据的每一行切分为一个数据块,形成的键值对(),其中,为行偏移 量,为该行频繁项集中的一项;

...展开详情
试读 14P 论文研究-基于云计算与医疗大数据的Apriori算法的优化研究 .pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
weixin_39840924 如果觉得有用,不妨留言支持一下
2019-08-19
  • 至尊王者

    成功上传501个资源即可获取
关注 私信 TA的资源
上传资源赚积分or赚钱
    最新推荐
    论文研究-基于云计算与医疗大数据的Apriori算法的优化研究 .pdf 15积分/C币 立即下载
    1/14
    论文研究-基于云计算与医疗大数据的Apriori算法的优化研究 .pdf第1页
    论文研究-基于云计算与医疗大数据的Apriori算法的优化研究 .pdf第2页
    论文研究-基于云计算与医疗大数据的Apriori算法的优化研究 .pdf第3页

    试读结束, 可继续读2页

    15积分/C币 立即下载 >