基于隐私保护的数据挖掘技术研究
摘 要:随着信息技术的不断发展,人们对潜在知识的需求愈发强烈,数据
挖掘技术的出现顺应了社会的发展。但是每样新事物都有利有弊,目前人们在进
行知识挖掘过程中,隐私保护问题就变得日益突出。调查显示,目前个人隐私信
息被泄露甚至被盗用现象严重,因此在数据挖掘领域,对基于隐私保护技术的研
究显得尤为重要。本文介绍了数据挖掘的基本概念和常用的算法,详细说明了基
于隐私保护的数据挖掘技术中的概化 / 隐匿技术。
关键词:隐私保护;算法;数据挖掘
1 数据挖掘简介
数据挖掘(Data Mining,DM)一般是指通过算法搜索从大量的数据中查找
隐 藏 于 其 中 信 息 的 过 程 , 也 可 以 称 为 在 数 据 库 中 进 行 知 识 发 现 的 过 程
(Knowledge Discovery in Database, KDD)。数据挖掘可以理解为从海量、趋势
不明显、繁杂的数据中经过一系列的归纳提炼后,提取或“挖掘”知识的过程,其
流程如图所示。目前,数据挖掘已经被广泛应用于社会各个领域,如股票分析、
医学研究、工程设计、生产控制、金融管理、科学探索等。
目前常用的数据挖掘算法有决策树、关联规则、聚类分析、统计分析、粗糙
集等。
1.1 决策树
决策树它是一种典型的分类方法 它主要应用于分类挖掘。该算法首先对数
据进行处理,利用归纳算法生成可读的规则和决策树,然后对决策树进行剪技,
使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的
过程。
1.2 粗糙集
粗糙集近年来越来越受到重视 ,该算法适合处理数据量大、不完备、不一
致的数据,它是一种处理不确定性的数学工具,有着广阔的发展空间和应用前景。
1.3 聚类分析
聚类是将数据分为多个数据集合,每个数据集合中的数据具有较高的相似
度,不同的数据集合间则差别甚远。该算法是利用相似度的差别最大限度的发现
某种存在的潜在规则。聚类分析是数据挖掘中的一个很活跃的研究领域,它综合
了机器学习、数据挖掘、模式识别、物理等领域的研究成果。
1.4 关联规则