T摘要:T
T 顾名思义, 数据挖掘就是从大量的数据中挖掘出有用的信息。它是根据人
们的特定要求,从浩如烟海的数据中找出所需的信息来,供人们的特定需求使用。
2000 年 7 月,IDC发布了有关信息存取工具市场的报告。1999 年,数据挖掘市
场大概约为 7.5 亿美元,估计在下个 5 年内市场的年增长率为 32.4%,其中亚太
地 区为 26.6%。到 2002 年,该市场会发展到 22 亿美元。据国外专家预测,随
着数据量的日益积累和计算机的广泛应用,在今后的 5—10 年内,数据挖掘将 在
中国形成一个新型的产业。T
T 为了帮助大家了解数据挖掘的基本理论和方法,我们从HTTU“数据挖掘讨论组”
网站UTTH上整理加工了一组有关该概念的基本知识,省却了纷繁的技术方法,供读者
学习参考。T
第一课 HTU数据挖掘技术的由来UTH 第二课 HTU数据挖掘的定义UTH
第三课 HTU数据挖掘的研究历史和现状UTH 第四课 HTU数据挖掘研究内容和本质UTH
第五课 HTU数据挖掘的功能UTH 第六课 HTU数据挖掘常用技术UTH
第七课 HTU数据挖掘的流程UTH HTU UTH第八课 HTU数据挖掘未来研究方向及热点UTH
第九课 HTU数据挖掘应用UTH 第十课 HTU实施数据挖掘项目考虑的问题UTH
URL:HTUhttp://www.stcsm.gov.cn/learning/lesson/xinxi/20021125/lesson.aspUTH
第一课 数据挖掘技术的由来
T T T HTTU1.1 网络之后的下一个技术热点UTTHT
T T T HTTU1.2 数据爆炸但知识贫乏UTTHT
T T T HTTU1.3 支持数据挖掘技术的基础UTTHT
T T T HTTU1.4 从商业数据到商业信息的进化UTTHT
T T T HTTU1.5 数据挖掘逐渐演变的过程UTTH T
T1.1 网络之后的下一个技术热TT点T
我们现在已经生活在一个网络化的时代,通信、计算机和网络技术正改变着
整个人类和社会。如果用芯片集成度来衡量微电子技术,用CPU处理速度来衡量
计 算机技术,用信道传输速率来衡量通信技术,那么摩尔定律告诉我们,它们
都是以每 18 个月翻一番的速度在增长,这一势头已经维持了十多年。在美国,
广播达到 5000 万户用了 38 年;电视用了 13 年;Internet拨号上网达到 5000
万户仅用了 4 年。全球IP网发展速度达到每 6 个月翻一番,国内情况亦然。 1999
年初,中国上网用户为 210 万,现在已经达到 600 万。网络的发展导致经济全球
化,在 1998 年全球产值排序前 100 名中,跨国企业占了 51 个, 国家只占 49
个。有人提出,对待一个跨国企业也许比对待一个国家还要重要。在新世纪钟声
刚刚敲响的时候,回顾往昔,人们不仅要问:就推动人类社会进步而 言,历史
上能与网络技术相比拟的是什么技术呢?有人甚至提出要把网络技术与火的发明
相比拟。火的发明区别了动物和人,种种科学技术的重大发现扩展了自然人 的
体能、技能和智能,而网络技术则大大提高了人的生存质量和人的素质,使人成
为社会人、全球人。
现在的问题是:网络之后的下一个技术热点是什么?让我们来看一些身边俯
拾即是的现象:《纽约时报》由 60 年代的 10~20 版扩张至现在的 100~200 版,
最高曾达 1572 版;《北京青年报》也已是 16~40 版;市场营销报已达 100 版。
然而在现实社会中,人均日阅读时间通常为 30~45 分钟,只能浏览一份 24 版
的报纸。大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过
量,难以消化;第二是信息真假难以辨识;第三是信息安 全难以保证;第四是
信息形式不一致,难以统一处理。人们开始提出一个新的口号:“要学会抛弃信
息”。人们开始考虑:“如何才能不被信息淹没,而是从中及时 发现有用的知
识、提高信息利用率?”
面对这一挑战,数据开采和知识发现(DMKD)技术应运而生,并显示出强大
的生命力。
T1.2 数据爆炸但知识贫TT乏T
另一方面,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人
们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够
对其 进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以
高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规
则,无法根 据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识
的手段,导致了“数据爆炸但知识贫乏”的现象。
T1.3 支持数据挖掘技术的基TT础T
数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商
业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,
进而 发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的
阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜
在联系,从 而促进信息的传递。现在数据挖掘技术在商业应用中已经可以马上
投入使用,因为对这种技术进行支持的三种基础技术已经发展成熟,他们是:
- - 海量数据搜集
- - 强大的多处理器计算机
- - 数据挖掘算法
Friedman[1997]列举了四个主要的技术理由激发了数据挖掘的开发、应用和研究
的兴趣:
- - 超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录;
- - 先进的计算机技术,例如更快和更大的计算能力和并行体系结构;
- - 对巨大量数据的快速访问;
- - 对这些数据应用精深的统计方法计算的能力。
商业数据库现在正在以一个空前的速度增长,并且数据仓库正在广泛地应用
于各种行业;对计算机硬件性能越来越高的要求,也可以用现在已经成熟的并行
多处 理机的技术来满足;另外数据挖掘算法经过了这 10 多年的发展也已经成为
一种成熟,稳定,且易于理解和操作的技术。
T1.4 从商业数据到商业信息的进TT化T
从商业数据到商业信息的进化过程中,每一步前进都是建立在上一步的基础
上的。见下表。表中我们可以看到,第四步进化是革命性的,因为从用户的角度
来看,这一阶段的数据库技术已经可以快速地回答商业上的很多问题了。
进化阶段 商业问题 支持技术 产品厂家 产品特点
数据搜集
(60 年代)
“过去五年中我的总
收入是多少?”
计算机、磁带和磁盘 IBM,CDC
提供历史性
的、静态的数
据信息
数据访问
(80 年代)
“在新英格兰的分部
去年三月的销售额
是多少?”
关系数据库
(RDBMS),结构化查
询语言(SQL),ODBC
Oracle 、 Sybase 、
Informix 、 IBM 、
Microsoft
Oracle 、 Sybase 、
Informix 、 IBM 、
Microsoft
在记录级提供
历史性的、动
态数据信息
数据仓库;
决策支持
(90 年代)
“在新英格兰的分部
去年三月的销售额
是多少?波士顿据
此可得出什么结
论?”
联机分析处理
(OLAP)、多维数据
库、数据仓库
Pilot、 Comshare、
Arbor 、 Cognos 、
Microstrategy
在各种层次上
提供回溯的、
动态的数据信
息
数据挖掘
(正在流
行)
“下个月波士顿的销
售会怎么样?为什
么?”
高级算法、多处理器计
算机、海量数据库
Pilot 、 Lockheed 、
IBM、SGI、其他初
创公司
提供预测性的
信息
表一、数据挖掘的进化历程。
数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智
能、机器学习。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛
的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。
T1.5 数据挖掘逐渐演变的过程T
数据挖掘其实是一个逐渐演变的过程,电子数据处理的初期,人们就试图通
过某些方法来实现自动决策支持,当时机器学习成为人们关心的焦点.机器学习
的过 程就是将一些已知的并已被成功解决的问题作为范例输入计算机,机器通
过学习这些范例总结并生成相应的规则,这些规则具有通用性,使用它们可以解
决某一类的 问题.随后,随着神经网络技术的形成和发展,人们的注意力转向知
识工程,知识工程不同于机器学习那样给计算机输入范例,让它生成出规则,而
是直接给计算机 输入已被代码化的规则,而计算机是通过使用这些规则来解决
某些问题。专家系统就是这种方法所得到的成果,但它有投资大、效果不甚理想
等不足。80 年代人们 又在新的神经网络理论的指导下,重新回到机器学习的方
法上,并将其成果应用于处理大型商业数据库。随着在 80 年代末一个新的术语,
它就是数据库中的知识发 现,简称KDD(Knowledge discovery in database).
它泛指所有从源数据中发掘模式或联系的方法,人们接受了这个术语,并用KDD
来描述整个数据发掘的过程,包括最开始的制定业务目标到 最终的结果分析,
而用数据挖掘(data mining)来描述使用挖掘算法进行数据挖掘的子过程。但
最近人们却逐渐开始使用数据挖掘中有许多工作可以由统计方法来完成,并认为
最好的策略是将统计 方法与数据挖掘有机的结合起来。
数据仓库技术的发展与数据挖掘有着密切的关系。数据仓库的发展是促进数
据挖掘越来越热的原因之一。但是,数据仓库并不是数据挖掘的先决条件,因为
有很多数据挖掘可直接从操作数据源中挖掘信息。
第二课 数据挖掘的定义
T T T HTTU2.1 技术上的定义及含义UTTHT
T T T HTTU2.2 商业角度的定义UTTHT
T T T HTTU2.3 数据挖掘与传统分析方法的区别UTTHT
T T T HTTU2.4 数据挖掘和数据仓库UTTHT
T T T HTTU2.5 数据挖掘和在线分析处理(OLAP)UTTH T
T T T HTTU2.6 数据挖掘,机器学习和统计UTTHT
T T T HTTU2.7 软硬件发展对数据挖掘的影响UTTH T
T2.1 技术上的定义及含义T
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、
随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有
用的信息和知识的过程。
与 数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包
括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣
的知 识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准
的知识,仅支持特定的发现问题。
----何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们
更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的
源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库
中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络
上的 异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是
演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支
持和过程控 制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学
科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提
供决策支持。在这 种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技
术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术
人员,投身到数据挖掘这 一新兴的研究领域,形成新的技术热点。
这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发
现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有
发现 的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还
要能够易于被用户理解。最好能用自然语言表达所发现的结果。
T2.2 商业角度的定义T
数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大
量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的
关键性数据。
简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经
有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,
由于 当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大
限制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,
这些数据不 再是为了分析的目的而收集的,而是由于纯机会的(Opportunistic)