数据挖掘的前世今生
摘要:数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、 统
计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的
数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、
工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的产生、定义与研
究历史,并对国内外的研究现状及研究热点进行了总结,最后指出其发展趋势及问题所在。
随着信息时代的到来,许多行业如商业、企业、科研机构和政府部门等迅猛发展,信息
化程度逐渐加深,海量的、不同形式存储的数据资料迅速膨胀。这些海量数据中往往隐含着
各种各样有用的信息,而仅仅依靠数据库的查询检索机制和统计学方法又很难获得这些信息,
迫切需要一种技术能自动地、智能地将待处理的数据转化为有价值的信息,从而达到为决策
服务的目的。在这种情况下一个新的技术——数据挖掘(Data Mining,DM) 技术应运而生。
数据挖掘所要处理的问题,就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,
或者说,从数据库中获取有意义的信息以及对数据归纳出有用的结构,作为决策的依据。同
时,数据挖掘还能探索出数据库中那些先前从未被关心或知悉的数据信息,这些信息对于决
策者来说,往往具有重要的意义[1]。
一、数据挖掘的产生与概念
1.数据挖掘的产生
数据挖掘的出现是一个逐渐演变的过程。电子数据处理的初期,人们试图实现自动决策
支持,当时人们关心与研究的焦点主要是机器学习。机器学习的过程是先将已知的并被成功
解决的范例输入计算机,然后机器通过学习这些范例总结并生成相应的通用规则,这些规则
常被使用来解决某一类问题。随着神经网络技术的形成和发展,人们的注意力开始转向知识
工程。知识工程的过程不同于机器学习,而是直接在计算机上输入代码化的规则,计算机通
过使用这些规则来解决某些问题。专家系统就是基于这种方法所得到的成果,但它有许多不
足,比如,投资大、效果不甚理想等。
80 年代,在新的神经网络理论的指导下,关注焦点重新回到机器学习,其成果被广泛
地应用于处理大型商业数据库。在 80 年代末,出现了一个新的术语——数据库中的知识发
现,简称 KDD(Knowledge Discovery in Database),它泛指所有从源数据中发掘模式或联系的
方法。KDD 描述了整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,