没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
数据库里的知识发现
——Lu Meiliu:Ph.D.,Professor,Department of Computer
Science,California State University,Sacramento,CA 95819—
6021,USA.
作 者:
卢美律
作者简介:
卢美律 博士,教授,加州州立大学计算机科学系。
原发信息:
《科学》(沪)1997年第06期 第25-28页
关 键 词:
数据库/知识发现/数据开采
期刊名称: 《图书馆学、信息科学、资料工作》
复印期号: 1998年02期
随着计算机数据管理技术的进步,各行各业生成和收集数据的能力大为提高,数
据量与日俱增。据估计当今信息量每20个月就翻一倍。知识是人类的宝贵财富,在这
些堆积如山的数据中包含着许多待提取的有用知识。这些知识就如同成熟的庄稼,不
及时收割便会浪费,人们迫切需要新一代的计算技术和工具来帮助开采数据山中蕴藏
的矿藏,并加以提炼,使之成为有用知识。该类技术和工具的研究和开发已形成了一
个新兴领域,叫作数据库里的知识发现(KDD,knowledge discovery in databases
),也可以称为数据库探宝。该名称是1989年首届KDD 讨论会上定义的,旨在强调
知识是人们在数据中探索的最终目标。
作为一个新兴的领域,KDD吸引了多个学科的关注。KDD过程是一个多步骤数据
中探宝的过程,其中关键步骤是数据开采(data mining ),开采所得结果经过适当
的解释和处理便转换成可用的知识。
多学科的新兴领域
在KDD这个新兴的领域中,汇集了来自机器学习、模型识别、 数据库、统计学
、人工智能以及管理信息系统等各学科的成果。多元化的投入使这一学科得以蓬勃发
展,而且已初具规模。在连续六年的研讨年会后,1995年夏在加拿大成功地举行第一
届KDD国际会议, 此后每年都有KDD的国际会议在夏季举行。在美国国家科学基金
会(NSF)的数据库研究项目中,KDD被列为90年代最有价值的研究项目。 人工智
能研究领域的科学家也普遍认为,下一个人工智能应用的重要课题之一将是以机器学
习算法为主要工具进行大规模的数据开采。
除了数据开采这个重要步骤外,KDD 的其余步骤对于从数据中揭示有价值的知
识也必不可少,否则便是盲目开采,无法找到真正有用的东西。连同数据开采在内,
KDD过程还有:数据预处理、数据抽样、 数据清理、综合已知知识、解释开采结果
。只有对全过程的每一个必要的步骤给予足够重视,数据中的探宝才不会是徒劳一场
。
KDD 与机器学习以及模式识别领域交叉之处是数据开采理论和算法,即构造数
据模型以揭示某种规律。KDD 着眼于找出易于理解的规律,然后将其表达成有参考
价值的知识,并侧重于大规模的实际应用数据开采。
KDD与统计学也有着许多共同感兴趣的研究领域, 特别在数据分析方法的开发
方面, 统计方法旨在从抽样分析中提取未知的数据模型。KDD软件系统常常会包括
一定的统计过程,诸如数据抽样和建模、 判断假设以及误差控制。但KDD的统计过
程与传统的统计过程不同,KDD较注重模型的提取而且通常是在较大的数据集里进行
,数据结构也较为丰富。
KDD 与数据库领域紧密相关, 与之邻近的一个领域是数据仓库(data
warehousing)。该领域研究的主题是用计算机存放、收集、清理日常需处理的数据
,使之随时可供查用。这类技术又称为联机分析处理(OLAP,on-line analytical
processing),OLAP旨在简化和支持联机分析,而KDD的目的则在于使这一过程尽
可能地自动化。
剩余12页未读,继续阅读
资源评论
乌南竹
- 粉丝: 1941
- 资源: 374
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功