没有合适的资源?快使用搜索试试~ 我知道了~
计算机研究 -聚类方法及应用研究.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 113 浏览量
2022-06-30
11:27:32
上传
评论 1
收藏 1.7MB PDF 举报
温馨提示
试读
72页
计算机研究 -聚类方法及应用研究.pdf
资源推荐
资源详情
资源评论
i.1数据挖掘及应用领域
第一章引言
1.1.I数据挖掘的定义及其发展历程
数据挖掘(Data
Mining)就是从大量的、不完全的、有噪声的、模糊的、随
机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和
知识的过程.许多人把数据挖掘视为另一个常用术语“数据库中的知识发现”的
同义词.而另一些人只把数据挖掘视为数据库中的知识发现过程的~个基本步
骤[1].发现了的知识可以被用于决策支持、过程控制、信息管理、查询优化等,
还可以用于数据自身的管理和维护.因此,数据挖捌是一门广义的交叉学科,它
汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行
计算等方面的学者和工程技术人员.
1989年8月,在美国底特律召开的第ll届国际人工智能联合会议的专题讨
论会上,“数据库中的知识发现”(KDD:Knowledge
Discovery
in
Database)
这一概念首次被提出.在1991、1993和1994年都举行了数据挖掘专题讨论会.
随着参加会议人数的增多,从1995年开始,每年都举办一次有关数据挖掘技术研
究的国际会议.1997年,介绍数据挖掘研究的杂志《知识发现与数据挖掘》创刊.
随着数据挖掘研究的不断深入,其研究成果越来越受到业界的关注.众多的数据
挖掘与知识发现系统和工具不断投入市场.较有代表性的数据挖掘工具主要有:
美国George
Mason大学Ryszard
S
Michalski领导开发的INKEN系统,它结合了
数据库、知识库和一个适用范围较宽的机器学习技术来辅助数据分析专家从数据
库或知识库中抽取知识并发现有价值的规律:美国Kansas大学开发的LERS系统,
是基于粗集理论的数据挖掘工具;美国SPSS公司研制了著名的数据挖掘工具箱
Clementi
rig,Clementine主要使用了神经网络、决策树和规则推导等技术,在实
际应用中取得了很好的效果;美国德士古公司的GeoProbe数据挖掘系统对地震
数据进行评估,在发现尼日利亚近海的阿哥巴米大油f:H的过程中起了重大作用,
该油田储量大约为1415亿桶:中国科学院计算技术研究所智能信息处理开放实
验室研制成功的多策略数据挖掘平台,提供决策树、支持向量机、粗糙集、模糊
聚类、基于范例推理、统计方法、神经计算、可视化等多种数据挖掘算法,支持
特征抽取、分类、聚类、预测、关联规则发现、统计分析等数据挖掘功能,并支
持高层次的决策分析功能.
1.1.2数据挖掘的对象
人们把原始数据看作足形成知识的源泉,就像从矿石中采矿一样,原始数据
多种多样,可以是结构化的,如关系数掘库中的数掘,也可以是半结构化的,如文
本、图像、图形数据,甚至是分布在网络上的异构型数据.发现知识的方法可以
是数学的,可以是非数学的,也可以是归纳的或是演绎的.
我们大致将数据挖掘的对象分为:关系数据库、面向对象数据库、空间数据
库、时态数据库、文本数据源、多媒体数据库、异质数据库以及环球网Web.
1.1-3数据挖掘的几个主要步骤
数据挖掘一般有以下几个主要步骤:数据收集:数据集成:数据选择;数据
变换;数据挖掘;数据挖掘结果的评估;知识表示.总之,数据挖掘过程需要多
次的循环反复,刁1有可能达到预期的效果.
1.1。4数据挖掘的任务
数据挖掘的任务,可分为分类模型发现、聚类、关联规则发现、序列分析、
偏差分析、数据可视化等[2],
●分类(elassification)
旨在生成一个分类函数或分类模型,该模型能把数据库中的数据项映射到给
定类别中的某一个.既可以用此模型分析已有的数据,也可以用它来预测未来的
数据.
●聚类(Clustering)
聚类是对记录分组,把相似的记录放在~个类别中.聚类和分类的区别是聚
集不依赖于预先定义好的类,不需要训练集.
●关联规则(Affinity
grouping
or
association
rules)
关联规则是一种简单却很实用的关联分析规则,它描述了一个事物中某些属
性同时出现的规律和模式.相关规则分析就是依据一定的可信度、支持度、期望
可信度、作用度建立相关规则,
●序列分析(Sequence
Analysis)
序列模式分析同样也是试图找出数据之间的联系.但它的侧重点在于分析
数据之间前后或因果关系,因此对数据往往要求引入时间属性.序列模式分析非
常适于寻找事物的发生趋势或重复性模式.
●偏差分析(Deviation
Analysis)
是用来发现与:i_【三常情况不同的异常和变化,并进一步分析这种变化是否是有
意的诈骗行为,还是正常的变化.如果是异常行为,则提示预防措施;如果是正
常的变化,那么就需要更新数据库记录.
●数据可视化(Description
and
Visualization)
数据可视化严格地讲不是一个单独的数据挖掘任务,它被用来支持其他挖掘
任务.可视化是采用图形、图表等易于理解的方式表达数据挖掘结果.
1.1.5数据挖掘的方法
数据挖掘的方法很多,可粗略地分为:机器学习方法、统计方法、神经网络
方法、决策树、可视化、最近邻技术等.在机器学习法中,可细分为归纳学习方
法(决策树、规则归纳等)、基于范例学习、遗传算法等;在统计方法中,可细分
为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、FISHER判别、非
参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、
相关分析法等)等.
1.1.6数据挖掘的主要应用
数据挖掘技术从一开始就是一门面向应用的技术.它不仅是面向特定数据
库的简单检索、查询、调用,而且要对这些数据进行微观、中观乃至宏观的统计、
分析、综合和推理,以指导实际问题的解决.它企图发现事件问的相互关联,甚至
利用已有的数据对未来的事物发展的趋势进行预测.
例如:加拿大某省电话公司要求加拿大SimonFraser大学EDD研究组,根据
其拥有十多年的客户数据,进行总结分析,最后提出既有利于公司也有利于客户
的新的电话收费和管理办法.美国NBA篮球队的教练,利用IBM公司提供的数据
挖掘技术,I临场决定替换队员,非常成功,在数据库界被传为佳话.美国钢铁公司
和神户钢铁公司利用基于KDD技术的ISPA系统,研究分析产品性能规律和进行质
量控制,取得了显著效果.通用电器公司(GE)与法困飞机发动机制造公司
(SNECMA),利用KDD技术研制了CASSIOPEE质量控制系统,被三家欧洲航空公司用
于诊断和预测波音737的故障,带柬了可观的经济效益.该系统于1996年获欧洲
一等创造性应用奖.享有盛誉的市场研究公司,如美国的AICINielson和
lnformation
Resources,欧洲的GFK和Tnfratest
Burk也纷纷使用KDD工具来
应付迅速增长的销售和市场信息数据。利用KDD所形成的市场预测能力和服务,
使这些市场研究公司取得了巨大收益.英国广播公司(BBC)也应用KDD技术来预
测电视收视率,以便合理安排电视节目时刻表.信用卡公司American
Express
自采用KDD技术后,信用卡使用率增加了lO%~15%.AT&T公司凭借ffDD技术侦探
国际电话欺诈行为,可以尽快发现国际电话使用中的不正常现象.我国的公安部
门也在研究利用KDD技术总结各类案件的共性和发生规律,从而在宏观上制定最
有效的社会治安综合治理的方案和措施;在微观上指出犯罪人的特点,划定罪犯
4
的范围,为侦破工作提供方向
数据挖掘的应用如此广泛,下面我们集中几个主要的应用领域进行说明:
●工程与科学研究领域
数据挖掘技术可应用于各种工程与科学数据分析.随着先进的科学数据收
集工具的使用,如DNA分子技术、观测卫星、遥感器等,面对庞大的数据,传统
的数据分析工具无能为力.数据挖掘技术以其强大的智能性和自动性,在工程和
科学研究中得到广泛应用[3].
●制造领域
制造业应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等.
例如HP公司的工程师使用Angoss
Software的Knowledge
Seeker来进行HP_c
彩色扫描仪的生产过程分析.他们基于大约200个参数建立了一个自动数据收
集系统,产生了难以手工处理的大量数据[4],
●市场领域
市场管理者们利用数据挖掘技术进行市场定位和消费者分析,辅助制定市场
策略.由于管理信息系统和POS系统在市场业的广泛普及,人们很容易得到顾客
购买情况的数据.利用数据挖掘技术,通过对顾客历史数据的分析,可以得到关
于顾客购买取向和兴趣的信息,无疑为商业决策提供了可靠的依据[5].
●金融领域
数据挖掘在金融领域的应用包括:金融市场分析和预测、帐户分类、银行担
保和信用评估等[6].
●司法
数据挖掘技术可应用于洗钱认证、犯罪组织分析、案件调查、诈骗监测等,
可以给司法工作带来巨大帮助.如美国金融犯罪执法网络(FinCEN:Financial
Crimes
Enforcement
Network)的FAIS(FinCEN
Artificial
Intelligence
System)
剩余71页未读,继续阅读
资源评论
programyp
- 粉丝: 86
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功