没有合适的资源?快使用搜索试试~ 我知道了~
计算机研究 -高维稀疏聚类知识发现及其在连锁超市中的应用.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 77 浏览量
2022-06-25
19:01:56
上传
评论
收藏 1.52MB PDF 举报
温馨提示
试读
51页
计算机研究 -高维稀疏聚类知识发现及其在连锁超市中的应用.pdf
资源推荐
资源详情
资源评论
摘要
数据挖掘是从大量数据中提取人们感兴趣的信息和知识。这些知识往往是隐
含的、有用的、尚未发现的信息和知识。数据挖掘已经引起了人们的广泛关注,
目前成为国内外数据库和信息决策领域的最前沿研究方向。聚类是数据挖掘领域
最为常用的技术之一,用于发现在数据库中未知的对象类。聚类是现实世界中普
遍存在的现象,其应用非常广泛。
本文主要围绕高维聚类对数据挖掘的理论和方法进行了以下几方面的工作:
首先归纳了数据挖掘技术的发展状况,包括数据挖掘的定义、数据挖掘的流
程、功能等基本概念和技术,而且还探讨了数据仓库和数据挖掘的关系。数据仓
库作为一种新型的数据存储方式,为数据挖掘提供了新的支持平台,其内在的对
决策的支持能力,为数据挖掘开辟了新的空间。
其次对聚类问题进行深入地研究。迄今为止,人们提出了许多用于大规模数
据库的聚类算法。其中大多数算法可以高效地处理低维数据,但是随着数据的维
数增加,它们的执行效率将会急剧下降。而少数可以处理高维数据的算法却存在
效率低下或聚类结果质量差等问题。通过对高维聚类问题的深入研究及对已有高
维聚类算法的分析比较,本文提出了一种可以高效地处理高维稀疏聚类问题的基
于特征标识的聚类方法(SCM)。
最后论述了SCM聚类方法在连锁超市中的应用,其中构建了同时支持营销
分析及多维数据分析的数据模型,基于该数据模型的数据存储,直接为发现聚类
知识提供了高质量的数据源。
关键字:数据挖掘、知识发现、聚类、高维数据
1.1引言
第一章绪论
进入九十年代,伴随着因特N(Intemet)的出现和发展,以及随之而来的企业
内部网fintranet)和企业外部网(Extranet)以及虚拟私有网(VPN:Virtua/Private
Network)的产生和应用,将整个世界联成一个小小的地球村,人们可以跨越时空、
地域在网上交换数据信息和协同工作。这样,展现在人们面前的己不是局限于本
部门,本单位和本行业的庞大数据库,而是浩瀚无垠的信息海洋,数据洪水正向
人们滚滚涌来。当数据量极度增长时,如果没有有效的计算机及信息技术来提取
有用信息和知识,人们也会感到面对信息海洋像大海捞针一样束手无策。据估计,
一个大型企业数据库中数据,只有百分之七得到很好应用。【l
J
现在,数据可以存放不同类型的数据库中。最近出现的一种数据库结构是数
据仓库,它是~种多个异种数据源在单个站点以统一的模式组织的存储,以支持
管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理(0LAP)。联
机分析处理是一种分析技术,具有汇总、合并和聚集功能,以及从不同的角度观
察信息的能力。尽管联机分析处理工具支持多维分析和决策,但对于深层次的分
析,如数据分类、聚类和数据随时间变化的特征,仍然需要借助其它的分析工具。
而与此同时,拥有这些数据库的决策者们,在做决策时不是基于数据库中蕴
含的大量信息,而是基于决策者的直觉。让我们在考察一下当前解决这个问题的
方法之一:专家系统技术。这种技术的一个很大的特点就是:用于辅助决策的系
统信息依赖于用户或某一领域的专家手工输入的知识,这个过程一方面是十分费
时的;另一方面它也是很难避免这样或勇B样的人为的偏见和错误的。面传统的查
询、报表工具无法满足发掘这些信息的需求,人们需要一种新的数据分析技术来
处理大量数据并从中抽取有价值的潜在信息,于是,从数据库中发现知识(KDD:
Knowledge
Discover
in
Database)及其核心技术一数据挖掘(DM:Data
Mining)
便应运而生了。
1.2数据挖掘综述
数据库知识发现是从大量原始数据中挖掘出隐含的、有用的、尚未发现的信
息和知识,它不仅被许多研究人员看作是数据库系统和机器学习等方面一个重要
的研究课题,而且被许多工商界人士看作是一个能带来巨大回报的重要领域。【】
数据库知识发现是一个交互性、循环反复的整体过程,包括数据准备、数据
挖掘和发现的结果解释、评估等诸多环节。其中数据挖掘是专门负责发现知识的
核心环节,也是目前研究人员主要努力的方向。由于在产业界、媒体和数据库研
究界,“数据挖掘”比术语“数据库知识发现”更流行,因此,在本论文中选用
术语数据挖掘。
1.2.1数据挖掘
简单的讲,数据挖掘(DataMining)就是从大量的、不完全的、有噪音的、模
糊的、随机的实际应用的数据集中,整理出或者说挖掘出有效的、新颖的、潜在
有用的,以及最终可理解模式的高级处理的过程。[3-71
一个典型的数据挖掘系统如图1.1。其中数据库、数据仓库或者是其他一些
信息存储媒介为数据挖掘的工作对象:服务器主要是响应数据挖掘引擎的请求,
提取相应的数据:领域知识库主要用来指导挖掘的过程,以及用来评价挖掘出来
的候选模式:数据挖掘引擎是整个系统的核心部分,可以由以下模块组成:分类
模块、关联规则模块、聚类分析模块、时序模块和异常分析模块等;模式评价模
块主要是根据一定的度量标准来与数据挖掘模块交互,使得数据挖掘向着我们感
兴趣的方向进行:图形用户界面主要是为方便用户与数据挖掘系统的交互,由用
户提出挖掘任务、指定重要的挖掘参数以及由当前返回的结果指导进行更进一步
的挖掘工作。
图1.1典型的数据挖掘系统结构
1.2.2数据挖掘的流程
数据挖掘的流程可以理解为三个阶段:数据准备、数据挖掘过程、挖掘结果
的解释和评估。
●数据准备
在现实世界中的数据一般是脏的、不完整的和不一致的。数据准备技术可以
改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。由于高质量的
决策必然依赖于高质量的数据,因此数据准各是知识发现过程的重要步骤。检测
数据异常、尽早地调整数据,并规约待分析的数据,将在决策过程得到高回报。
数据准备阶段的工作包括四个方面的内容:数据清理、数据集成、数据变换、数
据规约。
数据清理(data
cleating):主要试图填充空缺的值,识别孤立点、消除噪音,
并纠正数据中的不一致。数据清理可以提高数据的质量,从而得到更正确的数据
挖掘结果。
数据集成(dataintegration):将多个数据源中的数据集合起来存放在~个一致
的数据存储(如数据仓库)中。这些数据源可能包含多个数据库(如:SQL
SERVER、
ORACLE、ACCESS、SYBASE、MYSQL等),数据立方体或一般文件(如文本文
件等)。
数据变换(data
transformation);将某一个数据进行某种转换操作,然后将转
换后的值作为新的变量存放在样本数据中,而转换的目的是为了把数据和将来要
建立的模型拟和的更好。
数据规约(data
reduction):我们都知道用于数据分析的数据集如果太大就会
降低挖掘的速度和影响挖掘的结果,于是就用数据规约得到数据集的压缩表示,
它小得多,但能产生同样的(或几乎同样的)分析结果。
·数据挖掘过程
在此过程中挖掘算法的选择是一个核心的步骤,一般不会存在一个普遍适用
的数据挖掘算法,一个算法在一个领域非常有效,但在另一个领域却可能不太适
合。所以,在面对一个实际的领域,如何从众多的数据挖掘算法中精选有效的算
法就自然成为研究与开发任务首先要解决的一个核心问题。具体的数据采掘算法
有关联规则、特征规则、聚类规则、分类规则、序列规则等。
·数据评价
任何~个数据挖掘算法总有其优点和缺点,我们称之为正特性和负特性,一
个公正的算法评价无疑应该不仅考虑算法的正特性(如:精确性),而且同时也应
剩余50页未读,继续阅读
资源评论
programyp
- 粉丝: 86
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功