计算机研究-高维稀疏聚类知识发现及其在连锁超市中的应用.pdf资源-CSDN文库

版权申诉

77 浏览量 2022-06-25 19:01:56 上传评论收藏 1.52MB PDF 举报

资源推荐

资源详情

资源评论

摘要

数据挖掘是从大量数据中提取人们感兴趣的信息和知识。这些知识往往是隐

含的、有用的、尚未发现的信息和知识。数据挖掘已经引起了人们的广泛关注，

目前成为国内外数据库和信息决策领域的最前沿研究方向。聚类是数据挖掘领域

最为常用的技术之一，用于发现在数据库中未知的对象类。聚类是现实世界中普

遍存在的现象，其应用非常广泛。

本文主要围绕高维聚类对数据挖掘的理论和方法进行了以下几方面的工作：

首先归纳了数据挖掘技术的发展状况，包括数据挖掘的定义、数据挖掘的流

程、功能等基本概念和技术，而且还探讨了数据仓库和数据挖掘的关系。数据仓

库作为一种新型的数据存储方式，为数据挖掘提供了新的支持平台，其内在的对

决策的支持能力，为数据挖掘开辟了新的空间。

其次对聚类问题进行深入地研究。迄今为止，人们提出了许多用于大规模数

据库的聚类算法。其中大多数算法可以高效地处理低维数据，但是随着数据的维

数增加，它们的执行效率将会急剧下降。而少数可以处理高维数据的算法却存在

效率低下或聚类结果质量差等问题。通过对高维聚类问题的深入研究及对已有高

维聚类算法的分析比较，本文提出了一种可以高效地处理高维稀疏聚类问题的基

于特征标识的聚类方法（ＳＣＭ）。

最后论述了ＳＣＭ聚类方法在连锁超市中的应用，其中构建了同时支持营销

分析及多维数据分析的数据模型，基于该数据模型的数据存储，直接为发现聚类

知识提供了高质量的数据源。

关键字：数据挖掘、知识发现、聚类、高维数据









































































































































































































































































































































































































































































































































































































１．１引言

第一章绪论

进入九十年代，伴随着因特Ｎ（Ｉｎｔｅｍｅｔ）的出现和发展，以及随之而来的企业

内部网ｆｉｎｔｒａｎｅｔ）和企业外部网（Ｅｘｔｒａｎｅｔ）以及虚拟私有网（ＶＰＮ：Ｖｉｒｔｕａ／Ｐｒｉｖａｔｅ

Ｎｅｔｗｏｒｋ）的产生和应用，将整个世界联成一个小小的地球村，人们可以跨越时空、

地域在网上交换数据信息和协同工作。这样，展现在人们面前的己不是局限于本

部门，本单位和本行业的庞大数据库，而是浩瀚无垠的信息海洋，数据洪水正向

人们滚滚涌来。当数据量极度增长时，如果没有有效的计算机及信息技术来提取

有用信息和知识，人们也会感到面对信息海洋像大海捞针一样束手无策。据估计，

一个大型企业数据库中数据，只有百分之七得到很好应用。【ｌ

Ｊ

现在，数据可以存放不同类型的数据库中。最近出现的一种数据库结构是数

据仓库，它是～种多个异种数据源在单个站点以统一的模式组织的存储，以支持

管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理（０ＬＡＰ）。联

机分析处理是一种分析技术，具有汇总、合并和聚集功能，以及从不同的角度观

察信息的能力。尽管联机分析处理工具支持多维分析和决策，但对于深层次的分

析，如数据分类、聚类和数据随时间变化的特征，仍然需要借助其它的分析工具。

而与此同时，拥有这些数据库的决策者们，在做决策时不是基于数据库中蕴

含的大量信息，而是基于决策者的直觉。让我们在考察一下当前解决这个问题的

方法之一：专家系统技术。这种技术的一个很大的特点就是：用于辅助决策的系

统信息依赖于用户或某一领域的专家手工输入的知识，这个过程一方面是十分费

时的；另一方面它也是很难避免这样或勇Ｂ样的人为的偏见和错误的。面传统的查

询、报表工具无法满足发掘这些信息的需求，人们需要一种新的数据分析技术来

处理大量数据并从中抽取有价值的潜在信息，于是，从数据库中发现知识（ＫＤＤ：

Ｋｎｏｗｌｅｄｇｅ

Ｄｉｓｃｏｖｅｒ

ｉｎ

Ｄａｔａｂａｓｅ）及其核心技术一数据挖掘（ＤＭ：Ｄａｔａ

Ｍｉｎｉｎｇ）

便应运而生了。

１．２数据挖掘综述

数据库知识发现是从大量原始数据中挖掘出隐含的、有用的、尚未发现的信

息和知识，它不仅被许多研究人员看作是数据库系统和机器学习等方面一个重要

的研究课题，而且被许多工商界人士看作是一个能带来巨大回报的重要领域。【】

１．２．２数据挖掘的流程

数据挖掘的流程可以理解为三个阶段：数据准备、数据挖掘过程、挖掘结果

的解释和评估。

●数据准备

在现实世界中的数据一般是脏的、不完整的和不一致的。数据准备技术可以

改进数据的质量，从而有助于提高其后的挖掘过程的精度和性能。由于高质量的

决策必然依赖于高质量的数据，因此数据准各是知识发现过程的重要步骤。检测

数据异常、尽早地调整数据，并规约待分析的数据，将在决策过程得到高回报。

数据准备阶段的工作包括四个方面的内容：数据清理、数据集成、数据变换、数

据规约。

数据清理（ｄａｔａ

ｃｌｅａｔｉｎｇ）：主要试图填充空缺的值，识别孤立点、消除噪音，

并纠正数据中的不一致。数据清理可以提高数据的质量，从而得到更正确的数据

挖掘结果。

数据集成（ｄａｔａｉｎｔｅｇｒａｔｉｏｎ）：将多个数据源中的数据集合起来存放在～个一致

的数据存储（如数据仓库）中。这些数据源可能包含多个数据库（如：ＳＱＬ

ＳＥＲＶＥＲ、

ＯＲＡＣＬＥ、ＡＣＣＥＳＳ、ＳＹＢＡＳＥ、ＭＹＳＱＬ等），数据立方体或一般文件（如文本文

件等）。

数据变换（ｄａｔａ

ｔｒａｎｓｆｏｒｍａｔｉｏｎ）；将某一个数据进行某种转换操作，然后将转

换后的值作为新的变量存放在样本数据中，而转换的目的是为了把数据和将来要

建立的模型拟和的更好。

数据规约（ｄａｔａ

ｒｅｄｕｃｔｉｏｎ）：我们都知道用于数据分析的数据集如果太大就会

降低挖掘的速度和影响挖掘的结果，于是就用数据规约得到数据集的压缩表示，

它小得多，但能产生同样的（或几乎同样的）分析结果。

·数据挖掘过程

在此过程中挖掘算法的选择是一个核心的步骤，一般不会存在一个普遍适用

的数据挖掘算法，一个算法在一个领域非常有效，但在另一个领域却可能不太适

合。所以，在面对一个实际的领域，如何从众多的数据挖掘算法中精选有效的算

法就自然成为研究与开发任务首先要解决的一个核心问题。具体的数据采掘算法

有关联规则、特征规则、聚类规则、分类规则、序列规则等。

·数据评价

任何～个数据挖掘算法总有其优点和缺点，我们称之为正特性和负特性，一

个公正的算法评价无疑应该不仅考虑算法的正特性（如：精确性），而且同时也应

剩余50页未读，继续阅读

评论收藏

内容反馈

版权申诉

programyp

粉丝: 86
资源: 1万+

计算机研究 -高维稀疏聚类知识发现及其在连锁超市中的应用.pdf

最新资源

计算机研究 -高维稀疏聚类知识发现及其在连锁超市中的应用.pdf

计算机研究 -基于聚类技术的QMP模型建立与知识发现.pdf

欧美国家知识发现与数据挖掘过程模型研究及其教育领域应用启示.pdf

论文研究-知识发现状态空间模型及其在图像挖掘中的应用.pdf

论文研究-基于稀疏指数排序的高维数据并行聚类算法.pdf

计算机研究 -基于模型的高维数据聚类方法综述.pdf

计算机研究 -基于深度学习的高维数据聚类算法研究.pdf

论文研究-拓展集合差异度高维数据聚类.pdf

论文研究-子空间聚类在入侵特征选择中的应用.pdf

音视频-编解码-高维混沌及其在图像加密算法中的应用研究.pdf

论文研究-核稀疏概念编码算法及在图像表示中的应用.pdf

论文研究-基于情境聚类和用户评级的协同过滤推荐模型.pdf

大数据-算法-微粒群优化算法及其在高维数据聚类的应.pdf

论文研究-蚁群聚类算法在隐写分析中的应用.pdf

论文研究-基于子空间聚类的高维数据可视分析方法综述.pdf

论文研究-微博文本聚类中特征扩展策略研究.pdf

论文研究-基于聚类数的评分矩阵恢复算法.pdf

论文研究-基于轨迹聚类的公共安全异常检测.pdf

基于核的K-均值聚类

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

民宿网站

桌面聊天室

最新资源