大数据分析报告与挖掘实验报告材料.docx资源-CSDN文库

版权申诉

5星 · 超过95%的资源 35 浏览量 2023-03-30 18:20:26 上传评论收藏 1.96MB DOCX 举报

资源推荐

资源详情

资源评论

标准文案

实用文档

《数据挖掘》实验报告

1.关联规则的基本概念和方法 .............................. 1

1.1 数据挖掘 ......................................... 1

1.1.1 数据挖掘的概念 ............................... 1

1.1.2 数据挖掘的方法与技术 ......................... 1

1.2 关联规则 ......................................... 2

1.2.1 关联规则的概念 ............................... 2

1.2.2 关联规则的实现——Apriori 算法 ............... 3

2.用 Matlab 实现关联规则 ................................. 5

2.1Matlab 概述 ....................................... 5

2.2 基于 Matlab 的 Apriori 算法 ......................... 6

3.用 java 实现关联规则 .................................. 10

3.1java 界面描述 ..................................... 10

3.2java 关键代码描述 ................................. 13

4、实验总结 ............................................ 18

4.1 实验的不足和改进 ................................. 18

标准文案

实用文档

1.关联规则的基本概念和方法

1.1 数据挖掘

1.1.1 数据挖掘的概念

计算机技术和通信技术的迅猛发展将人类社会带入到了信息时代。在最近十几年里，数

据库中存储的数据急剧增大。数据挖掘就是信息技术自然进化的结果。数据挖掘可以从大量

的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的，人们事先

不知道的但又是潜在有用的信息和知识的过程。

许多人将数据挖掘视为另一个流行词汇数据中的知识发现(KDD) 的同义词，而另一些

人只是把数据挖掘视为知识发现过程的一个基本步骤。知识发现过程如下：

·数据清理(消除噪声和删除不一致的数据)

·数据集成(多种数据源可以组合在一起)

·数据转换(从数据库中提取和分析任务相关的数据)

·数据变换(从汇总或聚集操作，把数据变换和统一成适合挖掘的形式)

·数据挖掘(基本步骤，使用智能方法提取数据模式)

·模式评估(根据某种兴趣度度量，识别代表知识的真正有趣的模式)

·知识表示(使用可视化和知识表示技术，向用户提供挖掘的知识)。

1.1.2 数据挖掘的方法与技术

数据挖掘吸纳了诸如数据库和数据仓库技术、统计学、机器学习、高性能计算、模式识

别、神经网络、数据可视化、信息检索、图像和信号处理以及空间数据分析技术的集成等许

多应用领域的大量技术。数据挖掘主要包括以下方法。

神经网络方法：神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存

储和高度容错等特性非常适合解决数据挖掘的问题，因此近年来越来越受到人们的关注。典

型的神经网络模型主要分 3 大类：以感知机、 bp 反向传播模型、函数型网络为代表的，用

于分类、预测和模式识别的前馈式神经网络模型；以 hopfield 的离散模型和连续模型为代

表的，分别用于联想记忆和优化计算的反馈式神经网络模型；以art 模型、 koholon 模型为

代表的，用于聚类的自组织映射方法。神经网络方法的缺点是"黑箱"性，人们难以理解网络

的学习和决策过程。

遗传算法：遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法，是一种仿生

全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘

中被加以应用。 sunil 已成功地开发了一个基于遗传算法的数据挖掘工具，利用该工具对两

标准文案

实用文档

中找到一些有价值的，潜在的信息。它的主要优点是描述简单，分类速度快，特别适合大规

模的数据处理。

粗糙集方法：粗糙集理论是一种研究不精确、不确定知识的数学工具。粗糙集方法有几

个优点：不需要给出额外信息；简化输入信息的表达空间；算法简单，易于操作。粗糙集处

理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据

仓库管理系统，为粗糙集的数据挖掘奠定了坚实的基础。但粗糙集的数学基础是集合论，难

以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是

制约粗糙集理论实用化的难点。

覆盖正例排斥反例方法：它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首

先在正例集合中任选一个种子，到反例集合中逐个比较。与字段取值构成的选择子相容则舍

去，相反则保留。按此思想循环所有正例种子，将得到正例的规则(选择子的合取式)。比较

典型的算法有 michalski 的 aq11 方法、洪家荣改进的 aq15 方法以及他的 ae5 方法。

统计分析方法：在数据库字段项之间存在两种关系：函数关系(能用函数公式表示的确

定性关系)和相关关系(不能用函数公式表示，但仍是相关确定性关系)，对它们的分析可采

用统计学方法，即利用统计学原理对数据库中的信息进行分析。可进行常用统计(求大量数

据中的最大值、最小值、总和、平均值等)、回归分析(用回归方程来表示变量间的数量关系)、

相关分析(用相关系数来度量变量间的相关程度)、差异分析(从样本统计量的值得出差异来

确定总体参数之间是否存在差异)等。

模糊集方法：即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别

和模糊聚类分析。系统的复杂性越高，模糊性越强，一般模糊集合理论是用隶属度来刻画模

糊事物的亦此亦彼性的。李德毅等人在传统模糊理论和概率统计的基础上，提出了定性定量

不确定性转换模型--云模型，并形成了云理论。

还有接下来重点介绍的关联规则方法。

1.2 关联规则

1.2.1 关联规则的概念

关联规则的一个典型例子是购物篮分析。它是由著名的全国五百强沃尔玛发现的，沃尔

玛有着世界最大的数据仓库系统，为了能够准确了解顾客在其门店的购买习惯，沃尔玛对其

顾客的购物行为进行购物篮分析，想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库

里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上，沃尔玛利用数据挖

掘方法对这些数据进行分析和挖掘。一个意外的发现是： "跟尿布一起购买最多的商品竟是

啤酒！经过大量实际调查和分析，揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为

模式：在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，而他们中有 30%~40%

的人同时也为自己买一些啤酒。产生这一现象的原因是：美国的太太们常叮嘱她们的丈夫下

班后为小孩买尿布，而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。关联规则由此进入

人们的视野。

关联规则挖掘被定义为假设 I 是项的集合。给定一个交易数据库 D，其中每个事务

(Transaction)t 是 I 的非空子集，即每一个交易都与一个唯一的标识符TID(Transaction ID)

剩余35页未读，继续阅读

评论收藏

内容反馈

版权申诉

忙碌鱼

2023-10-29

这个资源值得下载，资源内容详细全面，与描述一致，受益匪浅。

Cheng-Dashi

粉丝: 108
资源: 1万+

大数据分析报告与挖掘实验报告材料.docx

大数据分析报告与挖掘实验报告材料.doc

数据分析与挖掘实验报告.docx

数据分析与挖掘实验报告.doc

数据分析挖掘实验报告.doc

【最全最详细】数据分析与挖掘实验报告.docx

数据分析与挖掘实验报告 (2).docx

数据挖掘实验报告-综合实验2-分类与预测的综合实验.docx

数据挖掘实验报告.docx

数据分析与挖掘实验报告(1).doc

数据分析与挖掘实验报告.pdf

数据分析与挖掘实验报告(2).doc

数据仓库与数据挖掘实验报告__“图书销售分析”的多.docx

商务数据分析报告.docx

Pandas统计分析基础与数据预处理.docx

云计算与数据挖掘实验报告（共四个）.docx

实验报告——Kmeans聚类方法.docx

数据分析与挖掘习题.docx

数据分析与挖掘论文.docx

数据分析与挖掘感悟.docx

企业大数据分析挖掘指南.docx

第6章 大数据分析与挖掘习题答案.docx

数据挖掘实习报告.docx

基于Weka的数据分类分析实验报告范文.docx

基于Weka的数据分类分析实验报告.docx

商务数据分析报告(2).docx

最新资源

第6章大数据分析与挖掘习题答案.docx