没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
数据挖掘概念与分析实验报告
编制日期: 2009
年
11
月
27
日
目录
一、相关名词解释.............................................................................................................................2
1.1 数据仓库...............................................................................................................................2
1.2 数据挖掘...............................................................................................................................3
1.3 决策树...................................................................................................................................3
1.4 时序.......................................................................................................................................3
1.5 关联规则...............................................................................................................................4
二、实验环境.....................................................................................................................................5
三、实验准备.....................................................................................................................................5
四、实验内容.....................................................................................................................................5
五、实验步骤.....................................................................................................................................5
5.1 对数据挖掘相关名词进行理解和运用...............................................................................5
5.2 对本次实验的数据库环境进行熟悉环境...........................................................................5
5.3 准备工作...............................................................................................................................5
5.3.1 创建一个 Analysis Services 项目.............................................................................5
5.3.2 创建一个数据源........................................................................................................6
5.3.3 创建数据源视图........................................................................................................9
5.4 挖掘步骤.............................................................................................................................11
5.4.1 Microsoft 决策树挖掘技术—创建用于目标邮件方案的挖掘结构....................11
5.4.2 Microsoft 时序挖掘技术—各个型号自行车的销售量做出预测........................14
5.4.3 Microsoft 关联规则挖掘技术—创建市场篮方案.................................................16
5.4.4 Microsoft 时序分析与聚类分析挖掘技术—查看客户浏览 Adventure Works 网
站的方式...........................................................................................................................18
5.5 数据挖掘结果分析.............................................................................................................20
5.5.1 Microsoft 决策树挖掘技术—目标邮件方案的挖掘结果分析............................20
5.5.2 Microsoft 时序挖掘技术—各个型号自行车的销售量预测结果分析................22
5.5.3 Microsoft 关联规则挖掘技术—创建市场篮方案结果分析................................23
5.5.4 Microsoft 时序分析与聚类分析挖掘技术—查看客户浏览 Adventure Works 网
站的方式结果分析...........................................................................................................24
一、相关名词解释
1.1 数据仓库
a) 英文名称为 Data Warehouse,可简写为 DW。数据仓库是决策支持系统和联机
分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。
数据仓库的特征在于面向主题、集成性、稳定性和时变性。
b) 数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模
型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。
c) 从功能结构化分,数据仓库系统至少应该包含数据获取( Data Acquisition)、
数据存储(Data Storage)、数据访问(Data Access)三个关键部分。
1.2 数据挖掘
a) 数据挖掘(Data Mining),就是从大量数据中获取有效的、新颖的、潜在有用的 、
最终可理解的模式的非平凡过程。数据挖掘的广义观点:数据挖掘就是从存放在数据库 ,
数据仓库或其他信息库中的大量的数据中“挖掘”有趣知识的过程。数据挖掘,又称为数
据库中知识发现(Knowledge Discovery in Database, KDD) , 也有人把数据挖掘视为
数据库中知识发现过程的一个基本步骤。知识发现过程以下步骤组成:(1)数据清理,
(2)数据集成,(3)数据选择,(4)数据变换,(5)数据挖掘,(6)模式评估,
(7)知识表示。数据挖掘可以与用户或知识库交互。
1.3 决策树
a) 决策树是用二叉树形图来表示处理逻辑的一种工具。可以直观、清晰地表达加工
的逻辑要求。特别适合于判断因素比较少、逻辑组合关系不复杂的情况。
b) 决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比如,
在贷款申请中,要对申请的风险大小做出判断,决策树的基本组成部分:决策节点、分
支和叶子。
c) 数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用
来 做 预 测 ( 就 像 上 面 的 银 行 官 员 用 他 来 预 测 贷 款 风 险 ) 。 常 用 的 算 法 有
CHAID、CART、Quest 和 C5.0。
1.4 时序
a) Microsoft 时序算法是 Microsoft SQL Server 2005 Analysis Services (SSAS) 提供的
回归算法,用于创建数据挖掘模型以预测连续列,如预测方案中的产品销售额。其他
Microsoft 算法创建依靠给定输入列来预测可预测列的模型(如决策树模型),而时序模型
的预测则仅根据算法在创建模型时从原始数据集派生的趋势。以下关系图(图 1.1)显示了一
个典型模型,用于预测各个时间的销售额。
图 1.1 关系图
关系图中显示的该模型由两部分组成:历史信息以红色显示,预测信息以蓝色显示。
红色数据代表算法用于创建模型的信息,而蓝色数据则代表模型做出的预测。由红色数据
和蓝色数据联合形成的线称为“序列”。每个预测模型必须包含一个事例序列,即区分序列
列中不同点的列。例如,因为关系图中的数据显示了几个月中的历史和预测销售额序列,
因此数据列为事例序列。
b) Microsoft 时序算法的一个重要功能就是可以执行交叉预测。也就是说,如果使用两
个单独但相关的序列为该算法定型,就可以使用得到的模型根据其他序列的行为预测一个
序列的结果。例如,一个产品的实际销售额可能会影响另一个产品的预测销售额。
1.5 关联规则
a) 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取
值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关
联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,
即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量
数据中项集之间有趣的关联或相关联系。关联规则挖掘在数据挖掘中是一个重要的课题 ,
最近几年已被业界所广泛研究。
b) 关 联 规 则 挖 掘 过 程 主 要 包 含 两 个 阶 段 : 第 一 阶 段 必 须 先 从 资 料 集 合 中 找
出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目 组中产生关联
规则(Association Rules)。
1. Apriori 算法:使用候选项集找频繁项集
2. 基于划分的算法
3. FP-树频集算法
1.6 时序分析与聚类分析
a) Microsoft 顺 序 分 析 和 聚 类 分 析 算 法 是 由 Microsoft SQL Server 2005 Analysis
Services (SSAS) 提供的一种顺序分析算法。该算法通过将相同的顺序分到一组或一类中
来查找最常见的顺序。这些顺序可以采取多种格式,包括:
1. 用来说明用户浏览网站时的点击路径的数据。
2. 用来说明客户将商品添加到在线零售商的购物车中的顺序的数据。
二、实验环境
1. 本次数据挖掘实验采用 SQL server 2005 development 版本;
2. 数 据 仓 库 示 例 为 SQL server 2005 自 带 的 Adventure Works DB 和 Adventure
Works DW;
三、实验准备
1. 创建一个 Analysis Services 项目;
2. 创建一个数据源;
3. 创建数据源视图;
四、实验内容
1. Microsoft 决策树挖掘技术;
2. Microsoft 时序挖掘技术;
3. Microsoft 关联规则挖掘技术;
4. Microsoft 时序分析与聚类分析挖掘技术;
五、实验步骤
5.1 对数据挖掘相关名词进行理解和运用
5.2 对本次实验的数据库环境进行熟悉环境
注意的是在安装 SQL server2005 过程中得把整个数据库示例全部安装;
5.3 准备工作
5.3.1 创建一个 Analysis Services 项目
5.3.1.1.打开 Microsoft SQL Server Management Studio,连接好数据库,确认是否有
Adventure Works 与 Adventure Works DW 两个数据库,如下图所示:
剩余24页未读,继续阅读
资源评论
- zhanghaooy2014-05-24内容太少了,没有源码,只是简单地概念介绍
- wangfengmingqq2012-06-19一点用都没有,源码也没有,只有些用软件分析出来的结果。。。
- liliwang2012-06-12内容比较丰富,可是分也太贵了啊
- guobei13142012-08-02果然是 没什么用。
hellotengfei
- 粉丝: 0
- 资源: 20
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功