没有合适的资源?快使用搜索试试~ 我知道了~
介绍数据挖掘各方面的情况,并介绍数据挖掘提供的工具和技术可处理的一些问 题。了解数据挖掘能够完成的任务可帮助您了解可解决的业务需求的类型,以及如何在 挖掘自己的业务方面迈出第一步。为了在这方面起到帮助作用,我们开发了可用作基本 指导的通用数据挖掘方法
资源推荐
资源详情
资源评论
23
3
通用数据挖掘方法
数据挖掘是整个 BI 体系结构的重要组成部分之一。您可能曾经使用过许多用来提供所
需日常信息的分析和报表工具。那么数据挖掘与曾经使用过的一般类型的统计分析和其
他业务报表工具有何不同呢?
本章将介绍数据挖掘各方面的情况,并介绍数据挖掘提供的工具和技术可处理的一些问
题。了解数据挖掘能够完成的任务可帮助您了解可解决的业务需求的类型,以及如何在
挖掘自己的业务方面迈出第一步。为了在这方面起到帮助作用,我们开发了可用作基本
指导的通用数据挖掘方法。在下一章,我们将介绍通用方法,并说明如何应用通用方法
来解决特定的零售业务需求。
24
3.1 什么是数据挖掘?
许多人认为数据挖掘更像是一门哲学,或数学的组成部分,而不是业务需求的实际解决
方案。您可以从采用的各种定义中看出这一点,例如:
“数据挖掘是对非常大型的数据进行的研究和分析,采用自动或半自动的程序,找
出先前未知的、有趣的、可理解的相关性。”
或者
“数据挖掘是指对数据中固有的先前未知的潜在有用信息的重要提取。”
这些定义都有各自的道理,在本书中,我们将集中讨论数据挖掘的实际问题,并展示如
何让数据挖掘为您的电信业务发挥作用。特别是,我们想要为您展示如何成功地挖掘您
自己的业务,获得有用的可靠结果。
尽管数据挖掘本身就是一门学科,但它的出现还不到 10 年时间,其起源可追溯到二十
世纪五十年代人工智能的早期发展。在此期间,模式识别和基于规则推理的发展提供了
基础构建块,数据挖掘就建立在这些概念的基础之上。从这时起,尽管我们还没有以数
据挖掘冠名,但今天使用的许多技术都是延续下来的,主要在科学应用方面。
随着关系数据库的出现和业务组织对越来越大的数据量的捕获能力,科学应用中使用的
大量技术都可以应用到业务语境中,使企业获益。数据挖掘这个术语就变成为了惯用语,
当应用到大量数据时就包含了这些不同的技术。图 3-1 说明了过去 40 年的发展。
25
图
3-1
数据挖掘的历史视图
执行数据挖掘时使用的技术在计算上非常复杂,为了找到大型数据集内存在的模式,必
须执行大量计算。在最近 10 年中,大型业务数据库(特别是数据仓库)使用量的增长以及
对这些数据的理解和解释的需要,再加上相对廉价的计算机的供应,导致数据挖掘在各
种业务应用中的使用急剧增长。
3.2 数据挖掘有哪些新功能?
数据挖掘指的是根据收集到的数据发现企业相关的新事物。您可能以为您已经使用标准
的统计技术,通过探索您的数据库完成了这项工作。实际上,您通常所做的是做出有关
要解决的业务需求的假设,然后试图通过查看支持或相悖于假设的数据来证明假设成立
或不成立。
例如,假定您是电信商,您认为“市外”的顾客比其他地方的顾客访问大型市内商店的
次数少,但当他们每次访问时,总会购买更多东西。为了回答此类问题,您可以简单地
建立数据库查询公式,例如,按照您的分店、他们的位置、销售人员、顾客分类,然后
编辑必要的信息(每个顾客每次访问的平均消费)以证实您的假设。然而,发现答案仅适
用于一小部分在周末到市内商店光顾的有钱的市外购物者。同时,市外顾客(也许是来
回上下班的人)也可能在每周的工作日光顾商店,和其他顾客消费方式相同。在这种情
况下,最初的假设测试可能会说明市外和市内购物者之间没什么区别。
26
数据挖掘采用另一种方法,前提是您不知道顾客现有的行为模式。这种情况下,您可能
会简单地问:顾客的消费和他们居住地之间的关系如何(有时我们使用术语
“相关性”
)?
此时,您可能会依赖于数据挖掘算法来告诉您所有的不同类型的顾客情况。其中应包括
市外、周末购物者。因此,您不必提出特定的问题,数据挖掘就可以提供答案。
图 3-2 概要说明了两种汇总的不同之处。
图
3-2
有关信息探测的标准和数据挖掘方法
那么您如何开始付诸行动以获得数据挖掘可解决的各种问题的答案呢?这通常是很复
杂的问题,但这也正是我们编写此书的目的所在。为了有所帮助,我们将遵守通用方法,
该方法可应用于广泛的业务需求中,而在后面几章内,我们将说明如何使用此方法来解
决特定的业务需求。
剩余23页未读,继续阅读
资源评论
rohnxian
- 粉丝: 0
- 资源: 2
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Django和HTML的新疆地区水稻产量影响因素可视化分析系统(含数据集)
- windows conan2应用构建模板
- 3_base.apk.1
- 基于STM32F103C8T6的4g模块(air724ug)
- 基于Java技术的ASC学业支持中心并行项目开发设计源码
- 基于Java和微信支付的wxmall开源卖票商城设计源码
- 基于Java和前端技术的东软环保公众监督系统设计源码
- 基于Python、HTML、CSS的crawlerdemo软件工程实训爬虫设计源码
- 基于多智能体深度强化学习的边缘协同任务卸载方法设计源码
- 基于BS架构的Java、Vue、JavaScript、CSS、HTML整合的毕业设计源码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功