CRISP-DM 数据挖掘实施方法论
CRISP-DM 数据挖掘实施方法论帮助企业把注意力集中在解决业务问题本身,而不是技术层面上。CRISP-DM 流程模
型包括了六个步骤,涵盖了数据挖掘的整个过程,它们是:
l商业理解 Business understanding
这一初始阶段集中在从商业角度理解项目的目标和要求,然后把理解转化为数据挖掘问题,并制定出一个旨在实现目
标的初步计划。
l数据理解 Data understanding
数据理解阶段开始于原始数据的收集,接下来进行的活动是熟悉数据、识别数据质量问题、探索对数据的第一认识,
或挖掘有深层含义的数据子集来形成对隐藏信息的假设。
l数据准备 Data preparation
数据准备阶段包括所有从原始未加工的数据构造最终数据集的活动(这些数据集是指将要嵌入建模工具中的数据)。
数据准备任务可能实施多次,而且不按任何规定的顺序。这些任务包括表格、记录和属性选择以及对建模工具中数据
的转换和清理。
l建模 Modeling
在此阶段,主要是选择各种建模技术,同时对它们的参数进行校准以达到最优值。通常对于同一个数据挖掘问题类型,
会有多种方法。一些方法在数据形式上会有具体的要求。因此,常常必须返回到数据准备阶段。
l评估 Evaluation
进入项目中的这个阶段,你已经建立了一个模型(或者多个),从数据分析的角度来看,该模型似乎有很高的质量。
在进行到模型的最后发布前,有一点是很重要的——更为彻底地评估模型和检查建立模型的各个步骤,从而确定它完
全地达到了商业目标。一个关键目标为决定是否存在一些重要地商业问题仍未得到充分地考虑。关于数据挖掘结果的
使用决定应该在此阶段结束时确定下来。
l发布 Deployment
模型的创建通常并不是项目的结尾。即使模型的目的是增加对数据的了解,所获得的了解也需要进行组织并以一种客
户能够使用的方式呈现。这常常包括在一个组织的决策过程中应用“现场”模型,如在网页的实时个人化中或营销数据的
重复得分中。不过,根据需要,发布过程可以简单到产生一个报告,也可以复杂到在整个企业中执行一个可重复的数
据挖掘过程。大部分情况下,是由客户来实施发布的,而非数据分析师本身。尽管如此,即使分析师并不执行发布,
这对客户也是十分重要的——提前理解需要采取什么行动来实际利用产生的模型。
此流程模型有几个关键点。首先,有几个步骤相互之间的影响比较大。比如,数据准备通常在建模之前,但是在建模
过程中做出的决策以及收集到的信息可能会导致重新准备数据,这两个步骤相互交叉一直到两个步骤都得到比较好的
解决。类似的情况还有,评估步骤会导致重新评估最初的业务理解,用户可能会觉得这是在回答错误的问题。在这一
点上,用户可能会重新修订业务理解直到达到更好的目标。
第二点是数据挖掘的迭代特性,很少能有一次性完成整个流程的情况。使用数据挖掘解决客户需求是一个发展的过程。
从数据挖掘循环中获得的知识往往会带来新的问题。这些新问题又通过进一步的数据挖掘解决。这个挖掘与找到新问
题的过程应当成为用户考虑总体业务战略的一部分。
评论0
最新资源