《RapidMiner数据分析与挖掘实战》第16章 时间序列
拿到一个观察值序列后,首先要对它的纯随机性和平稳性进行检验,这两个重要的检验称为序列的预处理。根据检验结果可以将序列分为不同的类型,对不同类型的序列会采取不同的分析方法。 对于纯随机序列,又叫白噪声序列,序列的各项之间没有任何相关关系,序列在进行完全无序的随机波动,可以终止对该序列的分析。白噪声序列是没有信息可提取的平稳序列;
拿到一个观察值序列后,首先要对它的纯随机性和平稳性进行检验,这两个重要的检验称为序列的预处理。根据检验结果可以将序列分为不同的类型,对不同类型的序列会采取不同的分析方法。 对于纯随机序列,又叫白噪声序列,序列的各项之间没有任何相关关系,序列在进行完全无序的随机波动,可以终止对该序列的分析。白噪声序列是没有信息可提取的平稳序列;
如何评估判断某个挖掘算法对挖掘分析预测结果的准确性影响? 对某一个业务数据集进行预测时,如何在多个可选的挖掘模型之间选择最佳模型?为什么选择模型A,而不是模型B?凭经验?还是。。。各个模型的特性指标能否横向可视化对比? 系统能否从多个可选模型中自动为我们推荐一个最好的模型算法? 某个预测模型的最佳挖掘算法选定后,还能否基于该算法进行更深入的调优?调优方法有哪些? 在保证预测准确性的同时,能否提高挖掘流程执行的速度?
在学习完本节课后,您应能够: 解释什么是推荐系统、如何使用推荐系统。 识别推荐系统挖掘可能采取的数据格式,以便进行推荐系统构建。 在 RapidMiner 中开发推荐系统。
本章介绍文本分类。由于大部分交流信息以文本格式保存,文本分类是文本挖掘中的一个重要主题。我们将建立一个RapidMiner挖掘流程,来学习垃圾短信和我们实际想阅读的短信之间的区别。然后我们将应用此学习到的模型到新的短信中,来确定其是否为垃圾短信。垃圾短信是许多熟悉主题中的一种,自然地,我们由此就开始动手工作。用于垃圾短信分类的相同的技术可以在许多其他文本挖掘领域中使用。
决策树方法在分类、预测、规则提取等领域有着广泛应用。在20世纪70年代后期和80年代初期,机器学习研究者J.Ross Quinilan提出了ID3[5-2]算法以后,决策树在机器学习、数据挖掘邻域得到极大的发展。Quinilan后来又提出了C4.5,成为新的监督学习算法。1984年几位统计学家提出了CART分类算法。ID3和ART算法大约同时被提出,但都是采用类似的方法从训练样本中学习决策树。
回归分析是通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的一种有效工具,在工商管理、经济、社会、医学和生物学等领域应用十分广泛。从19世纪初高斯提出最小二乘估计算起,回归分析的历史已有200多年。从经典的回归分析方法到近代的回归分析方法,按照研究方法划分,回归分析研究的范围大致如下:
与分类不同,聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。与分类模型需要使用有类标记样本构成的训练数据不同,聚类模型可以建立在无类标记的数据上,是一种非监督的学习算法。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将他们划分为若干组,划分的原则是组内样本最小化而组间(外部)距离最大化,如图9 1所示。
关联规则分析是数据挖掘中最活跃的研究方法之一,目的是在一个数据集中找出各项之间的关联关系,而这种关系并没有在数据中直接表示出来。 8.1.1 常用关联规则算法 常用关联算法如所表8 1所示。
在数据挖掘中,海量的原始数据中存在着大量不完整(有缺失值)、不一致、有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以进行数据清洗就显得尤为重要,数据清洗完成后接着进行或者同时进行数据集成、转换、规约等一系列的处理,该过程就是数据预处理。数据预处理一方面是要提高数据的质量,另一方面是要让数据更好地适应特定的挖掘技术或工具。统计发现,在数据挖掘的过程中,数据预处理工作量占到了整个过程的60%。 数据预处理的主要内容包括数据清洗,数据集成,数据变换和数据规约。处理过程如图7 1所示。
根据观测、调查收集到初步的样本数据集后,接下来要考虑的问题是:样本数据集的数量和质量是否满足模型构建的要求?有没有出现从未设想过的数据状态?其中有没有什么明显的规律和趋势?各因素之间有什么样的关联性? 通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索。数据探索有助于选择合适的数据预处理和建模方法,甚至可以完成一些通常由数据挖掘解决的问题。 本章从数据质量分析和数据特征分析两个角度对数据进行探索。