1
统计学和数据挖掘:交叉学科
摘要:统计学和数据挖掘有很多共同点,但与此同时它们也有很多差异。本文讨论了两
门学科的性质,重点论述它们的异同。
关键词:统计学 知识发现
1. 简介
统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,
一些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际的看法。
因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库
技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。
统计学和数据挖掘研究目标的重迭自然导致了迷惑。事实上,有时候还导致了反感。统
计学有着正统的理论基础(尤其是经过本世纪的发展),而现在又出现了一个新的学科,有
新的主人,而且声称要解决统计学家们以前认为是他们领域的问题。这必然会引起关注。更
多的是因为这门新学科有着一个吸引人的名字,势必会引发大家的兴趣和好奇。把“数据挖
掘”这个术语所潜在的承诺和“统计学”作比较的话,统计的最初含义是“陈述事实”,以
及找出枯燥的大量数据背后的有意义的信息。当然,统计学的现代的含义已经有很大不同的
事实。而且,这门新学科同商业有特殊的关联(尽管它还有科学及其它方面的应用)。
本文的目的是逐个考察这两门学科的性质,区分它们的异同,并关注与数据挖掘相关联
的一些难题。首先,我们注意到“数据挖掘”对统计学家来说并不陌生。例如,Everitt 定义
它为:“仅仅是考察大量的数据驱动的模型,从中发现最适合的”。统计学家因而会忽略对数
据进行特别的分析,因为他们知道太细致的研究却难以发现明显的结构。尽管如此,事实上
大量的数据可能包含不可预测的但很有价值的结构。而这恰恰引起了注意,也是当前数据挖
掘的任务。
2. 统计学的性质
试图为统计学下一个太宽泛的定义是没有意义的。尽管可能做到,但会引来很多异议。
相反,我要关注统计学不同于数据挖掘的特性。
差异之一同上节中最后一段提到的相关,即统计学是一门比较保守的学科,目前有一种
趋势是越来越精确。当然,这本身并不是坏事,只有越精确才能避免错误,发现真理。但是
如果过度的话则是有害的。这个保守的观点源于统计学是数学的分支这样一个看法,我是不
同意这个观点的(参见【15】,【9】,【14】,【2】,【3】)尽管统计学确实以数学为基础(正如
物理和工程也以数学为基础,但没有被认为是数学的分支),但它同其它学科还有紧密的联
系。
数学背景和追求精确加强了这样一个趋势:在采用一个方法之前先要证明,而不是象计
算机科学和机器学习那样注重经验。这就意味着有时候和统计学家关注同一问题的其它领域
的研究者提出一个很明显有用的方法,但它却不能被证明(或还不能被证明)。统计杂志倾
向于发表经过数学证明的方法而不是一些特殊方法。数据挖掘作为几门学科的综合,已经从
机器学习那里继承了实验的态度。这并不意味着数据挖掘工作者不注重精确,而只是说明如
果方法不能产生结果的话就会被放弃。
正是统计文献显示了(或夸大了)统计的数学精确性。同时还显示了其对推理的侧重。
尽管统计学的一些分支也侧重于描述,但是浏览一下统计论文的话就会发现这些文献的核心
问题就是在观察了样本的情况下如何去推断总体。当然这也常常是数据挖掘所关注的。下面
我们会提到数据挖掘的一个特定属性就是要处理的是一个大数据集。这就意味着,由于可行
性的原因,我们常常得到的只是一个样本,但是需要描述样本取自的那个大数据集。然而,