mining of massive datasets-ch01-intro.pdf
大数据挖掘是当前信息技术领域中的一个重要分支,它涉及从大量数据集中提取有价值知识的过程。随着互联网和各种数字技术的广泛应用,数据量呈现爆炸性增长,这就需要使用大数据技术来处理和分析这些数据,以便从中获得有用的见解和模式。 从给出的内容来看,该文档主要介绍了大数据的一些基本概念和挖掘方法。文档提到了数据的价值和知识含量,强调了数据的价值需要通过存储、管理和分析来提取。这说明了大数据挖掘的核心目的,即从数据中发现有用的信息和模式。 接下来,文档提到了数据挖掘的基本概念,即在大量数据中发现模式和模型。这些模型应当具有以下特点:有效(在新数据上有一定的确定性)、有用(能够对事项采取行动)、意外(对系统来说不是显而易见的)以及可理解(人类能够解释模式)。有效性和有用性确保了挖掘结果的实用价值,而意外性和可理解性则确保了模式的创新性和解释性。 文档中还区分了描述性方法和预测性方法这两种不同的数据挖掘技术。描述性方法旨在发现可以人类解释的数据描述,如聚类分析;而预测性方法则使用某些变量来预测其他变量的未知或未来值,例如推荐系统。描述性方法帮助我们理解数据集的内在结构,而预测性方法则用于预测或分类任务。 文档进一步警告了在数据挖掘过程中可能遇到的风险,即分析师可能会“发现”一些没有实际意义的模式。统计学上的Bonferroni原则指出,如果在数据无法支持的更多地方寻找有趣模式,那么找到无用模式(垃圾)的风险会显著增加。这一点提示我们在数据挖掘时需要谨防过度拟合和偶然发现,应当从统计学的角度来验证模式的实际意义。 文档中举了一个具体的例子,通过该例子说明了在大数据集中寻找特定模式时可能遇到的问题。在这个例子中,需要找到至少两次在同一酒店同一日期住宿的无关人员。计算结果表明,在给定条件下,随机行为下人们在酒店的同一天住宿很可能是偶然发生的,而非有意为之。这个例子强调了在数据挖掘过程中,对结果的解释需要谨慎,并且要考虑到数据的随机性和偶然性。 总结以上内容,可以得出以下几点大数据挖掘的关键知识点: 1. 大数据挖掘的目的是从数据集中提取有价值的知识,包含存储、管理和分析三个基本步骤。 2. 数据挖掘旨在发现数据中的模式和模型,这些模式和模型应该是有效的、有用的、意外的并且可被人类所理解。 3. 描述性方法和预测性方法是两种主要的数据挖掘技术,描述性方法强调模式的解释性,而预测性方法则关注模式对未来的预测价值。 4. 进行数据挖掘时,应避免仅仅因为偶然而发现的模式,应用统计学原理来验证模式的实际意义。 5. 数据挖掘的过程需要谨慎,要注意区分真正的模式和随机事件带来的偶然发现。 以上内容为从给定文档提取的知识点,总结了大数据挖掘的基本概念和方法,并提醒了数据挖掘过程中可能遇到的误区和注意事项。
剩余27页未读,继续阅读
- 粉丝: 0
- 资源: 1
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助