大数据存储与处理是一个涵盖广泛的主题,涉及到如何有效地管理和分析海量数据。在这个领域,赵永祥的课程涵盖了从基础概念到具体应用的各种技术。以下是对课程内容的详细解读:
数据挖掘是数据模型的发现过程,它可以分为统计建模和机器学习两大类。统计建模是通过研究数据来确定其遵循的总体概率分布,例如高斯分布,而机器学习则侧重于训练算法以对未知数据进行预测。机器学习在无法预先定义目标的情况下表现优越,如Netflix竞赛中预测用户电影喜好;但在目标明确的情况下,如搜索引擎的关键词匹配,传统方法可能更为有效。
在建模的计算方法中,数据挖掘被视为一个算法问题,主要涉及数据的简要汇总和特征抽取。数据汇总的一个典型例子是PageRank,它是Google搜索引擎的核心算法,通过计算网页的重要性来组织搜索结果。聚类则是将数据点按照它们在多维空间中的相似性进行分类,常用于市场细分或图像分类。
特征抽取包括寻找频繁项集和相似项。频繁项集是在大量交易记录中发现共同出现的商品组合,常用于推荐系统,如Amazon根据用户的购买历史推荐商品。相似项发现则涉及寻找数据集中具有共同特性的集合,如亚马逊的协同过滤推荐,它通过比较用户的购买行为来推荐他们可能感兴趣的商品。
然而,数据挖掘也存在统计限制,如Bonferroni原理指出,随着数据量的增加,看似异常的模式可能是随机噪声的结果。例如,在整体情报预警的故事中,试图通过分析大量数据来发现可疑行为(同一酒店重复出现的人),但计算表明,即使在随机行为下也可能产生大量看似可疑的巧合。
在实际应用中,数据挖掘需要考虑这些统计限制,避免误报。例如,假设存在10对真正的“可疑”行为,我们需要检查250,010对候选人才能找到他们,这表明仅依赖数据挖掘可能效率低下,需要结合其他情报分析方法。
此外,课程还提到了Rhin的超感知实验,它揭示了在统计分析中需要谨慎对待显著性。即使在小概率事件中,也可能观察到看似异常的结果,这被称为Rhin悖论。
大数据存储与处理涉及数据挖掘的基本概念、大规模文件系统、MapReduce、相似项发现、数据流挖掘、链接分析、频繁项集、聚类以及推荐系统等技术。在实践中,必须考虑到统计学限制和随机性的影响,以确保分析的有效性和准确性。