1
《大数据导论》期末大作业任务书
基于 Hadoop 的豆瓣电影影评数据分析
1.
绪论
Hadoop 作为处理大数据重要的分布式架构,熟练掌握每一个组件和知识点是
非常重要的。随着现代社会产生的大量信息,大数据已不仅仅是调查领域:它是
改变业务实践和营销策略的强大力量。据 BCG 称, 大数据可以帮助分散的零售
商将销售额提高 3%至 4%。
Hadoop 由 Apache 软件基金会(Apache Software Foundation)于 2006 年推出,是
一组开源软件,可跨计算机群集进行数据处理和存储。Hadoop 主要是作为一种
分析工具而开发的,事实证明,它对于大数据分析特别有效。它可以处理结构化
和非结构化数据,具有海量存储功能,并允许处理几乎无限的并行任务。
Hadoop 由四个主要模块组成:
分 布 式 文 件 系 统 一 也 称 为 HDFS , 它 可 以 跨 链 接 的 存 储 设 备 网 络 存 储 数
据;MapReduce 一从数据库读取,转换和分析数据;Hadoop Common 一组工具和库,
可补充其他模块并确保与用户计算机系统的兼容性;YARN 一集群系统经理。
集群存储系统可以同时在许多设备上运行,因此可以加快数据处理速度。这使得
Hadoop 对于必须处理大型数据集的任何项目都至关重要。而且,该框架具有很
大的灵活性,可以扩 展到任何公司的需求。
Hadoop 的用途:
客户分析一可以根据来自用户数据的洞察提供个性化的服务,报价和广告;企业
项目一有效管理和处理存储在各种服务器上的数据;数据湖一 Hadoop 支持从不
同的信息流创建原始数据的扩展存储,以后可以对其进行结构化和分析。
接着描述本课题的基本情况,包括使用的技术,完成目标,基本步骤等。
豆瓣用户每天都在对“看过”的电影进行评价,豆瓣根据每部影片评分,看过的
人数以及该影片所得的评价等综合数据,通过算法分析产生豆瓣电影评论十大热
词。
为了分析电影电影是否受欢迎,你需要对这些信息做统计分析。
豆瓣网站某部电影的的数据形式为文本文件。
文件的内容如下:
抓取阿凡达.水之道