学员将学习和掌握使用高级脚本语言或类SQL语言来编写MapReduce任务,而无需掌握Java编程语言和熟悉Hadoop API。通过掌握Hive和/或Pig,将极大缩短数据分析人员设计编写和调试常见数据分析问题的周期,提高工作效率;从而为企业节省费用,缩短分析结果市场化的周期。
你将收获
适用人群
初级研发工程师
课程介绍
Hadoop分布式文件系统(HDFS)和MapReduce的工作原理 如何优化Hadoop机群所需要的硬件配置 搭建Hadoop机群所需要考虑的网络因素 如何利用Hadoop配置选项进行系统性能调优 如何利用FairScheduler为多用户提供服务级别保障 Hadoop机群维护和监控 如何使用Flume从动态生成的文件加载数据到Hadoop
课程目录
大家都在学
讨论留言
正在加载中...
同学笔记
2020-02-17 10:24:35
1.单机处理能力低下
2.分布式架构实现的复杂度会随着机器数量增加而指数性增加。
3.Java的HashMap于Python的dict
2020-02-17 10:05:51
Hapood三大核心组件
1.HDFS:存储、分布式文件系统
2.MapReduce:分布式编程框架(jar包)
3.Yarn:资源调度管理集群,管理分配硬件资源。
把Hadoop理解为:
1.当作框架(例如tensorflow),专用于大数据处理,而不是Web开发
2.当作服务软件,C/S架构,例如MySQL(使用JDBC调用),缓存服务redis,索引服务solr。可以存储、分析数据。
Hadoop的历史:
1.google三篇论文:GFS/MAPREDUCE/BIG TAGE
分别解决了分布式大数据存储、处理、数据库的问题。
2.doug cutting这个人用java把上述论文实现了上述三篇论文的思想。BIG TABLE对应HBASE
3.搜索引擎的核心就是:爬虫+索引
全球的网页数据是庞大的(分布式数据库)、再分析后,建立庞大数据的索引,是非常复杂的。
4.doug cutting再做搜索引擎也有这个问题。后来三个项目独立出来,变为Hadoop。
5.后期hadoop的组件越来越多,不局限于三大组件,成为自己独特的生态。
没有更多了