大数据学习路线

所需积分/C币:25 2019-01-29 12:17:12 170KB PDF

一 到底学什么 目前来说,大数据的学习核心就是hadoop生态圈及相关的技 术。 主要的技能树-语言篇: Hadoop本身是用java开发的,所以对java的支持性非常好, 所以java是必须的语言。 数据挖掘: 因为Python开发效率较高所以我们使用Python来进行任务, 当然,目前很强大的scala也是一种不错的备选。 因为Hadoop是运行在Linux系统上的,所以还需要掌握Linux 的知识。
分配资源。Yarn是一个公共的资源调度平台,所有满足条件 的框架都可以使用Yarn米进行资源调度。 分布式里面的大管家 zookeeper Zookeeper Zookeeper是很多大数据框架的基础,它是集群的管理者。 监视着集群中各个节点的状态根据节点提交的反馈进行下 步合理操作。 最终,将简单易用的接口和性能高效、功能稳定的系统提供 给用户 □大数据领域的数据库 Hiⅴe Hive是一个数据仓库,所有的数据都是存储在HDFS上的。使 用Hive主要是写Ha1,非常类似于Mysq1数据库的Sq1。其实 Hive在执行Ha1,底层在执行的时候还是执行的 MapReduce程 序 Hbase Hbase是一个Nosq1数据库,是一个Key- Value类型的数据 库,是高可靠、面向列的、可伸缩的、分布式的数据库。 适用于非结构化的数据存储,底层的数据存储在HDFS上。 □大数据的采集系统 Flume Flume是一个日志采集工具,常见的就是采集应用产生的日 志文件中的数据,一般有两个流程。 个是 Flume米集数据存储到 Kafka中,方便 Storm或者 Sparkstreaming进行实时处理。 另一个流程是 Flume集的数据存储到HDFS上,为了后期使 用 hadoop或者 spark进行离线处理。 强大的消息中间件 kafka Kafka kaka是一个消息中间件,在工作中常用于实时处理的场景 中,作为一个中间缓冲层 实时计算框架 Storm Storm是一个实时计算框架,和MR的区别就是,M是对离线 的海量数据进行处理,而 Storm是对实时新增的每一条数据 进行处理,是一条一条的处理,可以保证数据处理的时效 性。 □髙性能计算引擎 spark Spark park是专为大规模数据处理而设计的快速通用的计算引 擎,其是基于内存的迭代式计算。 Spark保留了 MapReduce 的优点,而且在时效性上有了很大提高。 两个重要模块 Spark streaming Spark streaming是实时处理框架,数据是一批一批的处 理 Spark hive 基于 Spark的快速Sq1检索。 Spark作为Hive的计算引擎,将 Hive的查询作为 Spark的任务提交到 Spark集群上进行计算, 可以提高Ⅲive査询的性能。 2数据挖掘算法 中文分词 开源分词库的离线和在线应用 自然语言处理 文本相关性算法 推荐算法 基于CB、CF,归一法, Mahout应用。 分类算法 NB、SVM 回归算法 LR、 Decision tree 聚类算法 层次聚类、 Kmeans 神经网终与深度学习 NN、 Tensorflow 3高端课一AI 以上就是学习 Hadoop开发的一个详细路线,鉴于篇幅原因只 列举和解释了框架作用。 学习完第一阶段的知识,已经可以从事大数据架构相关的工 作,可以在企业中负责某些或某个的开发与维护工作。 学习完第二阶段的知识,可以从事数据挖掘相关的工作,这 也是目前进入大数据行业含金量最高的工作 学习完第三阶段的知识,可以做目前最火也是最前沿的领 域,人工智能高端课程,只要学会,起步60W。

...展开详情
img
xm7289436

关注 私信 TA的资源

上传资源赚积分,得勋章
相关内容推荐