⼤数据开源框架集锦 1 ⼤数据平台 Hadoop 离线数据的分布式存储和计算基础框架 分布式存储HDFS 离线计算引擎MapReduce 资源调度Apache YARN CDH 基于稳定版Hadoop及相关项⽬最成型的发⾏版本, 成为企业部署最⼴泛的⼤数据系统 可视化的UI界⾯中⽅便地管理 配置和监控Hadoop以及其它所有相关组件 简单来说将⼗⼏个hadoop开源项⽬集成在⼀起 HDP 基于hadoop⽣态系统开源组件构建的⼤数据分析平台 2 集群管理与监控 Cloudera Manager ⽤于部署和管理CDH集群的软件 Ambari Hadoop平台的管理软件,具备Hadoop组件的安装、管理、运维 3 ⽂件系统 HDFS 分布式⽂件系统 4 资源调度 YARN hadoop的资源管理和作业调度系统 5 协调框架 Zookeeper 分布式协调服务,解决分布式数据⼀致性⽅案 实现诸如数据发布 订阅、负载均衡、命名、集群管理 master节点管理 分布式锁和分布式队列 6 数据存储 Hbase 分布式⾯向列的NoSQL开源数据库 Cassandra 分布式的混合NoSQL数据库 ,还有C++版本ScyllaDB MongDB ⾯向⽂档的开源分布式数据库 Redis 开源的⽀持⽹络,基于内存可持久化⽇志,key-value数据库,可⽤于 数据库 缓存 消息中间件 Neo4j 开源⾼性能的NoSQL图形数据库 7 数据处理 MapReduce 分布式离线的计算框架 批处理 ⽇渐被spark和flink取代 Spark 通⽤的⼀站式计算框架 SparkCore批处理 SparkSQL交互式处理 SparkStreaming流处理 Spark Graphx图计算 Spark MLlib机器学习 Flink 流处理和批处理分布式数据处理框架 核⼼是⼀个流式的数据流执⾏引擎 类似于Spark 批处理 数据流处理 交互处理 图形处理和机器学习 Storm 分布式实时⼤数据处理系统 毫秒级别的实时数据处理能⼒ 实时分析的领导者 8 数据查询分析 Hive 基于hadoop的数据仓库,结构化 SparkSQL 处理结构化数据的spark组件 分布式的SQL查询引擎 Impala 实时交互SQL⼤数据查询引擎 Druid 实时⼤数据分析引擎 Elastic Search 分布式可扩展的实时搜索和分析引擎,基于Apache Lucene搜索引擎 9 数据收集 Flume 分布式海量⽇志采集、聚合和传输系统 Logstash 具有实时管道功能的开源数据收集引擎 10 数据交换 sqoop 数据迁移⼯具,⽤来在不同数据存储软件之间进⾏数据传输的开源软件 DataX 阿⾥巴巴开源的离线数据同步⼯具,⽤于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定 ⾼效的数据同步 11 消息系统 Pulsar 企业级分布式消息系统,有替代Kafka的趋势 Kafka 发布/订阅的消息系统,由Scala写成 RocketMQ 阿⾥巴巴分布式、队列模型的消息中间件 12 任务调度 Azkaban 批量⼯作流任务调度器,将所有正在运⾏的⼯作流的状态保存在其内存 Oozie 基于Hadoop的企业级⼯作流调度框架 将所有正在运⾏的⼯作流的状态保存SQL数据库 Cloudeara贡献给Apache的顶级项⽬ 13 数据治理 Ranger Hadoop 平台上并提供操作、监控、管理综合数据安全的框架 提供⼀个集中的管理机制,所有数据权限 Sentry Hadoop集群元数据和数据存储提供集中、细粒度的访问控制项⽬ 14 数据可视化 Kibana ⽤于和 Elasticsearch ⼀起使⽤的开源的分析与可视化平台 15 数据挖掘 Mahout 基于hadoop的机器学习和数据挖掘的⼀个分布式框架 Spark MLlib Spark的机器学习库 MADlib 基于SQL的数据库内置的可扩展的机器学习库 16 云平台技术 AWS S3 ⼀种对象存储服务,提供⾏业领先的可扩展性、数据可⽤性、安全性和性能 存储和保护各种⽤例数据 GCP Google提供的⼀套云计算服务 注册⼀个帐号,在分布在全球各地数⼗个google机房使⽤所有的基础架构服务 【大数据开源框架集锦】 大数据处理领域中,开源框架扮演着至关重要的角色,它们提供了高效、灵活且可扩展的数据处理方案。以下是一些关键的开源框架及其应用: 1. **Hadoop**:作为大数据处理的基础,Hadoop由分布式存储系统HDFS(Hadoop Distributed File System)和离线计算引擎MapReduce组成。它为企业提供了处理大规模数据的能力,并通过资源调度系统Apache YARN进行优化。CDH和HDP是基于Hadoop构建的企业级发行版,分别由Cloudera和Hortonworks提供,包含丰富的管理和监控工具。 2. **集群管理与监控**:Cloudera Manager和Ambari是两种用于部署和管理Hadoop集群的软件,提供安装、配置、监控等功能,简化了大数据系统的运维工作。 3. **文件系统**:HDFS是分布式文件系统,适用于大数据存储,保证了数据的高可用性和容错性。 4. **资源调度**:YARN是Hadoop的资源管理和作业调度系统,提高了集群资源利用率。 5. **协调框架**:Zookeeper作为一个分布式协调服务,解决了分布式环境中的数据一致性问题,广泛应用于服务发现、配置管理和分布式锁等领域。 6. **数据存储**:Hbase、Cassandra、MongoDB、Redis和Neo4j分别是面向列、混合NoSQL、文档型、键值型和图形数据库,提供了不同的数据存储解决方案。例如,Hbase适合实时查询,Cassandra支持高吞吐量读写,MongoDB适合半结构化数据,Redis适合高速缓存,Neo4j则用于图形数据处理。 7. **数据处理**:MapReduce是传统的离线批处理框架,但已被Spark和Flink等更高效的技术取代。Spark提供了一个全面的计算框架,包括SparkCore、SparkSQL、SparkStreaming、Spark GraphX和Spark MLlib,覆盖了批处理、交互式查询、流处理和机器学习。Flink则以其流处理能力著称,类似于Spark,但更专注于实时计算。 8. **数据查询分析**:Hive基于Hadoop的数据仓库,支持SQL查询,适合处理结构化数据;SparkSQL是Spark的SQL组件,可以处理结构化数据;Impala和Druid提供实时交互式查询能力,尤其适合大数据分析;Elasticsearch是一个实时搜索和分析引擎,广泛用于日志分析和全文检索。 9. **数据收集**:Flume和Logstash分别用于日志采集和数据管道,实现了大规模数据的实时聚合和传输。 10. **数据交换**:Sqoop和DataX用于数据迁移,支持在多种数据存储间高效地同步数据。 11. **消息系统**:Pulsar和Kafka是分布式消息中间件,提供发布/订阅模型,其中Pulsar在性能和扩展性上有优势;RocketMQ是阿里巴巴开发的消息系统,适用于高并发场景。 12. **任务调度**:Azkaban和Oozie是任务调度工具,用于批量工作流的管理和执行,确保任务按照预定顺序和时间执行。 13. **数据治理**:Ranger和Sentry提供了Hadoop平台的数据安全管理,实现细粒度的权限控制和访问策略。 14. **数据可视化**:Kibana是与Elasticsearch配合使用的数据可视化平台,用于数据分析和结果展示。 15. **数据挖掘**:Mahout是基于Hadoop的分布式数据挖掘框架,而Spark MLlib和MADlib分别提供了Spark上的机器学习库和SQL内的机器学习功能。 16. **云平台技术**:AWS S3是Amazon提供的对象存储服务,具有高可扩展性和安全性,适用于各种数据存储需求。Google Cloud Platform (GCP)提供了全面的云计算服务,包括计算、存储、数据库、网络等基础设施,用户可以通过GCP在全球范围内的数据中心部署应用。 这些框架和技术构成了大数据生态的核心,为企业和个人提供了处理、分析和利用大数据的强大工具。随着技术的发展,新的框架不断涌现,持续推动大数据领域的创新。
- 粉丝: 193
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于javaweb的网上拍卖系统,采用Spring + SpringMvc+Mysql + Hibernate+ JSP技术
- polygon-mumbai
- Chrome代理 switchyOmega
- GVC-全球价值链参与地位指数,基于ICIO表,(Wang等 2017a)计算方法
- 易语言ADS指纹浏览器管理工具
- 易语言奇易模块5.3.6
- cad定制家具平面图工具-(FG)门板覆盖柜体
- asp.net 原生js代码及HTML实现多文件分片上传功能(自定义上传文件大小、文件上传类型)
- whl@pip install pyaudio ERROR: Failed building wheel for pyaudio
- Constantsfd密钥和权限集合.kt