提供了许多大数据的开源项目, 目前有 350 多个项目。是专门为支持开源软件项目而
办的一个非盈利性组织。在它所支持的 Apache 项目与子项目中,所发行的软件产品
都遵循 Apache 许可证。
以着名的捷克作家命名的 Apache Kafka 用于构建实时数据流管道和流媒体应用程
序。为什么这么受欢迎 ?因为它能够以容错的方式存储,管理和处理数据流,并且十
分快速。鉴于社交网络环境处理数据流, Kafka 目前非常受欢迎。
ApacheMahout
Mahout 提供了一个用于机器学习和数据挖掘的预制算法库, 也是创建更多算法的环
境。换句话说,是一个机器学习的天堂环境。
在任何编程环境中, 需要一些工作流程系统来以预定义的方式和定义的依赖关系来安
排和运行工作。 Oozie 提供的大数据工作以 Apachepig ,MapReduce 和 Hive 等语
言编写。
Apache Drill ,Apache Impala ,Apache Spark SQL
所有这些都提供了快速和交互式的 SQL ,如与 Apachehadoop 数据的交互。如果你
已经知道 SQL ,并处理以大数据格式 (即 HBase 或 HDFS) 存储的数据,这些功能将非
常有用。
评论0
最新资源