Storm是一款开源的分布式实时计算系统,它能够处理大量的数据流,并保证低延迟的数据处理。本书《Storm Applied: Strategies for real-time event processing》由Manning出版社出版,是关于Storm技术的实用指南,旨在帮助读者理解和掌握使用Storm进行实时事件处理的策略和技巧。 书中对大数据的概念进行了介绍。大数据通常具有四个特征,即“4V”:体量(Volume)、速度(Velocity)、多样性(Variety)和真实性(Veracity)。了解大数据是学习Storm的前提,因为Storm正是为了解决大数据处理问题而设计的。书中还提到,Storm对比其他大数据处理工具,如Hadoop,具有低延迟和高吞吐量的特点。 Storm的核心概念包括Topology、Tuple、Stream、Spout和Bolt。Topology是Storm中的基本抽象,它描述了数据如何在Spouts和Bolts之间流动,以完成计算任务。Tuple是数据的基本单位,它是命名字段的集合。Stream是无边界 Tuple的序列。Spout负责从数据源中读取数据并发送到Topology中,而Bolt则负责对数据进行处理。Stream Grouping是决定Tuple如何分配给Bolt任务的机制。 书中还讲述了如何在Storm中创建健壮的Topology。这部分内容会指导读者如何从本地部署的Topology移植到远程集群模式,以及如何进行性能调优和资源竞争的处理。 在设计Topology时,书中提出了一些设计原则和范式,比如从功能性组件的角度进行分解。同时,作者强调了在Storm中扩展Topology的重要性。Storm的并行性是通过调整Spout和Bolt的任务数来实现的。这种调整可以用来解决设计和数据流中的瓶颈问题。 在实际操作方面,作者带领读者实现了一个GitHub提交次数统计的Dashboard,通过这个案例,读者可以学习到如何设置Storm项目、如何实现Spouts和Bolts,以及如何将它们组合成一个完整的Topology。此外,书中还介绍了Storm的内部工作原理和Trident API,Trident是Storm提供的高级抽象,它使得开发更为复杂的数据处理逻辑变得简单。 在资源分配方面,资源竞争是分布式系统中常见的问题。Storm通过资源管理来确保各个任务高效运行,避免资源浪费。在资源有限的情况下,合理配置资源显得尤为重要。 此外,书籍在附录中还包括了索引、图表、表格和代码示例列表,这些都是帮助读者加深理解的重要组成部分。 本书《Storm Applied: Strategies for real-time event processing》为读者提供了一套完整的Storm学习路线图,从基础知识到高级特性,从理论到实践,逐一深入讲解了实时事件处理的关键知识。对于想要深入学习Storm或者希望在大数据实时处理领域有所建树的开发者而言,这本书无疑是一本宝贵的参考书。
剩余306页未读,继续阅读
- 粉丝: 0
- 资源: 2
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
- 1
- 2
前往页