1-张光辉-3-FFA2019分论坛企业实践-张光辉1
【张光辉在FFA2019分论坛的演讲】主要分享了字节跳动内部对Flink的实践和优化,以及对Flink未来的展望。本文将深入探讨以下几个关键知识点: 1. **计算架构**:在字节跳动的计算架构中,用户和第三方平台通过智能资源管理进入流式计算平台。该平台支持Trace & Debug,Flink SQL,Flink Streaming和Flink Batch。系统运行在大规模的Yarn集群上,拥有数千个节点,服务于数以千计的Flink作业,处理海量数据。 2. **计算规模**:字节跳动的Flink计算规模非常庞大,包括秒级以上的Yarn集群,上万台机器,数百个用户,上千个Flink流式和批处理作业,以及数百个Flink SQL实例。 3. **应用场景**:Flink在字节跳动的应用场景广泛,涵盖了数据仓库、风险控制与安全、机器学习和广告等领域。核心关注点在于提升引擎能力、增强易用性、保证可靠性,包括负载均衡、环境隔离、降低作业故障率、提高CP成功率、实现双机房容灾、推动平台化、简化调试,以及支持状态计算、Exactly-Once语义、窗口操作和SQL查询。 4. **Flink SQL的应用与扩展**:在Flink 1.9版本中,SQL功能得到显著增强并正式上线。进行了大量升级,包括从1.5到1.9的版本迁移,验证了SQL的新特性如DDL、DML、QUERY、UDX、CEP、EMIT、JOIN等。此外,还实现了自定义Watermark、计算列、多种源/接收器/维表的支持。字节跳动构建了一个统一的平台,集成了SQL编写、分析、测试和上线。新功能的上线不仅涉及历史任务的迁移,也推动了新业务的应用。 5. **任务调度优化**:为了提升系统的效率,进行了任务调度的优化。这部分可能包括更智能的任务分配策略,以减少延迟和提高资源利用率。例如,优化Watermark的定制,以适应不同的时间窗口需求;通过计算列实现动态计算,减少不必要的计算开销;以及开发多种Source/Sink/维表,以满足多样化数据输入输出的需求。 6. **其他Flink优化**:除了SQL和调度外,可能还涉及到并发控制、网络传输优化、状态管理等方面的改进,以提升整体性能和稳定性。 7. **Flink在字节跳动的未来展望**:字节跳动对于Flink的未来发展充满信心,可能将继续探索如何进一步提升流式计算的性能,扩大其在实时分析、实时决策和实时数据处理中的应用,以及如何更好地融入到整个大数据生态系统中。 张光辉的演讲展示了Flink在字节跳动的实际应用情况,以及如何通过不断优化和扩展来应对大规模数据处理的挑战。这些经验对于理解实时计算在大型互联网公司的实践,以及如何有效地管理和优化流处理平台具有重要的参考价值。
剩余28页未读,继续阅读
- 粉丝: 589
- 资源: 358
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
评论0