T112019-数据智能技术峰会-Flink在数据分析中的应用-2019.11.25-24页.pdf
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
在大数据处理领域,Apache Flink是一个非常强大的开源流处理框架,它支持高吞吐量、低延迟的数据处理,以及具有容错机制的复杂事件流处理程序。它被广泛应用于实时分析、数据管道、事件驱动应用和机器学习等领域。在本次“数据智能技术峰会”上,TalkingData架构师肖强重点介绍了Flink在数据分析中的应用,以及TalkingData在使用Flink技术进行流处理服务演进过程中的背景、痛点、解决方案和未来展望。 肖强提出了 TalkingData流处理的背景与痛点。在2014年之前,TalkingData使用Jetty服务进行流处理,这一方案存在不易扩展与维护、性能问题等痛点。自2014年至2016年,团队尝试自研etl-framework新的流处理系统,但同样面临无法完整表达DAG、容错机制不足等问题。直至2017年至今,随着业务量的增长和更复杂的业务场景需求,原有系统性能问题愈发明显,从而促使 TalkingData寻求更为强大的数据处理技术。 在此背景下,Flink技术被引入。Flink相较其他技术如Twitter的Heron、Storm,在数据流处理、精确一次/至少一次的处理语义、内存管理和Operator支持等方面表现出色。Flink支持批处理和流处理的统一API,并且拥有丰富的监控工具。 接着,肖强分享了Flink在TalkingData SaaS分析中的演进路线。在演进早期,TalkingData建立了一个standalone cluster(独立集群),其中包括分布式数据收集服务(td-collector)、分布式消息队列(Kafka)、流式引擎(Flink)、OLAP引擎(Druid)以及流式服务(etl-service)。随着数据量的增加,TalkingData在2017年至2018年期间面临了部署规模、资源分配和Job部署均匀性等问题,这些挑战促使TalkingData从单一集群演变为多个集群,以解决资源相互干扰的问题。 在演进的进一步阶段,TalkingData采用Flink on YARN的方式,让Flink JobManager和TaskManager在YARN环境下运行,从而实现了多租户分发/调度。通过注册资源、请求AppMaster容器、分配AppMaster和Worker容器,使得资源分配更加合理,解决了之前Job相互干扰和阻塞的问题。 Flink的使用让TalkingData的SaaS服务能够以更高的性能处理更大的数据量。根据演讲内容,Flink on YARN的解决方案能够支持日均46亿的处理量,每秒峰值处理7.4万包和40万事件,而集群规模为456核。 针对Flink实践中的重点问题,肖强提出了一些解决方案,包括使用YARN更好地管理集群资源分配,优化Job部署策略,以及对数据流处理逻辑的调整等。这些都是在实践中不断遇到问题并解决的实例。 肖强总结了Flink在TalkingData的未来展望。随着人工智能和机器学习技术的发展,Flink作为实时数据处理框架在数据智能方面将发挥更加重要的作用。TalkingData希望能够利用Flink进一步提高数据处理效率,挖掘更多数据价值,并希望Flink能够支持更丰富、更复杂的数据处理场景。 从本次演讲中可以看出,Flink作为Apache基金会下的一个项目,已经发展成为流处理领域的佼佼者。随着企业对实时数据处理需求的不断提升,Flink这类实时大数据处理框架将会被更多公司采用,以支持企业级的应用和业务需求。
- 粉丝: 232
- 资源: 9万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助