微博作为一个大型社交平台,拥有海量的用户和丰富的内容数据,为机器学习和深度学习提供了庞大的应用场景。微博在AI业务及趋势方面,包括多媒体内容理解、智能裁剪、图片OCR、音频分类、视频盗链检测、明星识别、视频Logo识别等多个方面,实现了技术落地和业务应用。同时,微博在CTR任务上实现了关注排序、Feed热门推荐、相关推荐等功能,使得微博AI场景更加丰富。
随着用户规模和业务场景的不断增长,微博面临着需求高度重复,业务迭代速度慢,资源与成本有限的挑战。为了应对这些挑战,微博在线机器学习平台采用了Kubernetes实践技术创新,通过自动化调度、动态资源分配、快速部署等特点,提高了资源利用率和运维效率。
在机器学习工作流方面,微博机器学习平台提供了一站式服务平台,通过业务评估、样本生成、特征处理、模型训练、模型评估、模型预测等环节,加快了业务开发速度,缩减了业务迭代周期。业务应用可以关注流推荐、文本分类/检测、图像/视频分类等,实现数据/特征生成、特征库建设、模型库建设等,加速算法迭代。
微博机器学习平台使用了多种深度学习框架,如tensorflow、caffe、storm、flink等,结合Spark、Hadoop等大数据处理技术,提供了强大的计算能力。同时,微博也使用了HDFS、ODPS等存储技术,以及阿里云提供的高性能GPU集群,为机器学习和深度学习提供了充分的硬件支持。
在深度学习训练框架方面,微博采用了weilearn,这是一个任务配置化、统一资源调度的框架,能够降低业务接入成本,提高任务效率与稳定性,降低平台管理成本。通过配置超参数、资源和算法,weilearn可以处理CTR样本、自然语言样本、视频与图像样本等。
Arena则是一个基于k8s的分布式解决方案,为数据科学家提供了一个简单的使用体验。它基于Kubernetes,不需要用户掌握k8s的专业知识,可以快速启动深度学习任务,支持tensorflow、caffe、horvod、pytorch等主流深度学习框架。Arena的简单性使得数据科学家可以在一分钟内启动深度学习任务。
在微博AI发展趋势方面,微博通过平台化、深度化、实时化策略来应对业务场景多、需求高度重复、业务迭代速度慢、资源与成本有限、特征工程成本高、模型迭代速度慢等问题。通过技术创新,微博致力于实现更快的业务迭代和更高效的数据处理能力。
微博在线机器学习平台的Kubernetes实践是一次技术创新,它不仅提升了微博在AI领域的竞争力,也为整个机器学习和深度学习领域提供了宝贵的经验和实践案例。通过这种实践,微博能够更好地利用其丰富的数据资源,实现业务场景的快速迭代和创新,推动微博AI业务的持续发展和进步。