望迎来快速爆发。据市场分析机构 IDC 最新报告显示,2022 年全球 AI 应用
软件市场规模为 640 亿美元,预计到 2027 年将增加到 2790 亿美元,复合
年增长率(CAGR)为 31.4%。
01
多模态 AI 行业概览
人工智能领域研究一直致力于以技术实现计算机对于人类认知世界方式的
高度效仿。单模态交互是一个局限的、并不完整的模型,因此“多模态”
研究大势所趋已十分明朗。多模态学习(对应单模态)以多模态大规模数
据为基础,同时利用多种感官进行学习,提供更丰富信息。除传统的语言
以及图像间的交互作用,其结合声音、触觉以及动作等多维度信息进行深
度学习,从而形成更准确、更具表现力的多模态表示。相比于单模态,多
模态模型处理多种数据输入,结构上更复杂,可能涉及使用多个子网络,
然后将其输出合并。多模态模型的核心是处理和整合这些不同类型的数据
源。这种模型可以捕获跨模态的复杂关系,使机器能够更全面地理解和分
析信息,从而在各种任务中表现得更好。AI 模型走向多模态必然性的三大
因素:跨模态任务需求+跨模态数据融合+对人类认知能力的模拟。