没有合适的资源?快使用搜索试试~ 我知道了~
虚拟数字人深度产业报告 量子位 2021.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 87 浏览量
2022-12-20
15:51:18
上传
评论
收藏 908KB PDF 举报
温馨提示
虚拟数字人深度产业报告 量子位 2021.pdf
资源推荐
资源详情
资源评论
虚拟数字人
深度产业报告
技术背景篇
定义、关键词、分类、技术细节
市场规模、发展阶段、细分场景及判断、产业链、竞争格局、中外对比、产业瓶颈
产业现状篇
1
量子位硬科技深度产业报告—虚拟数字人
核心观点
如需进一步交流探讨、加入垂直社群等,请联系
量子位官方或量子位分析师:刘萌媛(请标注所在单位+职位)
邮箱:mengyuan@qbitai.com
1. 虚拟数字人的三大特征是虚拟化、NLP\CV\语音等多种技术共同成熟、高度拟人化。在技术层
面上分为灵活的真人驱动型和基于深度学习的计算驱动型。
2. 在2030年,我国虚拟数字人整体市场规模将达到2700亿。身份型虚拟数字人约1750亿。服务
型虚拟数字人总规模超过950亿。目前市场仍处于前期培育阶段。
3. 虚拟数字人的应用可分为服务型虚拟人和身份型虚拟人。替代真人服务中的虚拟主播和虚拟IP中
的虚拟偶像是目前的市场热点。
4. 虚拟数字人产业链。各厂商规划在未来对核心技术进行外包。
6. 国内外在细分市场上的竞争差异较大,具体包含技术层面、商业模式、细分市场及发展路线。
7. 行业门槛及瓶颈主要来源于三方面:上限偏高的技术及美术门槛;客户积累带来的业务认知;在
各细分市场亟待实现的标准化复制
特别感谢:魔珐科技、相芯科技、追一科技、中科深智、火山引擎、小冰公司、黑镜科技、科大讯飞、搜狗、百度及相关行业从事者对本报告的深度参与(排名
不分先后)。
量子位硬科技深度产业报告—虚拟数字人
技术背景
虚拟数字人指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用,并具有多
重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物。市面上也多将其称为为虚拟形象、虚拟人、数字人等,代表性
的细分应用包括虚拟助手、虚拟客服、虚拟偶像/主播等。
1.1 定义
人 — 在外表、行为、交互行为等方面高度拟人化,外在表现和交互效果已成为核心发展路线
外表:
虚拟数字人的面部长相和整体形象。会受到虚拟数字人类别(如直接借用真人形象、高保真建模、风格化)、制作细节(对汗毛、皮肤、头发
等细节的建模)、渲染水平、设计审美等影响
行为:
虚拟数字人的面部表情、形体表达、语音表述等。会受到驱动方式(真人驱动、计算驱动、预制调节等)、驱动模型类别(精细面部肌肉驱动、
语音合成模型中对语气词、韵律的处理等)、训练数据、驱动模型精度等影响
交互:
虚拟数字人与现实世界的交互水平,包括回答内容、肢体反应等,会受到语音识别能力、自然语言理解及处理水平、知识图谱、预先设置知识
库等影响。
虚拟—存在于非物理世界中,不同场景实现难度不同
目前,虚拟数字人主要以图片、视频、实时直播、实时动画等方式存在于电子屏中,如APP、小程序、软硬一体显示设备。在未来,VR设备
与全息投影也将成为其重要存在方式。
需注意的是,尽管其存在方式均在非物理世界中,由于各场景所需的时延(如直播等实时场景要求低时延,但内容生成场景无该要求)、驱动
方式(计算驱动对模型的深度学习能力有极高要求)等不同,对技术、运营等要求差异较大。
数字—依托多项技术存在,相关技术成熟成为其发展重要推动力
虚拟数字人是典型的多技术综合产物。除CG建模+真人驱动的类别外,多模态技术与深度学习成为其核心点。该部分将在技术中详细展开。
多位从业人员认为,虚拟数字人近年的发展来源于CG(Computer Graphics,利用计算机进行视觉设计和生产)、语音识别、图像识别、动
捕等相关技术的共同成熟。
英雄联盟 Seraphine
风格化
三星 Neon
基于真人采集
Unreal Engine Metahuman Creator
高保真建模
Genies 基于真人明星的虚拟数字人
风格化
其具体特征可拆分为“虚拟”、“数字”及“人”三个部分。在试用了相关产品后,我们认为,“人”是其中的核心的因素。高度拟人
化为用户带来的亲切感、关怀感与沉浸感是多数消费者的核心使用动力。能否提供足够自然逼真的相处体验,将成为虚拟数字人在各个
场景中取代真人,完成语音交互方式升级的重要标准。
1
UneeQ 虚拟助手
相芯科技 虚拟客服
魔珐科技 漫画IP齐麟虚拟直播
搜狗&新华社 虚拟主持人新小微
Source:UneeQ官网,相芯科技产品手册、魔珐科技产品手册、网络公开报道
量子位硬科技深度产业报告—虚拟数字人
真人驱动型技术流程
1. 形象设计及建模
基于IP设计或真人偶像绘制原画,进行面部及身体3D建模,选择关键点
2.建模绑定
将识别关键点映射至模型上,进行绑定。关键点绑定的数量及位置影响最终效果。
3. 表演捕捉
利用动作捕捉设备或特定摄像头+图像识别,捕捉在形体、表情、眼神、手势等方面的
关键点变化。
4. 驱动及渲染
真人演员(在虚拟偶像中称为中之人)根据制作需要进行相应表演,实时驱动虚拟数字
人表演。在较为精细的制作中,会需要根据真人演员和建模的区别进行重定向,并对动
作、眼神、手指等采用不同的驱动方式。
需要时需进行语音合成,形成特定设置语音
5.生成内容,进行互动
进行直播,或录制其动作生成内容
在计算驱动型中,虚拟数字人的语音表达、面部表情、具体动作将主要通过深度学习模型的运算结果实时或离线驱动,
在渲染后实现最终效果。
计算驱动的虚拟数字人最终效果受到语音合成(语音表述在韵律、情感、流畅度等方面是否符合真人发声习惯)、
NLP技术(与使用者的语言交互是否顺畅、是否能够理解使用者需求)、语音识别(能否准确识别使用者需求)等技
术的共同影响。尽管在特定方向上,各感知类技术已有的商业化能力已足以支撑,然而,但要达成理想的综合效果,
需要该公司在三个方面同时具有较强的综合能力。这也间接导致国内开展计算驱动型虚拟数字人业务的公司,大多是
在感知技术方面有较强的综合实力,相对成熟的AI技术公司。
计算驱动型技术流程
1. 设计形象。扫描真人形态及表演、采集驱动数据
利用多方位摄像头,对通用/特定模特进行打点扫描(视最终需求可进行全身或局部扫描),采集其说话时的唇动、表情、面部肌肉变化细节、姿态
等数据
从技术层面来看,虚拟数字人可以分为真人驱动型和计算驱动型。后者是近年来多模态技术和深度学习发展的技术集
大成者。
在真人驱动中,在完成原画建模和关键点绑定后,动捕设备或摄像头将基于真人的动作/表情等驱动虚拟数字人。
由于背后有真人操作,真人驱动型在动作灵活度、互动效果等方面有明显优势,一方面能够在影视内容的创作中减低
生产成本,为影视行业降低门槛,推动影视级内容向消费级转化。另一方面则多用于虚拟偶像、重要直播中,帮助虚
拟数字人完成大型直播、现场路演等互动性、碎片化活动。
事实上,这种技术思路可以看作是传统影视制作中,CG技术的进一步延续。近年来主要的技术突破在于动作捕捉环
节。随着图像识别技术,姿势、表情等识别算法的进步,昂贵的惯性或光学动捕设备不再是驱动的必备工具。普通摄
像头结合理想的识别算法通用能实现较为精准的驱动(如iPhone 12摄像头已可支持简单的动作捕捉),显著降低了
精细虚拟内容生成的门槛。
美国虚拟主播CodeMiko
采用真人驱动方法调整虚拟主播的动作及表情
1.2 技术细节
2
剩余17页未读,继续阅读
资源评论
samLi0620
- 粉丝: 1413
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- burp24-jdk-21.0.2
- 施工人员检测38-YOLO(v5至v9)、COCO、CreateML、Darknet、Paligemma、TFRecord、VOC数据集合集.rar
- burp-proxy-tools
- 施工人员检测37-YOLOv7、COCO、CreateML、Darknet、Paligemma、VOC数据集合集.rar
- 嵌入式系统课程设计:基于51单片机的温度检测系统实现
- BurpLoaderKeygen
- 工具变量-A股上市公司企业盟浪esg评级数据(2018-2022年).xlsx
- 施工人员检测26-YOLO(v5至v9)、COCO、CreateML、Darknet、Paligemma、TFRecord、VOC数据集合集.rar
- springboot靓车汽车销售网站(代码+数据库+LW)
- java区块链项目模块代码.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功