没有合适的资源?快使用搜索试试~ 我知道了~
基于强化学习的立体全景视频自适应流.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 199 浏览量
2023-02-23
20:05:03
上传
评论
收藏 759KB DOCX 举报
温馨提示
试读
12页
基于强化学习的立体全景视频自适应流.docx
资源推荐
资源详情
资源评论
1. 引言
虚拟现实技术(Virtual Reality, VR)是一种可以创建和体验虚拟世界的计算机仿真系
统。它利用计算机生成一种模拟环境,向使用者提供视觉、听觉、触觉等多种感官刺激,
带来一种身临其境的沉浸感受
[1]
。思科预计到 2022 年,沉浸式应用所产生的互联网流量将
增加 20 倍
[2]
。虽然单一的 360 视频可能是当前 VR 视频内容中最流行的类型,但它们缺乏
3D 信息,因此无法以完整的 6 个自由度(six Degree Of Freedom, 6-DOF)观看
[3]
。立体全景
视频实现在 3 DOF 360 视频条件下进一步增强沉浸式效果,已经受到人们的关注。
在传统全景视频传输中,由于强化学习方法能够获得长期内的最优决策。利用强化学
习进行全景视频的码率选择已经受到大量学者的研究。文献[4]运用强化学习中的异步优势
动作评价(Asynchronous Advantage Actor-Critic, A3C)算法通过输入之前时刻带宽、之前时刻
预测精度、当前带宽等数据进行视点区域、临近区域、外部区域的码率选择,该算法已成
为基于强化学习的全景视频区域码率选择的经典算法。文献[5]同样利用 A3C 算法进行 3
个区域的比特流分配。其考虑到为提高视点预测精度,缓存区应该不宜过大。其将缓存区
大小也作为奖励函数,鼓励算法偏向适宜的缓存大小来兼顾预测精度和播放卡顿,该算法
说明奖励函数的设置对系统工作有重要的影响。
在立体全景视频传输中,文献[6-8]研究了各种量化参数(Quantization Parameter, QP)、
不同空间缩放比等情况下的差分平均意见得分(Different Mean Opinion Scores, DMOS)值。
其结论不仅说明双目抑制也适用立体全景视频中,也说明当某一视点的空间分辨率在可接
受的情况下进行缩放时,其带宽能节省 25%~50%。文献[9]将一个视点水平、垂直下采
样,并在解码端上采样。而另一视点保持不变,进行非对称传输。上述方法都是固定码率
或者下采样进行非对称编码的方法,没有充分考虑网络带宽的实时变化等对用户体验质量
(Quality of Experience, QoE)的影响。本文提出一种基于强化学习的立体全景视频自适应流
传输方案。通过为一路视点提供基本视频内容信息,另一路视点动态提供辅助立体信息,
可以在带宽有限的情况下提供最佳的观看质量
[10]
。考虑到立体全景视频视点中各瓦片(tiles)
的显著性不同,因此左右视点对应瓦片对主观质量的贡献度是不一样的。合理降低每路视
点中显著性较低瓦片的码率,提高每路视点中显著性较高瓦片的码率,并利用强化学习合
理分配网络带宽数据,依据双目抑制原理,设置合适的奖励函数,从而提高视频整体质
量。其具体方法是利用多智能体强化学习对左右视点各瓦片分别进行码率选择,以避免传
统强化学习对多个瓦片进行码率选择造成的行动空间爆炸问题。最后,为保证系统的有效
性,采用一种分步更新策略来平衡整体奖励和左右视点的局部奖励。
2. 基于 DASH 的立体全景视频自适应流系统
图 1 展示了基于动态自适应流超文本传输协议(Dynamic Adaptive Streaming over
Hypertext transfer protocol, DASH)的立体全景视频自适应流系统框架。DASH 技术具有快速
的启动时间、较好的用户体验以及较少的缓冲等显著的特点。其较大地缓解了全景视频对
网络的高负载,确保了用户的体验质量
[11]
。由于同一时刻人眼观看的视点区域为视频内容
的一部分,因此全景视频通过特定工具,在时间上切割为片段(segments),在空间上切割为
瓦片。编码后的瓦片数据集存储在服务器端,服务器端根据客户端反馈的信息进行数据选
择和发送。利用 HTTP2.0 协议,客户端发送一条指令信息能够获取所有要求的瓦片数据。
下载后的数据经过解码和缝合,存储在客户端播放缓存中。最后通过头戴设备等播放软件
进行渲染和播放。利用从播放设备获取的头部运动数据,通过视点预测,并结合当前带宽
数据对视点内和视点外区域瓦片选择不同的码率,可适当降低全景视频传输所要求的带宽
需求。合理地为每个瓦片进行码率控制决定着该流传输系统性能的优劣。
图 1 基于 DASH 的立体全景视频流系统结构图
下载: 全尺寸图片 幻灯片
3. 立体全景视频联合码率控制
3.1 基于瓦片的左右观看概率预测方法
在立体视频中,左右两路视频存在一定的视差,对应的瓦片的显著性并不相同,左右
视点对于用户的关注度都存在影响。同时,用户的头部运动起着绝对作用。因此,本文提
出一种基于瓦片的立体全景视频左右观看概率预测方法。通过分别获取两路视点瓦片的观
看概率,并依据双目抑制原理设计合理的奖励函数,从而为左右两路视点各瓦片选择不同
的码率。
如图 2 所示,利用一种节能高效的 3 维卷积神经网络(Three-Dimension Convolutional
Neural Network, 3D-CNN)
[12]
分别对获取的主视点序列瓦片的静态显著信息、动态显著信息
和双目视点的视差信息进行特征提取。同时,利用长短期记忆网络(Long Short-Term
Memory, LSTM)在时间序列预测上的较强性能,进行头部运动数据预测。与获取到的显著
性数据和视差数据进行拼接融合。最后通过多层全连接层,利用监督学习的方法,分别获
取侧重不同信息的左右视点各瓦片的观看概率。某个瓦片的观看概率$ {p_i} $可以简短地
表示为
图 2 基于 tile 的视点预测概率模型
下载: 全尺寸图片 幻灯片
$$ {p_i} =
f\left[ {{\boldsymbol{S}}_i^{{\rm{R,s}}},{\boldsymbol{S}}_i^{{\rm{R,d}}},{\boldsymbol{P}}_i^{^{{\rm{L,R}}}},{\text{LSTM
}}\left( {{\text{h}}{{\text{m}}_t}} \right)} \right] $$
(1)
其中,
${\boldsymbol{S}}_i^{{\rm{R,s}}}$, ${\boldsymbol{S}}_i^{{\rm{R,d}}}$, ${\boldsymbol{P}
}_i^{{\rm{L,R}}}$分别为右视点静态显著性图、动态显著性图以及视差图,
$ {\text{h}}{{\text{m}}_t} $为该时刻头部运动数据。
3.2 基于多智能体强化学习的联合码率控制模型
假设立体全景视频左右视点分别在时间上分为$ N $个片段,每个片段长度为$ T $,
每个片段包含$ K $个瓦片,并且每个片段有$ M $ bit 水平。每个片段中每个瓦片所选择的
码率为$ {a_i} $,其$ i \in \left\{ {0,M - 1} \right\} $。$ q\left( {{a_i}} \right) $表示码率到感
知质量的映射。左右视点每个瓦片的观看概率分别为$p_i^{\rm{L}}$, $p_i^{\rm{R}}$。
在单视点情况中,利用强化学习为每个瓦片选择码率,在每一时刻,一共有$ {M^K}
$种可能。如此巨大的行动空间在实践中是不可行的。本文利用基于策略-评价(Actor-
Critic)
[13]
的多智能体强化学习,将每个瓦片当成一个智能体,其共享一个状态,进行联合
行动。行动空间最终减小为$ M $。其结构如图 3(b)所示。
剩余11页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3683
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功