基于强化学习的立体全景视频自适应流.docx资源-CSDN文库

版权申诉

199 浏览量 2023-02-23 20:05:03 上传评论收藏 759KB DOCX 举报

资源推荐

资源详情

资源评论

1. 引言

虚拟现实技术(Virtual Reality, VR)是一种可以创建和体验虚拟世界的计算机仿真系

统。它利用计算机生成一种模拟环境，向使用者提供视觉、听觉、触觉等多种感官刺激，

带来一种身临其境的沉浸感受

[1]

。思科预计到 2022 年，沉浸式应用所产生的互联网流量将

增加 20 倍

[2]

。虽然单一的 360 视频可能是当前 VR 视频内容中最流行的类型，但它们缺乏

3D 信息，因此无法以完整的 6 个自由度(six Degree Of Freedom, 6-DOF)观看

[3]

。立体全景

视频实现在 3 DOF 360 视频条件下进一步增强沉浸式效果，已经受到人们的关注。

在传统全景视频传输中，由于强化学习方法能够获得长期内的最优决策。利用强化学

习进行全景视频的码率选择已经受到大量学者的研究。文献[4]运用强化学习中的异步优势

动作评价(Asynchronous Advantage Actor-Critic, A3C)算法通过输入之前时刻带宽、之前时刻

预测精度、当前带宽等数据进行视点区域、临近区域、外部区域的码率选择，该算法已成

为基于强化学习的全景视频区域码率选择的经典算法。文献[5]同样利用 A3C 算法进行 3

个区域的比特流分配。其考虑到为提高视点预测精度，缓存区应该不宜过大。其将缓存区

大小也作为奖励函数，鼓励算法偏向适宜的缓存大小来兼顾预测精度和播放卡顿，该算法

说明奖励函数的设置对系统工作有重要的影响。

在立体全景视频传输中，文献[6-8]研究了各种量化参数(Quantization Parameter, QP)、

不同空间缩放比等情况下的差分平均意见得分(Different Mean Opinion Scores, DMOS)值。

其结论不仅说明双目抑制也适用立体全景视频中，也说明当某一视点的空间分辨率在可接

受的情况下进行缩放时，其带宽能节省 25%～50%。文献[9]将一个视点水平、垂直下采

样，并在解码端上采样。而另一视点保持不变，进行非对称传输。上述方法都是固定码率

或者下采样进行非对称编码的方法，没有充分考虑网络带宽的实时变化等对用户体验质量

(Quality of Experience, QoE)的影响。本文提出一种基于强化学习的立体全景视频自适应流

传输方案。通过为一路视点提供基本视频内容信息，另一路视点动态提供辅助立体信息，

可以在带宽有限的情况下提供最佳的观看质量

[10]

。考虑到立体全景视频视点中各瓦片(tiles)

的显著性不同，因此左右视点对应瓦片对主观质量的贡献度是不一样的。合理降低每路视

点中显著性较低瓦片的码率，提高每路视点中显著性较高瓦片的码率，并利用强化学习合

理分配网络带宽数据，依据双目抑制原理，设置合适的奖励函数，从而提高视频整体质

量。其具体方法是利用多智能体强化学习对左右视点各瓦片分别进行码率选择，以避免传

统强化学习对多个瓦片进行码率选择造成的行动空间爆炸问题。最后，为保证系统的有效

性，采用一种分步更新策略来平衡整体奖励和左右视点的局部奖励。

2. 基于 DASH 的立体全景视频自适应流系统

图 1 展示了基于动态自适应流超文本传输协议(Dynamic Adaptive Streaming over

Hypertext transfer protocol, DASH)的立体全景视频自适应流系统框架。DASH 技术具有快速

的启动时间、较好的用户体验以及较少的缓冲等显著的特点。其较大地缓解了全景视频对

网络的高负载，确保了用户的体验质量

[11]

。由于同一时刻人眼观看的视点区域为视频内容

的一部分，因此全景视频通过特定工具，在时间上切割为片段(segments)，在空间上切割为

瓦片。编码后的瓦片数据集存储在服务器端，服务器端根据客户端反馈的信息进行数据选

择和发送。利用 HTTP2.0 协议，客户端发送一条指令信息能够获取所有要求的瓦片数据。

下载后的数据经过解码和缝合，存储在客户端播放缓存中。最后通过头戴设备等播放软件

进行渲染和播放。利用从播放设备获取的头部运动数据，通过视点预测，并结合当前带宽

数据对视点内和视点外区域瓦片选择不同的码率，可适当降低全景视频传输所要求的带宽

需求。合理地为每个瓦片进行码率控制决定着该流传输系统性能的优劣。

图 1 基于 DASH 的立体全景视频流系统结构图

下载: 全尺寸图片幻灯片

3. 立体全景视频联合码率控制

3.1 基于瓦片的左右观看概率预测方法

在立体视频中，左右两路视频存在一定的视差，对应的瓦片的显著性并不相同，左右

视点对于用户的关注度都存在影响。同时，用户的头部运动起着绝对作用。因此，本文提

出一种基于瓦片的立体全景视频左右观看概率预测方法。通过分别获取两路视点瓦片的观

看概率，并依据双目抑制原理设计合理的奖励函数，从而为左右两路视点各瓦片选择不同

的码率。

如图 2 所示，利用一种节能高效的 3 维卷积神经网络(Three-Dimension Convolutional

Neural Network, 3D-CNN)

[12]

分别对获取的主视点序列瓦片的静态显著信息、动态显著信息

和双目视点的视差信息进行特征提取。同时，利用长短期记忆网络(Long Short-Term

Memory, LSTM)在时间序列预测上的较强性能，进行头部运动数据预测。与获取到的显著

性数据和视差数据进行拼接融合。最后通过多层全连接层，利用监督学习的方法，分别获

剩余11页未读，继续阅读

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3683
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip