没有合适的资源?快使用搜索试试~ 我知道了~
基于神经网络的视讯译码的前端架构
资源推荐
资源详情
资源评论
说明书
用于基于神经网路的视讯译码的前端架构
概括而言,本案内容系关于影像和视讯译码,包括对影像及/或视讯的编码(或压缩)和解
码(解压缩)。例如,本案内容的各态样系关于用于使用基于端到端机器学习(例如,神经
网路)的影像和视讯译码系统来处理亮度-色度(YUV)输入格式(例如,4:2:0 YUV 输入格
式、4:4:4 YUV 输入格式、4:2:2 YUV 输入格式等)及/或其他输入格式的技术。
许多设备和系统允许视讯资料被处理和输出以供消费。数位视讯资料包括大量资料,以满足
消费者和视讯提供者的需求。例如,视讯资料的消费者期望高品质视讯,包括高保真度、高
解析度、高画面播放速率等。结果,满足这些需求所需要的大量视讯资料为处理和储存视讯
资料的通讯网路和设备带来了负担。
各种视讯译码技术可以用于对视讯资料进行压缩。视讯译码的一个目标是将视讯资料压缩为
使用较低位元速率的形式,同时避免或最小化对视讯品质的降级。随着不断发展的视讯服务
变得可用,需要具有更好的译码效率的编码技术。
描述了用于使用一或多个机器学习系统来对影像及/或视讯内容进行译码(例如,编码及/
或解码)的系统和技术。例如,提供了一种基于端到端机器学习(例如,神经网路)的影像
和视讯译码(E2E-NNVC)系统,其可以处理 YUV(数位域 YCbCr)输入格式(以及在一些情
况下,其他输入格式),在一些情况下,具体为 4:2:0 YUV 输入格式。E2E-NNVC 系统可以处
理包含多个讯框的独立讯框(亦被称为影像或图片)及/或视讯资料。YUV 格式包括亮度通
道(Y)和一对色度通道(U 和 V)。U 和 V 通道可以相对于 Y 通道进行二次取样,而不会
对视觉品质产生显著或明显的影响。在 YUV 格式中,通道之间的相关性减小,这可能与其
他色彩格式(例如,红绿蓝(RGB)格式)不同。本文描述的系统和技术的各态样提供了前
端架构(例如,新的子网路),以适应针对 RGB 输入格式设计的 E2E-NNVC(以及在一些情
况下,针对其他输入格式设计的 E2E-NNVC)中的 YUV 4:2:0 输入格式(以及在一些情况下,
其他输入格式)。前端架构适用于许多 E2E-NNVC 架构。
在一个说明性实例中,提供了一种处理视讯资料的方法。该方法包括:由神经网路系统的编
码器子网路的第一回旋层产生与讯框的亮度通道相关联的输出值;由该编码器子网路的第二
回旋层产生与该讯框的至少一个色度通道相关联的输出值;由第三回旋层基于与该讯框的该
亮度通道相关联的输出值和与该讯框的该至少一个色度通道相关联的输出值来产生该讯框
的组合表示;及基于该讯框的该组合表示来产生经编码的视讯资料。
在另一实例中,提供了一种用于处理视讯资料的装置,其包括:记忆体;及处理器(例如,
在电路中实现的),其耦合到该记忆体。在一些实例中,一个以上的处理器可以耦合到该记
忆体,并且可以用于执行该等操作中的一或多个操作。该处理器被配置为:使用神经网路系
统的编码器子网路的第一回旋层产生与讯框的亮度通道相关联的输出值;使用该编码器子网
路的第二回旋层产生与该讯框的至少一个色度通道相关联的输出值;使用第三回旋层基于与
该讯框的该亮度通道相关联的输出值和与该讯框的该至少一个色度通道相关联的输出值来
产生该讯框的组合表示;及基于该讯框的该组合表示来产生经编码的视讯资料。
在另一实例中,提供了一种用于对视讯资料进行编码的非暂时性电脑可读取媒体,其具有储
存在其上的指令,该等指令在被一或多个处理器执行时使得该一或多个处理器进行以下操作:
使用神经网路系统的编码器子网路的第一回旋层产生与讯框的亮度通道相关联的输出值;使
用该编码器子网路的第二回旋层产生与该讯框的至少一个色度通道相关联的输出值;使用第
三回旋层基于与该讯框的该亮度通道相关联的输出值和与该讯框的该至少一个色度通道相
关联的输出值来产生该讯框的组合表示;及基于该讯框的该组合表示来产生经编码的视讯资
料。
在另一实例中,提供了一种用于处理视讯资料的装置。该装置包括:用于经由神经网路系统
的编码器子网路的第一回旋层来产生与讯框的亮度通道相关联的输出值的单元;用于经由该
编码器子网路的第二回旋层来产生与该讯框的至少一个色度通道相关联的输出值的单元;用
于经由使用第三回旋层基于与该讯框的该亮度通道相关联的输出值和与该讯框的该至少一
个色度通道相关联的输出值来产生该讯框的组合表示的单元;及用于基于该讯框的该组合表
示来产生经编码的视讯资料的单元。
在一些态样中,该第三回旋层包括 1x1 回旋层。该 1x1 回旋层包括一或多个 1x1 回旋滤波器。
在一些态样中,上述用于处理视讯资料的方法、装置和电脑可读取媒体亦包括:使用该编码
器子网路的第一非线性层来处理与该讯框的该亮度通道相关联的该等输出值;及使用该编码
器子网路的第二非线性层来处理与该讯框的该至少一个色度通道相关联的输出值。在此类态
样中,该组合表示是基于该第一非线性层的输出和该第二非线性层的输出来产生的。
在一些态样中,该讯框的该组合表示是由该第三回旋层使用该第一非线性层的输出和该第二
非线性层的输出作为输入来产生的。
在一些态样中,上述用于处理视讯资料的方法、装置和电脑可读取媒体亦包括:对该经编码
的视讯资料进行量化。
在一些态样中,上述用于处理视讯资料的方法、装置和电脑可读取媒体亦包括:对该经编码
的视讯资料进行熵译码。
在一些态样中,上述用于处理视讯资料的方法、装置和电脑可读取媒体亦包括:将该经编码
的视讯资料储存在记忆体中。
在一些态样中,上述用于处理视讯资料的方法、装置和电脑可读取媒体亦包括:在传输媒体
上向至少一个设备发送该经编码的视讯资料。
在一些态样中,上述用于处理视讯资料的方法、装置和电脑可读取媒体亦包括:获得经编码
的讯框;由该神经网路系统的解码器子网路的第一回旋层产生与经编码的讯框的亮度通道相
关联的经重构的输出值;及由该解码器子网路的第二回旋层产生与经编码的讯框的至少一个
色度通道相关联的经重构的输出值。
在一些态样中,上述用于处理视讯资料的方法、装置和电脑可读取媒体亦包括:使用该解码
器子网路的第三回旋层来将经编码的讯框的该亮度通道与经编码的讯框的该至少一个色度
通道分离。
在一些态样中,该解码器子网路的该第三回旋层包括 1x1 回旋层。该 1x1 回旋层包括一或多
个 1x1 回旋滤波器。
在一些态样中,该讯框包括视讯讯框。在一些态样中,该至少一个色度通道包括色度蓝色通
道和色度红色通道。在一些态样中,该讯框具有亮度色度(YUV)格式。
在一个说明性实例中,提供了一种处理视讯资料的方法。该方法包括:获得经编码的讯框;
由该解码器子网路的第一回旋层将该经编码的讯框的亮度通道与该经编码的讯框的至少一
个色度通道分离;由神经网路系统的解码器子网路的第二回旋层产生与该经编码的讯框的该
亮度通道相关联的经重构的输出值;由该解码器子网路的第三回旋层产生与该经编码的讯框
的该至少一个色度通道相关联的经重构的输出值;及产生输出讯框,该输出讯框包括与该亮
度通道相关联的经重构的输出值和与该至少一个色度通道相关联的经重构的输出值。
在另一实例中,提供了一种用于处理视讯资料的装置,其包括:记忆体;及处理器(例如,
在电路中实现的),其耦合到该记忆体。在一些实例中,一个以上的处理器可以耦合到该记
忆体,并且可以用于执行该等操作中的一或多个操作。该处理器被配置为:获得经编码的讯
框;使用该解码器子网路的第一回旋层来将该经编码的讯框的亮度通道与该经编码的讯框的
至少一个色度通道分离;使用神经网路系统的解码器子网路的第二回旋层产生与该经编码的
讯框的该亮度通道相关联的经重构的输出值;使用该解码器子网路的第三回旋层产生与该经
编码的讯框的该至少一个色度通道相关联的经重构的输出值;及产生输出讯框,该输出讯框
包括与该亮度通道相关联的经重构的输出值和与该至少一个色度通道相关联的经重构的输
出值。
在另一实例中,提供了一种用于对视讯资料进行编码的非暂时性电脑可读取媒体,其具有储
存在其上的指令,该等指令在被一或多个处理器执行时使得该一或多个处理器进行以下操作:
获得经编码的讯框;使用该解码器子网路的第一回旋层来将该经编码的讯框的亮度通道与该
经编码的讯框的至少一个色度通道分离;使用神经网路系统的解码器子网路的第二回旋层产
生与该经编码的讯框的该亮度通道相关联的经重构的输出值;使用该解码器子网路的第三回
旋层产生与该经编码的讯框的该至少一个色度通道相关联的经重构的输出值;及产生输出讯
框,该输出讯框包括与该亮度通道相关联的经重构的输出值和与该至少一个色度通道相关联
的经重构的输出值。
在另一实例中,提供了一种用于处理视讯资料的装置。该装置包括:用于获得经编码的讯框
的单元;用于经由该解码器子网路的第一回旋层来将该经编码的讯框的亮度通道与该经编码
的讯框的至少一个色度通道分离的单元;用于经由神经网路系统的解码器子网路的第二回旋
层产生与该经编码的讯框的该亮度通道相关联的经重构的输出值的单元;用于经由该解码器
子网路的第三回旋层产生与该经编码的讯框的该至少一个色度通道相关联的经重构的输出
值的单元;及用于产生输出讯框的单元,该输出讯框包括与该亮度通道相关联的经重构的输
出值和与该至少一个色度通道相关联的经重构的输出值
在一些态样中,该解码器子网路的该第一回旋层包括 1x1 回旋层。该 1x1 回旋层包括一或多
个 1x1 回旋滤波器。
在一些态样中,上述用于处理视讯资料的方法、装置和电脑可读取媒体亦包括:使用该解码
器子网路的第一非线性层来处理与该经编码的讯框的亮度通道相关联的值,其中与该亮度通
道相关联的该等经重构的输出值是基于该第一非线性层的输出来产生的;及使用该解码器子
网路的第二非线性层来处理与该经编码的讯框的该至少一个色度通道相关联的值,其中与该
至少一个色度通道相关联的该等经重构的输出值是基于该第二非线性层的输出来产生的。
在一些态样中,上述用于处理视讯资料的方法、装置和电脑可读取媒体亦包括:对该经编码
的讯框的取样进行去量化。
在一些态样中,上述用于处理视讯资料的方法、装置和电脑可读取媒体亦包括:对该经编码
的讯框的取样进行熵解码。
在一些态样中,上述用于处理视讯资料的方法、装置和电脑可读取媒体亦包括:将该输出讯
框储存在记忆体中。
在一些态样中,上述用于处理视讯资料的方法、装置和电脑可读取媒体亦包括:显示该输出
讯框。
在一些态样中,上述用于处理视讯资料的方法、装置和电脑可读取媒体亦包括:由该神经网
路系统的编码器子网路的第一回旋层产生与讯框的亮度通道相关联的输出值;由该编码器子
网路的第二回旋层产生与该讯框的至少一个色度通道相关联的输出值;由该编码器子网路的
第三回旋层基于与该讯框的该亮度通道相关联的输出值和与该讯框的该至少一个色度通道
相关联的输出值来产生该讯框的组合表示;及基于该讯框的该组合表示来产生该经编码的讯
框。
在一些态样中,该编码器子网路的该第三回旋层包括 1x1 回旋层。该 1x1 回旋层包括一或多
个 1x1 回旋滤波器。
在一些态样中,上述用于处理视讯资料的方法、装置和电脑可读取媒体亦包括:使用该编码
器子网路的第一非线性层来处理与该讯框的亮度通道相关联的输出值;及使用该编码器子网
路的第二非线性层来处理与该讯框的该至少一个色度通道相关联的输出值;其中该组合表示
是基于该第一非线性层的输出和该第二非线性层的输出来产生的。
在一些态样中,该讯框的该组合表示是由该编码器子网路的该第三回旋层使用该第一非线性
层的输出和该第二非线性层的输出作为输入来产生的。
在一些态样中,该经编码的讯框包括经编码的视讯讯框。
在一些态样中,该至少一个色度通道包括色度蓝色通道和色度红色通道。
在一些态样中,该经编码的讯框具有亮度-色度(YUV)格式。
在一些态样中,该装置可以是以下各项或可以是以下各项的一部分:行动设备(例如,行动
电话或所谓的「智慧型电话」、平板电脑或其他类型的行动设备)、网路连接的可穿戴设备、
扩展现实设备(例如,虚拟实境(VR)设备、增强现实(AR)设备或混合现实(MR)设备)、
个人电脑、膝上型电脑、伺服器电脑(例如,视讯伺服器或其他伺服器设备)、电视、车辆
(或车辆的计算设备或系统)、照相机(例如,数位照相机、网际网路协定(IP)照相机等)、
多照相机系统、机器人设备或系统、航空设备或系统、或其他设备。在一些态样中,该装置
亦包括用于撷取一或多个影像或视讯讯框(或图片)的至少一个照相机。例如,该装置可以
包括用于撷取包括视讯讯框的一或多个影像及/或一或多个视讯的一个照相机(例如,RGB
照相机)或多个照相机。在一些态样中,该装置包括用于显示一或多个影像、视讯、通知或
其他可显示资料的显示器。在一些态样中,该装置包括发射器,其被配置为在传输媒体上向
至少一个设备发送一或多个视讯讯框及/或语法资料。在一些态样中,上述装置可以包括一
或多个感测器。在一些态样中,处理器包括神经处理单元(NPU)、中央处理单元(CPU)、
图形处理单元(GPU)或其他处理设备或部件。
该发明内容既不意欲标识所要求保护的主题的关键或必要特征,亦不意欲单独用于决定所要
求保护的主题的范畴。经由参照本专利的整个说明书的适当部分、任何或所有附图以及每个
请求项,应当理解该主题。
在参考以下说明书、请求项和附图之后,前述内容以及其他特征和实施例将变得更加显而易
见。
下文提供了本案内容的某些态样和实施例。如对于本发明所属领域中具有通常知识者将显而
易见的,这些态样和实施例中的一些项可以独立地应用,并且其中的一些项可以相结合地应
用。在以下描述中,出于解释的目的,阐述了具体细节以便提供对本案的实施例的透彻理解。
然而,将显而易见的是,可以在没有这些具体细节的情况下实施各个实施例。附图和描述不
意欲是限制性的。
随后的描述仅提供了实例实施例,并且不意欲限制本案内容的范畴、适用性或配置。确切而
言,对实例实施例的随后描述将向本发明所属领域中具有通常知识者提供用于实现实例实施
例的可行描述。应当理解的是,在不背离如在所附的申请专利范围中阐述的本案的精神和范
畴的情况下,可以对元素的功能和布置进行各种改变。
数位视讯资料可以包括大量资料,尤其是随着对高品质视讯资料的需求持续增长。例如,视
讯资料的消费者通常期望越来越高品质的、具有高保真度、高解析度、高画面播放速率等的
视讯。然而,满足此类需求所需要的大量视讯资料可能为通讯网路以及处理和储存视讯资料
的设备带来了显著负担。
各种技术可以用于对视讯资料进行译码。可以根据特定的视讯译码标准来执行视讯译码。实
例视讯译码标准包括高效率视讯译码(HEVC)、改进的视讯译码(AVC)、运动影像专家组
(MPEG)译码、以及多功能视讯译码(VVC)等。视讯译码通常使用预测方法(诸如讯框
间预测或讯框内预测),预测方法利用在视讯影像或序列中存在的冗余。视讯解码技术的一
个共同目标是将视讯资料压缩为使用较低位元速率的形式,同时避免或最小化视讯品质的降
级。随着对视讯服务的需求增长以及新的视讯服务变得可用,需要具有更好的译码效率、效
能和速率控制的译码技术。
本文描述了用于使用一或多个机器学习(ML)系统来执行影像及/或视讯译码的系统、装置、
程序(亦被称为方法)和电脑可读取媒体(统称为「系统和技术」)。通常,ML 是人工智
慧(AI)的一子集。ML 系统可以包括演算法和统计模型,电脑系统可以使用这些演算法和
统计模型,以在无需使用显式指令的情况下经由依赖于模式和推理而执行各种任务。ML 系
统的一个实例是神经网路(亦被称为人工神经网路),其可以包括一组相互连接的人工神经
元(例如,神经元模型)。神经网路可以用于各种应用及/或设备,诸如影像及/或视讯译码、
影像分析及/或电脑视觉应用、网际网路协定(IP)照相机、物联网路(IoT)设备、自主车
辆、服务机器人等。
神经网路中的各个节点可以经由采用输入资料并且对资料执行简单运算来类比生物神经元。
对输入资料执行的简单运算的结果被选择性地传递给其他神经元。权重值与网路之每一者向
量和节点相关联,并且这些值约束输入资料如何与输出资料相关。例如,可以将每个节点的
输入资料乘以相应的权重值,并且可以对乘积求和。可以经由可选的偏置来调整乘积的总和,
并且可以将启动函数应用于结果,从而产生节点的输出讯号或「输出启动」(有时被称为启
动图或特征图)。权重值最初可以由经由网路的训练资料的反复运算流来决定(例如,在训
练阶段期间建立权重值,在训练阶段中,网路学习如何经由其典型的输入资料特性来辨识特
定类别)。
存在不同类型的神经网路,诸如回旋神经网路(CNN)、递回神经网路(RNN)、产生性对
抗网路(GAN)、多层感知器(MLP)神经网路等。例如,回旋神经网路(CNN)是一种类
型的前馈人工神经网路。回旋神经网路可以包括人工神经元的集合,每个人工神经元具有感
受野(例如,输入空间的空间局部化区域)并且共同平铺输入空间。RNN 的工作原理是保
存层的输出,并且将该输出回馈回输入,以帮助预测层的结果。GAN 是一种形式的产生性
神经网路,其可以学习输入资料中的模式,使得神经网路模型可以产生新的合成输出,这些
合成输出可能合理地来自原始资料集。GAN 可以包括一起操作的两个神经网路,包括产生
合成输出的产生性神经网路和评估输出真实性的判别性神经网路。在 MLP 神经网路中,可
以将资料馈送给输入层,并且一或多个隐藏层为资料提供抽象层次。随后,可以基于经抽象
的资料在输出层上进行预测。
在分层神经网路架构(当存在多个隐藏层时,其被称为深度神经网路)中,第一层人工神经
元的输出成为第二层人工神经元的输入,第二层人工神经元的输出成为第三层人工神经元的
输入,依此类推。例如,可以对 CNN 进行训练以辨识特征的层次结构。CNN 架构中的计算
可以分布在可以被配置在一或多个计算链中的一群处理节点上。这些多层架构可以一次训练
一个层,并且可以使用反向传播进行微调。
在一些态样中,本文描述的系统和技术包括被设计用于处理具有亮度-色度(YUV)输入格式
的输入资料的基于端到端 ML(例如,使用神经网路架构)的影像和视讯译码(E2E-NNVC)
系统。YUV 格式包括亮度通道(Y)和一对色度通道(U 和 V)。U 通道可以被称为色度(或
色度)-蓝色通道,并且 V 通道可以被称为色度(或色度)-红色通道。在一些情况下,亮度
(Y)通道或分量亦可以被称为亮度通道或分量。在一些情况下,色度(U 和 V)通道或分
量亦可以被称为色度通道或分量。YUV 输入格式可以包括 YUV 4:2:0、YUV 4:4:4、YUV 4:2:2
等。在一些情况下,本文描述的系统和技术可以被设计为处理其他输入格式,诸如具有 Y-
色度蓝色(Cb)-色度红色(Cr)(YCbCr)格式、红-绿-蓝(RGB)格式及/或其他格式的资
料。本文描述的 E2E-NNVC 系统可以对包括多个讯框的独立讯框(亦被称为影像或图片)及
/或视讯资料进行编码及/或解码。
在许多情况下,E2E-NNVC 系统被设计为负责学习用于熵译码(解码器子网路)的经量化的
隐变数(latent)的概率模型的自动编码器子网路(编码器子网路)和第二子网路(在一些
情况下,亦被称为超先验网路)的组合。在一些情况下,可能存在解码器的其他子网路。此
剩余27页未读,继续阅读
资源评论
qq_39940298
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功