你将收获

了解实时音视频技术原理

完成课程学习后可独立开发一个实时音视频互动应用场景

适用人群

Android开发者

课程介绍

实操教程,手把手教会你如何搭建视频通话、多人视频会议、在线课堂、直播连麦等实时音视频互动应用场景,并有声网资源音视频算法工程师带你了解RTC技术原理,带你入门。认证培训考试部分答案可参考声网Agora开发文档,详见docs.agora.io。认证考试通过后即可获得声网Agora初级认证证书。

课程目录

讨论留言

正在加载中...

同学笔记

  • h183288132 2020-10-27 17:06:19

    来源:音频实时通信系统:聊聊我们是如何用 RTC 让人声临其境的 查看详情

    采集--回声抵消--噪声抑制--增益控制--编码器==网络==弱网抗性算法--解码器--后处理--播放。

     

     

  • h183288132 2020-10-27 15:47:28

    来源:视频的编码与压缩:网络传输中为什么要压缩视频 查看详情

    视频编码

    YUV~RGB

     

    YUV的每一帧确定一个类型IPB:

    • I帧不会依赖其他帧信息
    • P和B帧的话都是会依赖其他帧信息来完成自身预测
    • P帧是前向参考,B帧是前后双向参考。
    • 视频流一般从I帧开始,后面轻微运动都是P/B,直到遇到场景切换就再插入一个I。
    • 强行指定P/B参考不允许越过I帧,这样的I帧称为IDR。
    • 每一个IDR间隔称为GOP。 

    帧内/帧间预测

    • YUV相邻像素值突变几率极小

    帧内预测

    • 垂直预测模式
    • 水平预测模式
    • 均值预测模式

    码流中传输帧内预测模式标志位、残差即可。

     

    帧间预测

    • 以当前块空域相邻的位置,在时域参考帧上的同为块,作为起始点进行规则搜索。
    • 直到搜索完找到能够节省码流最大的块作为帧间预测块,当前块到预测块的位移称为运动矢量。
    • 码流中传输运动矢量、帧间预测模式标志位、残差即可。

    宏块概念:16x16的块

    变换、量化、滤波、熵编码

     

    cavlc上下文自适应变长编码

    cabac上下文的自适应二进制算术编码

     

    总结

    输入的原始YUV进来,采用帧类型分析得到IDR、I、P、B类型。

    I帧采用帧内预测,P、B帧采用帧间预测+块划分得到残差,然后采用变换+量化进行进一步压缩。

    擦用滤波去除方块效应

    采用熵编码将像素值转换为二进制流进一步压缩,输出压缩后可传输的码流。

    最后和音频编码出来的码流一起封装成我们常见的mp4等格式。

     

     

     

     

  • h183288132 2020-10-27 17:23:18

    来源:视频通话背后用到了哪些技术 查看详情

    发送端:采集->预处理->编码->传输

    接收端:传输->解码->后处理->渲染

     

    分辨率、帧率、码率、流畅系数、均匀度、图像质量。

    缩放、旋转、裁剪、暗光增强、降噪、美颜。

     

    Codec/Decode:H264、H265、VP8、VP9。

    软编

    硬编

     

    Postprocess:超分、人像分割、表情识别。

     

    Network

    问题:不稳定、网络丢包、网络带宽差异、端到端的延迟,每时每刻都在发生变化。

    网络拥塞:发送带宽大于实际带宽导致。

    带宽估计(BWE)

    拥塞控制

    对抗丢包

    冗余(FEC)

    网络反馈(RTT,round trip time)

    码率控制

    智能编码

    感知编码

    通过控制输入图片的分辨率和帧率,保证不同码流下图像相对清晰。

     

     

     

     

没有更多了