没有合适的资源?快使用搜索试试~ 我知道了~
音频基本知识~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
资源推荐
资源详情
资源评论
音频基本知识
第一部分 模拟声音-数字声音原理
第二部分 音频压缩编码
第三部分 和弦铃声格式
第四部分 单声道、立体声和环绕声
第五部分 3D 环绕声技术
第六部分 数字音频格式和数字音频接口
第一部分 模拟声音-数字声音原理
一、模拟声音数字化原理
声音是通过空气传播的一种连续的波,叫声波。声音的强弱体现在声波压力的大小上,
音调的高低体现在声音的频率上。声音用电表示时,声音信号在时间和幅度上都是连续的模
拟信号。
图 1 模拟声音数字化的过程
声音进入计算机的第一步就是数字化,数字化实际上就是采样和量化。连续时间的离散
化通过采样来实现。
声音数字化需要回答两个问题:①每秒钟需要采集多少个声音样本,也就是采样频率(
f
s
)
是多少,②每个声音样本的位数(bit per sample,bps)应该是多少,也就是量化精度。
¾ 采样频率
采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决
定的。奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样才能把以数字
表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽
取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有 2 个点的采样,
人耳能够感觉到的最高频率为 20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行 40k
次采样,用 40kHz 表达,这个 40kHz 就是采样率。我们常见的 CD,采样率为 44.1kHz。电话
话音的信号频率约为 3.4 kHz,采样频率就选为 8 kHz。
¾ 量化精度
光有频率信息是不够的,我们还必须纪录声音的幅度。量化位数越高,能表示的幅度的
等级数越多。例如,每个声音样本用 3bit 表示,测得的声音样本值是在 0~8 的范围里。我
们常见的 CD 位 16bit 的采样精度,即音量等级有 2 的 16 次方个。样本位数的大小影响到声
音的质量,位数越多,声音的质量越高,而需要的存储空间也越多。
¾ 压缩编码
经过采样、量化得到的 PCM 数据就是数字音频信号了,可直接在计算机中传输和存储。
但是这些数据的体积太庞大了!为了便于存储和传输,就需要进一步压缩,就出现了各种压
缩算法,将 PCM 转换为 MP3,AAC,WMA 等格式。
常见的用于语音(Voice)的编码有:EVRC (Enhanced Variable Rate Coder) 增强型可
变速率编码,AMR、ADPCM、G.723.1、G.729 等。常见的用于音频(Audio)的编码有:MP3、
AAC、AAC+、WMA 等
二、问题
1、为什么要使用音频压缩技术?
我们可以拿一个未压缩的 CD 文件(PCM 音频流)和一个 MP3 文件作一下对比:
PCM 音频:一个采样率为 44.1KHz,采样大小为 16bit,双声道的 PCM 编码 CD 文件,它的数
据速率则为 44.1K×16×2 =1411.2 Kbps,这个参数也被称为数据带宽。将码率除以 8 bit,
就可以得到这个 CD 的数据速率,即 176.4KB/s。这表示存储一秒钟 PCM 编码的音频信号,
需要 176.4KB 的空间。
MP3 音频:将这个 WAV 文件压缩成普通的 MP3,44.1KHz,128Kbps 的码率,它的数据速率为
128Kbps/8=16KB/s。如下表所示:
比特率 存 1 秒音频数据所占空间
CD(线性 PCM) 1411.2 Kbps 176.4KB
MP3 128Kbps 16KB
AAC 96Kbps 12KB
mp3PRO 64Kbps 8KB
表 1 相同音质下各种音乐大小对比
2、频率与采样率的关系
采样率表示了每秒对原始信号采样的次数,我们常见到的音频文件采样率多为
44.1KHz,这意味着什么呢?假设我们有 2 段正弦波信号,分别为 20Hz 和 20KHz,长度均为
一秒钟,以对应我们能听到的最低频和最高频,分别对这两段信号进行 40KHz 的采样,我们
可以得到一个什么样的结果呢?结果是:20Hz 的信号每次振动被采样了 40K/20=2000 次,
而 20K 的信号每次振动只有 2 次采样。显然,在相同的采样率下,记录低频的信息远比高频
的详细。这也是为什么有些音响发烧友指责 CD 有数码声不够真实的原因,CD 的 44.1KHz 采
样也无法保证高频信号被较好记录。要较好的记录高频信号,看来需要更高的采样率,于是
有些朋友在捕捉 CD 音轨的时候使用 48KHz 的采样率,这是不可取的!这其实对音质没有任
何好处,对抓轨软件来说,保持和 CD 提供的 44.1KHz 一样的采样率才是最佳音质的保证之
一,而不是去提高它。较高的采样率只有相对模拟信号的时候才有用,如果被采样的信号是
数字的,请不要去尝试提高采样率。
3、流特征
随着网络的发展,人们对在线收听音乐提出了要求,因此也要求音频文件能够一边读一
边播放,而不需要把这个文件全部读出后然后回放,这样就可以做到不用下载就可以实现收
听了。也可以做到一边编码一边播放,正是这种特征,可以实现在线的直播,架设自己的数
字广播电台成为了现实。
第二部分 音频压缩编码
一.有损(lossy)/无损(lossless)/未压缩(uncompressed)音频格式
未压缩音频是一种没经过任何压缩的简单音频。未压缩音频通常用于影音文件的的 PCM
或 WAV 音轨。
无损压缩音频是对未压缩音频进行没有任何信息/质量损失的压缩机制。无损压缩音频
一般不使用于影音世界,但是存在的格式有无损 WMA 或 Matroska 里的 FLAC。
有损压缩音频尝试尽可能多得从原文件删除没有多大影响的数据,有目的地制成比原文
件小多的但音质却基本一样。有损压缩音频普遍流行于影音文件,包括 AC3, DTS, AAC,
MPEG-1/2/3, Vorbis, 和 Real Audio.
我们也来讨论下无损/有损压缩过程。只要你转换成一种有损压缩音频格式(例如 wav
转MP3),质量上有损失,那么它就是有损压缩。从有损压缩音频格式转换成另一有损压缩
音频格式(例如 Mp3 转 AAC)更槽糕,因为它不仅会引入原文件存在的损失,而且第 2 次编
码也会有损失。
二、语音(Voice)编码和音频(Audio)编码
语音编码主要是针对语音通信系统中的编码方案,应用在有线或无线通信中;音频编码
是针对音乐的编码方案,主要用来更方便地实现对音乐文件进行网络传输和存储。两者的差
别一方面是频带不同,另一方面是压缩要求不一样,音乐要求具有高保真度和立体感等要求。
音频编码最常见的是 MPEG 的音频编码。
语音的编码技术通常分为三类:波形编码、参量编码和混合编码。其中,波形编码和参
量编码是两种基本类型。
波形编码是将时间域信号直接变换为数字代码,力图使重建语音波形保持原语音信号的
波形形状。波形编码的基本原理是在时间轴上对模拟语音按一定的速率抽样,然后将幅度样
本分层量化,并用代码表示。解码是其反过程,将收到的数字序列经过解码和滤波恢复成模
拟信号。它具有适应能力强、语音质量好等优点,但所用的编码速率高,在对信号带宽要求
不太严格的通信中得到应用,而对频率资源相对紧张的移动通信来说,这种编码方式显然不
合适。
脉冲编码调制(PCM)和增量调制(△M),以及它们的各种改进型自适应增量调制(ADM),
自适应差分编码(ADPCM)等,都属于波形编码技术。它们分别在 64 以及 16Kbit/s 的速率
上,能给出高的编码质量,当速率进一步下降时,其性能会下降较快。
参量编码又称为声源编码,是将信源信号在频率域或其它正交变换域提取特征参量,并
将其变换成数字代码进行传输。具体说,参量编码是通过对语音信号特征参数的提取和编码,
力图使重建语音信号具有尽可能高的可靠性,即保持原语音的语意,但重建信号的波形同原
语音信号的波形可能会有相当大的差别。这种编码技术可实现低速率语音编码,比特率可压
缩到 2Kbit/s-4.8Kbit/s ,甚至更低,但语音质量只能达到中等,特别是自然度较低,连
熟人都不一定能听出讲话人是谁。线性预测编码(LPC )及其它各种改进型都属于参量编码。
混合编码将波形编码和参量编码组合起来,克服了原有波形编码和参量编码的弱点,结
合各自的长处,力图保持波形编码的高质量和参量编码的低速率,在 4-16Kbit/s 速率上能
够得到高质量的合成语音。多脉冲激励线性预测编码(MPLPC ),规划脉冲激励线性预测编
码(KPELPC),码本激励线性预测编码(CELP)等都是属于混合编码技术。很显然,混合编
码是适合于数字移动通信的语音编码技术。
三、无线通信中常见语音编码
PHS为32kbit/s的ADPCM编码,GSM为13kbit/s的规则脉冲激励长期预测(RPE-LTP)编码,
WCDMA使用的是自适应多速率编码(AMR),cdma2000使用的是可变速率编码(IS-773,IS-127)。
1、AMR 编码
(介绍它的原因是因为手机中有使用 AMR 铃声)。在 3G 多媒体通信的发展过程中,音视
频编码有了很大的发展。1999 年初,3GPP 采纳了由爱立信、诺基亚、西门子提出的自适应多
速率(AMR)标准作为第三代移动通信中语音编解码器的标准。AMR 声码器采用代数码本激励
线性预测(ACELP:Algebraic Code Excited Linear Prediction)编码方式。AMR 标准针对不
同的应用,分别提出了 AMR-NB,AMR-WB 和 AMR-WB+三种不同的协议。AMR-NB 应用于窄带,
而 AMR-WB 和 AMR-WB+则应用于宽带通信中。
对于手机铃声,AMR-NB 对应的铃声文件扩展名是.amr,AMR-WB 对应铃声文件扩展名
是.awb。它们不是音乐,而是录音得到的原声。
2、ADPCM 编码
自适应差分脉码调制(ADPCM)是在差分脉码调制(DPCM)的基础上发展起来的。DPCM 根据
信号的过去样值预测下一个样值,并将预测误差加以量化、编码,而后进行传输,由于预测
误差的幅度变化范围小于原信号的幅度变化范围,因此在相同量化噪声条件下,DPCM 的量
化比特数小于 PCM,从而达到语音压缩编码的目的。ADPCM 与 DPCM 比较,两者主要区别在于
ADPCM 中的量化器和预测器采用了自适应控制。同时,在译码器中多了一个同步编码调整,
其作用是为了在同步级连时不产生误差积累。
20 世纪 80 年代以来,32kb/s 的 ADPCM 技术已日趋成熟,并接近 PCM 的质量,但却节
省一半的信道容量,因而受到重视。1984 年 CCITT 提出 G721 建议,采用动态锁定量化器,
这是一种具有自适应速度控制 32kb/s 的自适应量化器,并将它作为国际标准化的语音编码
方法。1986 年又对 G721 建议进行了修正,称 G726 建议。
ADPCM 不适合作音乐的编码,常用于录音。雅马哈的 MMF 铃声用到 MIDI+PCM/ADPCM 技
术,其中 PCM 和 ADPCM 就是模拟音效,包括人声。
四、各种主流音频编码(或格式)的介绍
1、PCM 编码
PCM(Pulse Code Modulation),即脉冲编码调制,指模拟音频信号只经过采样、模数
转换直接形成的二进制序列,未经过任何编码和压缩处理。PCM 编码的最大的优点就是音质
好,最大的缺点就是体积大。在计算机应用中,能够达到最高保真水平的就是 PCM 编码,在
CD、DVD 以及我们常见的 WAV 文件中均有应用。
2、WAVE 格式(铃声)
这是一种古老的音频文件格式,由微软开发。WAV 对音频流的编码没有硬性规定,除了
剩余16页未读,继续阅读
资源评论
sven2214
- 粉丝: 1
- 资源: 8
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于OpenCV的视频道路车道检测python源码+文档说明+实验演示+图片+使用方法(高分毕业设计)
- 基于OpenCV的案例:图像边缘、角点和轮廓检测,图像分割,图像增强;图片拼接;运动目标检测,颜色直方图比较,三帧帧差法,抠图
- SmartPlug-html大一笔记
- SmartPlug-proteusdemo
- Preliminary Findings on Handmade Rattan Baby Crib andBassinet Designs Regarding.zip
- aveebfq_v1.2.83_downyi.com.apk
- 基于有机发光二极管(OLED)的建模优化算法的matlab仿真源码+数据+文档说明+项目说明(高分课程设计)
- hash01-test.c 本人哈希表(一)的示例代码,仅供参考!
- 处理数据.py
- 软件实施计划表.xls
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功