【免费】音频基本知识详解原理等_音乐模数处理流程资源-CSDN文库

音频基本知识

需积分: 0 174 浏览量 2010-09-22 00:24:12 上传评论 2 收藏 369KB PDF 举报

资源推荐

资源详情

资源评论

音频基本知识

第一部分模拟声音-数字声音原理

第二部分音频压缩编码

第三部分和弦铃声格式

第四部分单声道、立体声和环绕声

第五部分 3D 环绕声技术

第六部分数字音频格式和数字音频接口

第一部分模拟声音-数字声音原理

一、模拟声音数字化原理

声音是通过空气传播的一种连续的波，叫声波。声音的强弱体现在声波压力的大小上，

音调的高低体现在声音的频率上。声音用电表示时，声音信号在时间和幅度上都是连续的模

拟信号。

图 1 模拟声音数字化的过程

声音进入计算机的第一步就是数字化，数字化实际上就是采样和量化。连续时间的离散

化通过采样来实现。

声音数字化需要回答两个问题：①每秒钟需要采集多少个声音样本，也就是采样频率(

)

是多少，②每个声音样本的位数(bit per sample，bps)应该是多少，也就是量化精度。

¾ 采样频率

采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决

定的。奈奎斯特理论指出，采样频率不应低于声音信号最高频率的两倍，这样才能把以数字

表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽

取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有 2 个点的采样，

人耳能够感觉到的最高频率为 20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行 40k

次采样，用 40kHz 表达，这个 40kHz 就是采样率。我们常见的 CD，采样率为 44.1kHz。电话

话音的信号频率约为 3.4 kHz，采样频率就选为 8 kHz。

¾ 量化精度

光有频率信息是不够的，我们还必须纪录声音的幅度。量化位数越高，能表示的幅度的

等级数越多。例如，每个声音样本用 3bit 表示，测得的声音样本值是在 0～8 的范围里。我

们常见的 CD 位 16bit 的采样精度，即音量等级有 2 的 16 次方个。样本位数的大小影响到声

音的质量，位数越多，声音的质量越高，而需要的存储空间也越多。

¾ 压缩编码

经过采样、量化得到的 PCM 数据就是数字音频信号了，可直接在计算机中传输和存储。

但是这些数据的体积太庞大了！为了便于存储和传输，就需要进一步压缩，就出现了各种压

缩算法，将 PCM 转换为 MP3,AAC,WMA 等格式。

常见的用于语音(Voice)的编码有：EVRC (Enhanced Variable Rate Coder) 增强型可

变速率编码，AMR、ADPCM、G.723.1、G.729 等。常见的用于音频(Audio)的编码有：MP3、

AAC、AAC+、WMA 等

二、问题

1、为什么要使用音频压缩技术？

我们可以拿一个未压缩的 CD 文件(PCM 音频流)和一个 MP3 文件作一下对比：

PCM 音频：一个采样率为 44.1KHz，采样大小为 16bit，双声道的 PCM 编码 CD 文件，它的数

据速率则为 44.1K×16×2 =1411.2 Kbps，这个参数也被称为数据带宽。将码率除以 8 bit,

就可以得到这个 CD 的数据速率，即 176.4KB/s。这表示存储一秒钟 PCM 编码的音频信号，

需要 176.4KB 的空间。

MP3 音频：将这个 WAV 文件压缩成普通的 MP3，44.1KHz，128Kbps 的码率，它的数据速率为

128Kbps/8=16KB/s。如下表所示：

比特率存 1 秒音频数据所占空间

CD(线性 PCM) 1411.2 Kbps 176.4KB

MP3 128Kbps 16KB

AAC 96Kbps 12KB

mp3PRO 64Kbps 8KB

表 1 相同音质下各种音乐大小对比

2、频率与采样率的关系

采样率表示了每秒对原始信号采样的次数，我们常见到的音频文件采样率多为

44.1KHz，这意味着什么呢？假设我们有 2 段正弦波信号，分别为 20Hz 和 20KHz，长度均为

一秒钟，以对应我们能听到的最低频和最高频，分别对这两段信号进行 40KHz 的采样，我们

可以得到一个什么样的结果呢？结果是：20Hz 的信号每次振动被采样了 40K/20=2000 次，

而 20K 的信号每次振动只有 2 次采样。显然，在相同的采样率下，记录低频的信息远比高频

的详细。这也是为什么有些音响发烧友指责 CD 有数码声不够真实的原因，CD 的 44.1KHz 采

样也无法保证高频信号被较好记录。要较好的记录高频信号，看来需要更高的采样率，于是

有些朋友在捕捉 CD 音轨的时候使用 48KHz 的采样率，这是不可取的！这其实对音质没有任

何好处，对抓轨软件来说，保持和 CD 提供的 44.1KHz 一样的采样率才是最佳音质的保证之

一，而不是去提高它。较高的采样率只有相对模拟信号的时候才有用，如果被采样的信号是

数字的，请不要去尝试提高采样率。

3、流特征

随着网络的发展，人们对在线收听音乐提出了要求，因此也要求音频文件能够一边读一

边播放，而不需要把这个文件全部读出后然后回放，这样就可以做到不用下载就可以实现收

听了。也可以做到一边编码一边播放，正是这种特征，可以实现在线的直播，架设自己的数

字广播电台成为了现实。

第二部分音频压缩编码

一．有损(lossy)/无损(lossless)/未压缩(uncompressed)音频格式

未压缩音频是一种没经过任何压缩的简单音频。未压缩音频通常用于影音文件的的 PCM

或 WAV 音轨。

无损压缩音频是对未压缩音频进行没有任何信息/质量损失的压缩机制。无损压缩音频

一般不使用于影音世界，但是存在的格式有无损 WMA 或 Matroska 里的 FLAC。

有损压缩音频尝试尽可能多得从原文件删除没有多大影响的数据，有目的地制成比原文

件小多的但音质却基本一样。有损压缩音频普遍流行于影音文件，包括 AC3, DTS, AAC,

MPEG-1/2/3, Vorbis, 和 Real Audio.

我们也来讨论下无损/有损压缩过程。只要你转换成一种有损压缩音频格式（例如 wav

转MP3），质量上有损失，那么它就是有损压缩。从有损压缩音频格式转换成另一有损压缩

音频格式（例如 Mp3 转 AAC）更槽糕，因为它不仅会引入原文件存在的损失，而且第 2 次编

码也会有损失。

二、语音(Voice)编码和音频(Audio)编码

语音编码主要是针对语音通信系统中的编码方案，应用在有线或无线通信中；音频编码

是针对音乐的编码方案，主要用来更方便地实现对音乐文件进行网络传输和存储。两者的差

别一方面是频带不同，另一方面是压缩要求不一样，音乐要求具有高保真度和立体感等要求。

音频编码最常见的是 MPEG 的音频编码。

语音的编码技术通常分为三类：波形编码、参量编码和混合编码。其中，波形编码和参

量编码是两种基本类型。

波形编码是将时间域信号直接变换为数字代码，力图使重建语音波形保持原语音信号的

波形形状。波形编码的基本原理是在时间轴上对模拟语音按一定的速率抽样，然后将幅度样

本分层量化，并用代码表示。解码是其反过程，将收到的数字序列经过解码和滤波恢复成模

拟信号。它具有适应能力强、语音质量好等优点，但所用的编码速率高，在对信号带宽要求

不太严格的通信中得到应用，而对频率资源相对紧张的移动通信来说，这种编码方式显然不

合适。

脉冲编码调制（PCM）和增量调制（△M），以及它们的各种改进型自适应增量调制（ADM），

自适应差分编码（ADPCM）等，都属于波形编码技术。它们分别在 64 以及 16Kbit/s 的速率

上，能给出高的编码质量，当速率进一步下降时，其性能会下降较快。

参量编码又称为声源编码，是将信源信号在频率域或其它正交变换域提取特征参量，并

将其变换成数字代码进行传输。具体说，参量编码是通过对语音信号特征参数的提取和编码，

力图使重建语音信号具有尽可能高的可靠性，即保持原语音的语意，但重建信号的波形同原

语音信号的波形可能会有相当大的差别。这种编码技术可实现低速率语音编码，比特率可压

缩到 2Kbit/s-4.8Kbit/s ，甚至更低，但语音质量只能达到中等，特别是自然度较低，连

熟人都不一定能听出讲话人是谁。线性预测编码（LPC ）及其它各种改进型都属于参量编码。

混合编码将波形编码和参量编码组合起来，克服了原有波形编码和参量编码的弱点，结

合各自的长处，力图保持波形编码的高质量和参量编码的低速率，在 4-16Kbit/s 速率上能

够得到高质量的合成语音。多脉冲激励线性预测编码（MPLPC ），规划脉冲激励线性预测编

码（KPELPC），码本激励线性预测编码（CELP）等都是属于混合编码技术。很显然，混合编

码是适合于数字移动通信的语音编码技术。

三、无线通信中常见语音编码

PHS为32kbit/s的ADPCM编码，GSM为13kbit/s的规则脉冲激励长期预测(RPE-LTP)编码，

WCDMA使用的是自适应多速率编码(AMR)，cdma2000使用的是可变速率编码(IS-773，IS-127)。

1、AMR 编码

（介绍它的原因是因为手机中有使用 AMR 铃声）。在 3G 多媒体通信的发展过程中，音视

频编码有了很大的发展。1999 年初,3GPP 采纳了由爱立信、诺基亚、西门子提出的自适应多

速率(AMR)标准作为第三代移动通信中语音编解码器的标准。AMR 声码器采用代数码本激励

线性预测(ACELP:Algebraic Code Excited Linear Prediction)编码方式。AMR 标准针对不

同的应用，分别提出了 AMR－NB，AMR-WB 和 AMR-WB+三种不同的协议。AMR-NB 应用于窄带，

而 AMR-WB 和 AMR-WB+则应用于宽带通信中。

对于手机铃声，AMR－NB 对应的铃声文件扩展名是.amr，AMR-WB 对应铃声文件扩展名

是.awb。它们不是音乐，而是录音得到的原声。

2、ADPCM 编码

自适应差分脉码调制(ADPCM)是在差分脉码调制(DPCM)的基础上发展起来的。DPCM 根据

信号的过去样值预测下一个样值，并将预测误差加以量化、编码，而后进行传输，由于预测

误差的幅度变化范围小于原信号的幅度变化范围，因此在相同量化噪声条件下，DPCM 的量

化比特数小于 PCM，从而达到语音压缩编码的目的。ADPCM 与 DPCM 比较，两者主要区别在于

ADPCM 中的量化器和预测器采用了自适应控制。同时，在译码器中多了一个同步编码调整，

其作用是为了在同步级连时不产生误差积累。

20 世纪 80 年代以来，32kb／s 的 ADPCM 技术已日趋成熟，并接近 PCM 的质量，但却节

省一半的信道容量，因而受到重视。1984 年 CCITT 提出 G721 建议,采用动态锁定量化器，

这是一种具有自适应速度控制 32kb／s 的自适应量化器，并将它作为国际标准化的语音编码

方法。1986 年又对 G721 建议进行了修正，称 G726 建议。

ADPCM 不适合作音乐的编码，常用于录音。雅马哈的 MMF 铃声用到 MIDI+PCM/ADPCM 技

术，其中 PCM 和 ADPCM 就是模拟音效，包括人声。

四、各种主流音频编码（或格式）的介绍

1、PCM 编码

PCM（Pulse Code Modulation）,即脉冲编码调制，指模拟音频信号只经过采样、模数

转换直接形成的二进制序列，未经过任何编码和压缩处理。PCM 编码的最大的优点就是音质

好，最大的缺点就是体积大。在计算机应用中，能够达到最高保真水平的就是 PCM 编码，在

CD、DVD 以及我们常见的 WAV 文件中均有应用。

2、WAVE 格式（铃声）

这是一种古老的音频文件格式，由微软开发。WAV 对音频流的编码没有硬性规定，除了

剩余16页未读，继续阅读

评论收藏

内容反馈

sven2214

粉丝: 1
资源: 8

音频基本知识详解原理等

音频基础知识介绍

音频基础知识.pdf

视音频基础知识大全

音视频一些基础知识讲解

音频PA的原理和特性

Android的音频系统

音视频基础知识大全新

Android底层开发技术实战详解 第1共2部分

android系统原理及开发要点详解

android系统原理及开发要点详解_韩超_梁泉 4

android系统原理及开发要点详解_韩超_梁泉 1

Android底层开发技术实战详解

Android底层开发技术实战详解（第2共2部分）

Android开发应用实战详解源代码

Android底层开发技术实战详解-内核、移植和驱动(第2版，Kindle电子书)

.Net.Framework3.5开发技术详解

安防天下智能网络视频监控技术详解与实践part2

安防天下智能网络视频监控技术详解与实践.part3

Android底层开发技术实战与详解

Android驱动开发与移植实战详解

Android底层开发技术实战详解--内核、移植和驱动.(电子工业.王振丽).part3

.Net.Framework3.5开发技术详解[中文][PDF][VOL1]

Android底层开发技术实战详解--内核、移植和驱动.(电子工业.王振丽).part1

.Net.Framework3.5开发技术详解[中文][共二卷][PDF][VOL2]

安防天下智能网络视频监控技术详解与实践part1

python大作业 含爬虫、数据可视化、地图、报告、及源码（整和为一个文件）（2014-2020全国各地区原油加工量）.rar

仿真电路以及操作方法

【纯干货啊】华为IPD流程管理(完整版).pptx

可编程语言标准IEC61131-3中文版.pdf

最新资源

Android底层开发技术实战详解第1共2部分

python大作业含爬虫、数据可视化、地图、报告、及源码（整和为一个文件）（2014-2020全国各地区原油加工量）.rar