audio.rar_audiomatlab_audiorecognition_matlab语音_matlab音调识别

共11个文件

doc：6个

tmp：3个

m：1个

版权申诉

11 浏览量 2022-07-15 15:49:37 上传评论收藏 1.08MB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

audio.rar （11个子文件）

语音识别与合成（matlab源码）

908062__5matlab__

语音识别与合成入门5（内有matlab源码）

frame2acf.m 812B

语音识别与合成入门5（内有matlab源码）.doc 199KB

语音识别与合成入门2（内有matlab源码）

showVolZcr.mdl 22KB

~$识别与合成入门2（内有matlab源码）.doc 162B

~WRL0395.tmp 188KB

语音识别与合成入门2（内有matlab源码）.doc 117KB

~WRL0076.tmp 188KB

~WRL0006.tmp 120KB

语音识别与合成入门1（内有matlab源码）.doc 454KB

303552__3matlab__

语音识别与合成入门3（内有matlab源码）.doc 93KB

143736__4matlab__

语音识别与合成入门4（内有matlab源码）.doc 71KB

所謂「音訊」（Audio Signals），泛指人類可以聽到的聲音，這些聲音可已有

很多不同的分類方式，例如，若以發音的來源，可以大概分類如下：

� 生物音：人聲、狗聲、貓聲等。

� 非生物音：引擎聲、關門聲、打雷聲、樂器聲等。

若以訊號的規律性，又可以分類如下：

� 規律音：波形具有規律性，可以看出週期的重複性，人耳可以感

覺其穩定音高的存在，例如單音絃樂器、人聲清唱等。

� 不規律音：波形不具規律性，看不出明顯的週期，人耳無法感覺

出穩定音高的存在，例如打雷聲、拍手聲、敲鑼打鼓聲、人聲

中的氣音等。

本課程將以人聲與音樂聲的處理與辨識為探討重點。

一般人聲的特性如下：

1. 長期（一個句子）：變化劇烈且無規律性，例如下圖(a)

2. 短期（一個音框）：變化不大且有規律性，例如下圖(b)

聲音代表了空氣的密度隨時間的變化，基本上是一個連續的函數，但是若要將此

訊號儲存在電腦裡，就必須先將此訊號數位化。一般而言，當我們將聲音儲存到

電腦時，有下列幾個參數需要考慮：

� 取樣頻率（Sample Rate）：每秒鐘所取得的聲音資料點數，以

Hertz（簡寫 Hz）為單位。點數越高，聲音品質越好，但是資

料量越大，常用的取樣頻率如下：

1. 8 kHz （電話音質、一般玩具 IC 音質）

2. 11.025 KHz

3. 16 KHz（一般語音辨識所採用）

4. 44.1 KHz （CD 音質）

� 單點解析度（Bit Resolution）：每個聲音資料點所用的位元數，

常用的數值如下：

1. 8-bit：可表示的數值範圍為 0~255 或 -128~127

2. 16-bit：可表示的數值範圍為 -32768~32767

� 聲道：一般只分單聲道（Mono）或立體聲（Stereo）。

以我所錄的「清華大學資訊系」來說，這是單聲道的聲音，取樣頻率是 16000

（16 KHz），解析度是 8 Bits（1 Byte），總共包含了 64960 點（等於

64960/16000 = 4.06 秒），所以檔案大小就是大約 65 KB 左右。由此可以看

出聲音資料的龐大，例如：

� 如果我以相同的參數來進行錄音一分鐘，所得到的檔案大小大約

就是 60 秒 x 16 KHz x 1 Byte = 960 KB 或將近 1 MB。

� 以一般音樂 CD 來說，大部分是立體聲，取樣頻率是 44.1

KHz，解析度是 16 Bits，所以一首三分鐘的音樂，資料量的大

小就是 180 秒 x 44.1 KHz x 2 Byte x 2 = 31752 KB = 32 MB。

（由此可知，MP3 的壓縮率大概是 10 倍左右。）

當我們在分析聲音時，通常以「短時距分析」（Short-term Analysis）為主，因

為音訊在短時間內是相對穩定的。我們通常將聲音先切成音框（Frame），每個

音框長度大約在 20 ms 左右，再根據音框內的訊號來進行分析。在一個特定音

框內，我們可以觀察到的三個主要聲音特徵可說明如下：

� 音量（Volume）：代表聲音的大小，可由聲音訊號的震幅來類

比，又稱為能量（Energy）或強度（Intensity）等。

� 音高（Pitch）：代表聲音的高低，可由基本頻率（Fundamental

Frequency）來類比，這是基本週期（Fundamental Period）的

倒數。

� 音色（Timbre）：代表聲音的內容（例如英文的母音），可由

每一個波形在一個基本週期的變化來類比。

這些特徵可用圖形說明如下：

特別要注意的是，這些特徵都是代表「人耳的感覺」，並沒有一定的數學公式可

尋，所以當我們試著在「量化」這些特徵時，只是根據一些數據和經驗來量化，

來盡量逼近人耳的感覺，但並不代表這些「量化」後的數據或公式就可以完全代

表聲音的特徵。

音訊特徵抽取的基本方式如下：

1. 將音訊切成一個個音框，音框長度大約是 20 ms，點數大約是

256 或 512 等。音框若太大，就無法抓出音訊隨時間變化的特

性；反之，音框若太小，就無法抓出音訊的特性。一般而言，

音框必須能夠包含數個音訊的基本週期。（另，音框長度通常

是 2 的整數次方，便於進行「快速傅立葉轉換」。）

2. 若是希望相鄰音框之間的變化不是太大，可以允許音框之間有重

疊，重疊部分可以是音框長度的 1/2 到 2/3 不等。（重疊部分

越多，對應的計算量也就越大。）

3. 假設在一個音框內的音訊是穩定的，對此音框求取特徵，如過零

率、音量、音高、MFCC 參數、LPC 參數等。

4. 根據過零率、音量及音高等，進行端點偵測（Endpoint

Detection），並保留端點內的特徵資訊。

人聲的發音與接收流程，可以列出如下：

1. 聲門的快速打開與關閉

2. 聲道、口腔、鼻腔的共振

3. 空氣的波動

4. 接收者耳膜的振動

5. 內耳神經的接收

6. 大腦的辨識

可由下列圖形來說明：

人聲的發音機制

由於聲門（Glottis）的肌肉張力，加上由肺部壓迫出來的空氣，就會造成聲門的

快速打開與關閉，這個一疏一密的空氣壓力，就是人聲的源頭，在經由聲道、口

腔、鼻腔的共振，就會產生不同的聲音（音色）。換句話說：

� 聲門震動的快慢，決定聲音的基本頻率（即音高）。

� 口腔、鼻腔、舌頭的位置、嘴型等，決定聲音的內容（即音

色）。

� 肺部壓縮空氣的力量大小，決定音量大小。

下面這一張圖，顯示聲門附近的空氣流速，以及最後在嘴巴附近所量測到的聲波：

评论收藏

内容反馈

版权申诉

邓凌佳

粉丝: 65
资源: 1万+

audio.rar_audio matlab_audio recognition_matlab 语音_matlab 音调识别_语

最新资源

audio.rar_audio matlab_audio recognition_matlab 语音_matlab 音调识别_语

speaker_recognition.rar_语音合成_matlab_

小波包matlab代码-recognition-of-genres-by-voice:语音识别

matlab口罩识别代码-AudioIM_VisualCrowding:音调IM、语音IM与VisualCrowding相关

audio_processing.rar_AMDF_acf_端点检测_语音信号处理_语音信号处理 matlab

endpointdetection.rar_matlab 语音分离_matlab 语音识别_matlab语音分离_speech

filename.rar_365626.com_matlab_voice recognition

speech recognition.zip_matlab语音识别_语音识别_语音识别matlab

recognition_fruit_vegetables.rar_matlab图像识别_matlab图片识别_水果种类识别_蔬菜

speech-emotion-recognition.rar_speech recognition_情感识别_脑训练_语音情感识

matlab_LPC.rar_LPC 语音合成_LPC分析合成_audio input analysis_音频合成_音频输入 m

Image-recognition-and-location.rar_模式识别(视觉/语音等)_matlab_

Dtecteairport.rar_Dtecteairport_matlab道路识别_road recognition_道路识别

ship-recognition.rar_船_船 识别_船型 matlab_船识别_识别 船

指纹识别的matlab源码.rar_matlab指纹识别_matlab的指纹_recognition_指纹识别_指纹识别matl

extractedvein_2.rar_matlab vien_vien matlab_vien recognition

12456Classification_toolbox.rar_dslvq.m_matlab模式识别_toolbox recog

knn_recognition.rar_K._knn_knn识别_matlab knn

ANPR.rar_LPR matlab_anpr matlab_arabic matlab_english_matlab ANP

The-license-plate-recognition.rar_license plate_matlab车牌识别_plate

iris recognition .rar_iris recognition_matlab 虹膜_matlab 虹膜识别_小波变

Texture-recognition.rar_MATLAB纹理识别_matlab 纹理分割_texture recogniti

simpleOCR.rar_OCR_OCR by matlab_OCR recognition_ocr in matlab_oc

Optical-Character-Recognition-master.rar_MATLAB文字识别_matlab图片文字_r

Speech-Recognition.rar_Matlab 录音_matlab 录音_speech recognition_语

matlab.rar_face_face recognition_matlab 人脸_pca_人脸识别

最新资源

ship-recognition.rar_船_船识别_船型 matlab_船识别_识别船