汉语口音辨识是自动语音识别(ASR)系统中的一个重要分支,它致力于识别语音输入中的说话者口音类型。口音辨识的关键在于准确捕捉发音的音段特征和超音段特征,从而区分不同地区或社会群体的口音差异。传统的口音辨识方法往往会依赖于单一层级的特征提取技术,这在处理具有复杂语音变体的汉语时表现得不够有效。本文提出的两阶段汉语口音辨识方法,重点在于使用多层特征和性别相关模型,以期达到更精确的辨识结果。
本文研究中的关键点之一是多层特征的使用。多层特征结合了音段特征和超音段特征,其中音段特征关注单个音素或音节的具体语音内容,而超音段特征则关注音段之间的非语音内容,如语调、节奏和强度等。传统方法中常用的MFCC(Mel频率倒谱系数)参数主要捕捉的是音段特征,而基频曲线特征则是超音段特征的代表。基频曲线反映了说话者声音基频的变化,与情感、语气以及个人声带特性紧密相关,因此在口音辨识中占有重要位置。
在超音段特征方面,本研究使用三次多项式对基频曲线片段进行拟合。利用基频曲线来建模口音之间的差别是一个创新的尝试。基频曲线的变化能体现说话人的发音习惯,不同的口音在基频变化模式上有所不同,这种差异性可以为口音辨识提供额外的信息。
性别在语音特征提取中也是一个重要的变量。由于男性和女性的发音在生理结构上存在差异,导致了不同的声学表现。因此,性别相关模型的引入能够更好地描述特征,并对性别差异进行建模。在本研究中,通过训练性别相关的高斯混合模型(GMM),能够捕捉并表达与性别相关的声学特征。
支持向量机(SVM)在决策阶段的使用是本研究的另一个亮点。由于传统的高斯混合模型(GMM)方法难以处理多重特征的问题,本文提出使用SVM来进行最终决策。SVM是一种有效的分类器,特别擅长处理高维空间中的数据,且在小样本情况下仍能保持良好的性能。通过SVM,能够有效地整合多层特征,并作出准确的口音辨识决策。
在实际应用中,本研究的方法在863汉语口音数据集上进行了测试。与传统仅使用MFCC特征并且不考虑性别的方法相比,该方法的相对误差减少了约20%。这一结果证明了多层特征和性别相关模型相结合的方式,能够显著提高汉语口音辨识的准确率。
本文的研究提出了一个结合多层特征和性别相关模型的汉语口音辨识新方法,并通过实验证明了该方法的有效性。未来的研究可以进一步探索其他类型的特征,并在更大规模和更多样化的数据集上进行测试,以期达到更加广泛和精确的口音辨识效果。