论文研究-基于改进Citation-KNN算法的性别识别研究.pdf

所需积分/C币:6 2019-09-11 06:48:39 650KB .PDF

为了简化系统模型训练方法,提高性别识别系统的整体效率,提出了一种基于改进Citation-KNN算法的说话人性别识别方法。该方法将连续语音切分,训练每段语音的高斯混合模型(Gaussian Mixture Model,GMM)作为多示例包,其所有混合元为相应包中示例;采用改进的Hausdorff距离作为包与包之间的距离测度,通过Citation-KNN算法进行性别识别。该方法以多示例包间距离为分类依据,简化了系统训练,且识别率优于一些传统算法。
208 015,51(15) Computer Engineering and Applications计算机工程与应用 程度地减少伪示例对判断包标记的影响。实验中,系统练集包的个数);然后对每段语首进行预加重、分帧加 用平均 Hausdorff距离度量包间距离,取得了较好的识窗、去除静音段等预处理,再提取特征;每段语音提取好 别效果。 特征后训练一个GMM作为该段语音的多示例包,其所 用改进的 Citation-KNN算法进行说话人性别识别有混合元为包中示例。将GMM应用于多示例打包处 的主要步骤如下: 理,一方面因为高斯密度函数的叠加能够对任意形状的 (1)训练语音和测试语音分别进行预加重、加窗分分布进行近似,另一方面人们对高斯混合分布的研究也 帧等预处理,提取特征生成语音多示例包,训练集包含较成熟。 正、负包各N个。 假设用一其有M个混合成分的d维GMM来近似 (2)计算各个包之间的平均 Hausdorf距离。简单一段语音的特征矢量分布。该GMM可用M个高斯子 示意图如图1所示。 分布的加权和表示 X)=∑o;p(X,2 其中,X是一个d维特征矢量;∞;为混合权值,且 待测包 负 可 包 包 包包….包 p(XH2E)为第i个d维高斯函数 P(XH1,2)= exp{-(x-n)E,(x,-H)}(8) 图1各包间计算平均 Hausdor距离示意图 将求得的距离存储生成距离矩阵如下 μ1为均值矢量,E为协方差矩阵。整个GMM由参数 λ={,μ,∑},}=1,2,…,M来描述。川FM算法通过迭 代更新参数集λ={o,H1,∑},使得新模型的后验概率大 P1→>i P1→P P1→ 于初始模型的后验概率: d →)r P-→P p-→F P(X1)≥P(X1) d d d d 算法迭代至参数集不再显著变化为止,就可得到最 F→P 佳GMM参数集 其中d,∈1,N]表示待测包与各个正包的平均 Hausdorff h距离;dn,j=[,M表示待测包与各个负包 此时该模型的最佳估计参数,1=1,2,…,M即为 的距离 该段语音多示例包中的示例,M为包中示例个数。 (3)将距离矩阵每行按从小到大排序,确定R、C参数 值,找出待测包的R个近邻包和C个索引包,按 Citation-4实验与分析 KN算法的分类决策准则对待测包的类别进行判断。4.1性别语音库 由于一个包与白身的平均 Hausdorf距离最小(值为0), 实验采用国际标准OGI( Oregon Graduate Institute) 所以在实验中应搜索R+1个近邻包和C+1个索引包。电话语音数据库。该语音库包含种语言,每种语言 均包含男、女声。发音内容包括数宇、星期等常用词汇 3语音多示例问题的建立 和一些关于自身情况的简述,可认为语音与文本无关。 Itation-KN算法处理多示例学习问题,训练集和文验只选择普通话,采样频率为8kHz,16bt量化。训 测试集均为由示例组成的包,则包的生成至关重要。本练语音时长男、女各约1920,发音人数比为42:38;男 文中语音多示例包生成框图如图2所 女测试集各含50段发音,每段时长5s。 4.2实验与分析 基于改进 Citation-KNN算法的说话人性别识别系 斯叫语音包 统框图如图3所示 取 首先对训练语音和测试语音分别进行前端处理,提 型 取基频和短时能量特征;然后,按前面所述方法对语音打 包,生成语音多示例包。标记训练集中女包为正包,男包 图2语音多示例包生成框图 为负包,用 Citation-KNN算法对待测包类别进行判定。 首先将训练语音在时域按需要均分为N段(N即训 实验共分4组,前3组分别讨论改进的 Citation-KNN 朱俊梅,顾明亮,张世形,等:基于改进 Citation-kNN算法的性别识别研究 2015,51(15)209 须包内所有示例都为负,条件更为苛刻;而在实验时,训 包 练集屮女性特征包标记为正。 训练语首前端处理判 (3)固定训练集包的个数,改变包内示例数分别进 只别结果 行识别。不同示例数时的识别结果见图6。 女包个待测包 100 包 口男性 待测包 图3基于改进 Citation-KNN算法的性别识别系统框图 70 算法中R、C参数值的选择,训练集包个数以及包内示 例数不同对系统识别效果的影响;最后比较该方法与其 他传统分类方法的识别效果,验证其有效性 包内示例个数 (1)R=1~6,对应不同的R值,遍历C=1~9。不同 图6不同小例数的系统识别率 R取值对应的男女最高平均识别率值见图4。 从图6可看出,包数固定,当包内示例数增加时,系 统识别率呈反比例而下降,包内示例较少时系统识别率 较高。当示例数增加,正包屮可能会出现更多的“伪正 示例”,而负包的判定也更为难,从而增加分类的难度。 93 (4)将改进的 Citation-KNN算法和传统分类方法 GMM,VQ应用于说话人性别识别(识别结果见表2) 表2中 Citation-KNN-min表示采用最小 Hausdorf距离 为距离测度的 Citation-KNN算法识别结果; Citation R的值 KNN-avc表示将平均 Hausdor距离作为距离测度的 图4不同R值对应的男女最高平均识别率 Citation-KNN算法(即改进的 Citation-KNN算法)识别 实验中发现C的值不是越大识别率就越高。由多结果。可见利用改进的 Citation-KNN算法进行性别识 次实验得出:识别率和R的取值不为正比例关系,在P别的效果略优于传统算法。 取4以前呈现正增长,但随后识别率下降;当C=R+2或 表2三种分类器的识别率 C=R+3时,系统识别率相对最高。R={3,4}时,系统 男性女性平均 识别率最高,为了减少计算量,节省测试时间,般取较 GMM 90.095.0092.50 小值:R=3。 90.591.5091.00 Citation-KNN-min 58.0 64.00 61.00 (2)训练集每个包内示例数不变,改变包的个数进 Citation-KNN-ave 96.25 94.38 行性别识别。不同特征包的个数下系统识别率见图5。 100 口男性 结论 90 ■女性 本文将多示例学习应用于说话人性别识别系统,提 出了基于GMM的音多示例包生成方法;对 Citation 70H KNN算法的距离测度改进,进行模式分类。实验结果 表明改进的 Citation-KNN算法应用于说话人识别是可 60 行的,系统平均识别率与传统算法比较略有提高,达到 150 200 )4.38%。本实验仅提取基频和短时能量特征用于多示 包的个数 例包生成,可尝试融合更多声学、韵律特征作为原始特 图5不同特征包数下的系统识别率 征;其次,语音多示例包的生成方式对于多示例学习问 由图5可知,在特征包内示例数不变的情况下,系题至关重要,值得进一步探索。 统识别率随训练集中包数量的増加而下降,这主要因为 训练集语首总时长是固定的。当包的数量较少时,每个参考文献 包对应的原始语音段时长相对较长,涵盖了更多的有效[1 Childers D G,WuK, Bae K s, et al. Automatic recogn 信息。其次,女性识别率总体要略高于男性。这主要由 tion of gender by voice[c EEE International Conference 于正包内只需有一个正示例即可认为是正包,而负包必 on Acoustics, Speech and Signal Processing, New York 210 015,51(15) Computer Engineering and4 pplications计算机工程与应用 USA,1988:603-606 [9 Andrews S, Hofmann T, Tsochantaridis I Multiple instance [2 Parris E S, Carey M J Language independent gender iden learning with generalized support vector machines[C]// fication[C]/IEEE International Conference on Acoustics Proceedings of the i &th national conference on artificial Specch and Signal Processing, Atlanta, USA, 1996: 685-688 Intelligence, Edmonton, Canada, 2002: 943-944 [3 Walavalkar L Support vector learning for gender classifi- [10] Gartner T, Flach P A, Kowalczyk A, et al. Multi-instance cation using audio and visual cues J. International journal kernels c,proceedings of the 19th International Con of Pattern Recognition and Artificial Intelligence, 2003 ference on Machine Learning, Sydney, Australia, 2002: 17(3):417-439 [4] Silovsky J, Nouza JSpeech, speaker, and speakers gender [11] Wang J, Zucker J D Solving the multiple-instance prob identification in automatically processed broadcast strcam[J] lcm: a lazy learning approach[ C]//Proceedings of the 17th Radioengineering, 2008, 15(3): 42-48 International Conference on Machine Learning, Stanford [5 Keyvanrad M A, Homayounpour MM Improvement on USA,2000:1119-1125 automatic speaker gender identification using classifier[12]章成志,刘耀,王惠临.基于 Citation-KNN的语义隐含主题 fusion[c//18th Conference on Electrical Engineerin 词自动抽取方法[C]/ Proceedings of oth Chinese lexical (ICEE). Isfahan, Iran. 2010: 538-541 Semantics Workshop, 2008: 371-379 [6] Dietterich T G, Lathrop r h, Lozano- Perez T. Solving[13]李大湘,彭进业,贺静芳.基于EMD-CkN多示例学习算 the multiple-instance problem with axis-parallel rectan- 法的图像分类[光电子激光,2010,21(2):303-306 gles[].Artificial Intelligence, 1997, 89(1/2): 31-71 「14]黄剑华,丁建睿,刘家锋,等基于局部加权的 Citation-KNN [7] Zhang Q, Goldman S AEM-DD: an improved multiple 算法[J电子与信息学报,2013,35(3):627-632 instance learning technique[C]/Advances in Neural Inform [15]王志红,柴玉梅 Citation-KNN算法改进及其应用微计 tion Processing Systems, Cambridge, USA, 2002: 1073-1080 算机信息,2009,25(1-3):261-263 [8Ruffo G Learning single and multiple instance dccision [16 Zhang M L,, Zhou Z H Multi-instance clustcring with trees for computer security applications D]. Department of applications to multi-instance prediction [J] Applied Intel Computer Science, University of Turin, Torino, Italy, 2000 ligence,2009,31(1):47-68. (上接160页) split Bregman techniques[J]Journal of Visual Commu Iucy B An iterative technique for the rectification of nication and Image Representation, 2010, 21(3): 193-199 observed distributions[J].The Astronomical Journal, 1974, 79. [7 Yuan L, Sun J, Quan L, et al. Image deblurring with blurred/ 3 Dey N, Blanc-Feraud L, Zimmer C, et al. Richardson-Lucy noisy image pairs.ACM Transactions on Graphics, 2007 algorithm with total variation regularization for 3D con 26(3) focal microscope deconvolution[J]. Microsc Res Tech, 2006 [8]赵博,张文生,丁欢基于 Richardson-Lucy的图像去模糊新 69:260-266 算法计算机工程与应用,2011,47(34):1-4. [ Lefkimmiatis S, Bourquard A, Unser MHessian-based reg- ularization for3 microscopy image restoration[]IEEE[9]杨泳波,姜柏军利用 Gabor小波系数融合进行图像增强的 Biomedical Image, 2012: 1731-1734 研究[小激光与红外,2010,40(10):1121-1124 [5] Chaux c, blanc- Feraud L, Zerubia J. Wavelet-based resto、[10]曾竞,徐邦荃,林家瑞,等.基于小波分解的多尺度医学图 ration methods: application to 3D confocal microscopy 像融合技术[生物医学工程研究,2003,22(3) image[C]optical Enginccring-Applications [S1.: Interna- [11] Wang Z, Bovik A C, Sheikh H R, et al.Image quality tional Society for Optics and Photonics, 2007 assessment: from error visibility to structural similarity[J] 16 Setzer s, Steidl G, leuber T Deblurring Poissonian image FF Transactions on Image Proccssing, 2004, 13: 600-612

...展开详情
img
  • 至尊王者

    成功上传501个资源即可获取

关注 私信 TA的资源

上传资源赚积分,得勋章
    最新推荐