针对常用基于音频特征的多说话人聚类初始化方法精度不高这一问题, 提出了一种基于视频信号的新方法。该方法通过运用每一时间帧视频信号的运动强度特征对聚类初始化阶段的初始话者类进行选择, 有效提升了说话人初始类纯度。最后将该方法应用到高斯混合模型GMM多说话人识别系统。实验结果表明, 在整个会议集上该方法相比其他方法有了很大改善, 较之线性初始化系统的错误识别率平均降低了19. 436%, 较之改进的线性初始化系统的错误识别率平均降低了16. 618%。
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~