论文研究-基于耦合HMM的多传感异步信息融合分类策略.pdf

所需积分/C币:9 2019-07-22 21:33:54 953KB .PDF
收藏 收藏
举报

针对多传感异步信息融合分类问题,提出了一种新颖的基于耦合隐马尔可夫模型(CHMM)结构的中期 融合分类策略,该策略既考虑到了多传感信息在时间上的相关性,又解决了信息流之间的异步问题;其次,通过 限制信息流的状态数量和限制信息流之间的异步程度,简化了模型结构;此外,为解决CHMM的算法实现问题, 提出了一种CHMM与双流HMM的等效变换方法,从而利用经典的HMM算法解决了CHMM的模型实现。最后 在唇读语音双模态数据库上的实验证明,该异步信息融合策略实现了比早期同步融合更理想的识别结果,证明 了该
2838 计算机应用研究 数。目前主要是利用Baum-Welh迭代算法解决,尽管它远不 流的置信度,且有∑入,=1。 是最优的解决方案。本文提出的CIMM作为一种特殊结构的 HMM,在应用中同样要解决以上三个关键问题。下面讨论如3语音唇读融合分类实验 何借鉴IMM的算法实现CIMM的算法。 2.2CHMM结构等效变换 实验目的是:a检验基于CHMM的中期融合策略的识别效 仍以两通道语音、唇读异步信息融合分类为例,在图4所 果;b)与早期同步信息融合分类策略进行对比。由于至今仍无 示的CHMM结构中,系统状态是由两个并行的语音和视觉流 一个统一标淮的语音唇读双模态效据库,不文选用哈尔滨工业 的状态共同决定的。设两个数据流的状态个数分别为m和n, 大学制作的特定人唇读数据库 HI Bi-CAVDatabase库内包含 则在全异步的情况下共有m×n个可能的复合状态。若能用 个人,1000个常用汉字,每个字发音三遍,唇读图像在结构光 m×n个隐含状态的传统HMM来表示CHMM,则可直接借用 下拍摄,语音信号在安静环境下录制。实验任务是识别从数据 传统HMM算法解决CHMM的三个算法实现问题。此外,笔者库中随机挑选的以动词为主的16个孤立字:按、门、前、坐、吃、 注意到CHMM的复合状态输出概率是由两个通道数据的输出 找、睡、动、你、地、图、路、标、冲、浪、的。训练采用交叉训练的方 概率的乘积,类似地在图3所示的双流HMM中,其每个状态法,即每次只留一个数据用于识别,其余数据用于训练。实验平 的输出概率也是两个观察值概率的乘积。因此,本文采用双治台采用的是HTK通用语音处理工具箱",它不仅支持多流 HMM等效代替CHMM HMM而且支持灵活的参数捆绑。在融合识别实验中,CHMM模 如图7所示的双流IMM,是对图5(b)所示的CIMM结型的语音流的状态数m取5,视觉流的状态数n取3 构等效的示意图,等效状态转移路径是按照图(b)CIMM复合 首先分别进行语音、唇读信息流的特征提取,语音特征本 状态转移路径映射而来的。例如,图7中虚线圈内的状态s4文采用的是12维MFC参数以及12维差分MFCC参数,共24 是对CIMM结构中复合状态{A2,V2的等效。 维特征。脣读视觉语言特征提取如图8所示,显示了一个完整 语音数据流 的视觉语言特定位过程,从左至右分别是图像序列中原 始人脸、人脸肤色检测、嘴唇色度检测、形态学嘴唇图像处理 视觉语言区域定位五个环节。视觉特征提取本文采用了基丁 A2. V1 等效状态 像素的方法2),对定位后的嘴唇区城作离散余弦变换( discrete cosine transformation,DCT),然后根据LDA( linear discriminative △ 视觉数据流 analysis)法则,从DCT系数中提取出分类能力最好的54维特 图7CHMM与双流HMM等效变换示意图 征矢量。 可是,当用图7双流HMM等效图5的CHMM时,会出现 观察值数量差异这个问题。例如,在图5(a)中语音和视觉流 的状态数量分别为m=3,n=2,每个状态对应一个观察值,故 CHMM的观察值数量有m+n=5个。由于双流HMM每个状 态对应两个观察值,此时等效双流HMM两个数据流的观察值 图8唇读视觉语言特征提取过程示意图 总数量为2×(m×n-1)=10。结果把CHMM等效为双流 为了与异步融合效果进行比较,本文进行了语音唇读早 HMM后出现观察数据不足问题,造成这个差异的原因是由于期同步融合识别实验,比较结果如图9所示。首先对语音、唇 CHMM的观察值只对应每个信息流状态,而双流HMM的观察读特征进行同步预处理,在对语音数据进行特征提取时窗长选 值对应复合状态。 10ms,故语音帧的采样频率为100Hz。视频流的采样频率仅 为解决等效后的双流HMM观察数据不足的问题,本文对 为30fs,因此对视频数据特征流进行了内插处理,也产生 个频率为100Hz的特征矢量。当语音视觉两个数据流同步 所示,在水平方向唇读视觉模态变化时共享语音模态,在垂直后,将语首视觉两个数据流的同步特征矢量连按在一起,构成 方向语音模态变化时共享视觉模态。参数捆绑结果如图7所 示,在语音和唇读两个信息流屮,共享的观察值用相同图形符特征矢量训练传统HMM识别分类器。为了衡量不同信噪比 号标记,如状态S2、S4、S5共享视觉流的观察输出值,用三角符下的认别结果,本文在语音数据中人为叠加了白噪声,表1为 合标出。显然,等效后的双流HMM完全可以采用传统HM实验结果 的算法。至此,本文从理论上解决了CHMM模型的算法实现 表1不同信噪比下的识别率比较1000 8000 SNR1015202530 问题。只是该双流HMM的输出概率算法不同于传统HMM的 40.00 算法,笔者作了调整。 语音30.144.364.587.69.5 20.00 0.00 在接下来的实验中,对观察值建模本文采用的是连续 唇读68.568.568.568.568.5 30 HMM,它的输出概率一般用混合高斯模型表示。对两个传感早期融合42.156.774.491.09.6口早期融合■CHM融合 信息流而言,在时刻t每个信息流的观察值表示为O.,则在状 图9早期同步融合与 CIMM54.367.683.693.499.6 CHMM异步融合结果比较 态j下的观察值输出分布可用下式表示 实验结果显示,无论是基丁早期融合还是基于CHMM的 b(O1)=[ O (1)中期融合,识别率都明显高于单个信息流的语音、唇读识别率 其中:M,表示信息流s∈{a,n}中混合高斯元个数;0m是信此外从图9可以看出,在不同信噪比下,基于CHMM的异步信 息流s中第m个高斯元的权值;N(O.,馬、,Σ,)表示一个息融合策略识别率总体上明显高于早期同步融合策略,信噪比 均值为μ灬、方差为Σ,m的高斯元;流揞数λ,表示各个信息越低优势越显著。证明了基于CHMM的融合(下转第2873页) 第8期 孙志伟:种能发现自然聚美的聚类算法 2873 100;080,包含2000个数据对象。算法参数按照网格数量 与数据点数基本相同计算得到,则D1和D2的网格单元大4结束语 小分别为1.25和1.85,而噪声阈值分别为2和1.4;神经节点 本文结合基丁网格的聚类、神经网络方法和基丁划分的聚 个数均为50。 类算法提出了一种效率较高、能够体现数据分布的聚类方法。 图2为 DBSCAN算法的聚类结果。由于算法基于密度相算法按照网格划分数据空间,计算单元强度;接着先使用神经 连的定义,D1的上面三部分合并为一个聚类。如果邻域半径网络方法进行聚类,然后使用 Chameleon对SoM的神经节点 进一步减小,左下大椭园区域可能被分割成多个聚类。不同参进行聚类,并将聚类结果映射回数据空间。理论分析和实验表 数对该数据集聚类的影响见文献3]。而Ds2如果考虑低密明,该方法吸收了 Chamel算法能发现自然聚类的特点,同 度区域则上面的两个圆形区域由于中间存在一些稀疏点,也时弥补SOM网络收敛时间过长和 anneli算法复杂度较 将作为一个聚类出现;否则如果邻域半径较小或者邻域内数 高,而且由丁图分区算法不考虑噪声的缺点,同时算法在大规 数量较高,则石边的低密度区域将不能形成聚类。 模数据下执行效率高于 Chameleon算法。 ●●|司 参考文献 [1] haN Jia-wei, MICHELINE K M.数括挖掘技术和概念[M].北 京:机工业土版社,2001 DSI DS2 DSI DS2 [2 HINNEBURG A, KEIM D A. An efficient approach to clustering in 图1数据集 图2 DBSCAN聚类结果 large multimedia databases[ C]//Proe of International Conference on Chameleon的聚类结果为图3所示的聚类结果。算法基 Knowledge Discovery and Data Mining. New York:[ s nJ, 1998 本上能够分清各个聚类,但是基于分区的算法在处理噪声时效 [3 KARYPIS G, HAN E H, KUMAR V. Chameleon: a hierarchical 果不好,因此数据空间内的噪声按照邻近原则一股将加入到邻 cluslering algorithn us ing dynamic modeling[ J]. Computer, 1999 近的聚类中。 32(8):68-75 CluF\C算法的聚类结果为图4所示。从图中可能看出,|4 WANG Wei, YANG Jiong,MUzR,sing: a statistical informa 算法在考虑噪声的情况下能够发现数据空间的真实聚类结果。 tion grid approach to spatial data mining[ C//Proc of the 23 rd VLDB Conference. Athens: [ s.n.1, 1997: 186-195 [5 ANKERST M, BREUNIG MM, KRIEGEL H P, et aL. OPTICS: or dering points to identify the clustering struc ture[C 1//Proc of ACm SIGMOD99 International Conference on Management nf Data. Phila- delphia PA: I s.n., 1999: 49-60 DSI DSI 图3 Chameleon聚类结果 图4 CluNG聚类结果 [6]李德仁,王树良,李德毅.空间敬据挖掘与应用[M].北京:和 学出版社,205 以上实验表明,算法能屏蔽噪声,并且正确地依据数据的[7] WANG Xin, haMILToN J.DBRs: a density.- )ased spatial clustering 分布特性得到反映数据内部结构的聚类。算法聚类效果较好, method with random sampling[ C//Proc of the 7th PAKDD. Seoul 优于单独采用 Chameleon算法以及其他的聚类算法。 [s.n.],2003:563-575 (上接第2838页)策略引进了允许信息流异步融合机制后,克服 recognition[R. Baltimore, MD: Center L e ah nd Speech Pro- 了早期融合假设特征同步的缺陷,如实描述了异步信息流的本 cessing, Johns Hopkins University, 2000 5] PETAJAN E D. Aulomatic lipreading to enhance speech recognition 质特点,体现了在多传感信息异步条件下基于CIMM进行信 [D. Urbana: University of Illinois at Urhana-Champaign, 1984 息融合的优势。 [6 POTAMIANOS G, GRAF H P. Discriminative training of HMM stream exponents for audio-visual speech recognition [C//Proc of 4结束语 E Inlernational Conference on Acoustics, Speech, and Signal Pro- essing.1998:3733-3766 针对多传感异步信息融合分类问题,本文提出了一种新颛[7] GRAHRAMANI Z. Leaming dynamic Bayesian networks[C//GiLES 的基于耦合隐与尔可大模型结构的中期融合策略。该策略给 CL, GORI M. Lecture Notes in Artificial Intelligence. Berlin: Sprin- ger- Verlag,1998:168-197 多传感异步条件下的信息融合应用领域提供了一个新方法。 [8 DUPONT S, LUETTIN J. AuldiG-visnal speech modeling for continu 参考文献: ous speech recognition[ J. IEEE Trans on Multimedia, 2000, 2 [1 POTAMIANOS G, NETI C, GRAVIER G et ai. Recent advances in (3):141-151 automatic recognition of audio-visual speech[ J]. Proceedings of 9 POTAMIANOS G, GRAF HI P. Discriminative training of HMM ream exponents for audio-visulal speech recognition[C ]//Prmc of EEE,2003,91(9):1306-1326 IEEE International Conference on Acoustics, Speech, and Signal [2] ADJOUDANI A, BENOIT C. On the integration of auditory and visu- cessing.1998:3733-3736 al parameteIs in an HMM-based ASR_M. //STORK D G, HEN [ 10J HE Jun, ZHANG Hua. A real-time lip detection method in lipreading NECKE M E. Speechreading by humans and machines. New Y ork [C]//Proc of the 26th Chinese Control Conference. 2007: 516-5 Springer-Verlag, 1996: 461-471 [Il YOUNG S, KERSHAW D, ODELL J, et aL. HTKBOOK. [EB/ [3] TEISSIER P, ROBFRT-RIBES J, SCHWARTZ J L. Comparing mo- L.(1999).http://htk.eng.cumac.uk/. dels for audio-visual fusion in a noisy -vowel recognition task.J [ 12] NEFIAN A V, LIANG Lu-hong. PI Xiao-bo, et al. Dynamic Baye- IEEE Trans on Speech Audio Processing, 1999,7(6): 629-642 sian networks for audio-visual speech recognition [J]. EURASIP [4] NETI C, POTAMIANOS G, LUETTIN J, et al. Audio-visual speech Journal Applied Signal Process, 2002, 2002( 1): 1274-1288

...展开详情
试读 4P 论文研究-基于耦合HMM的多传感异步信息融合分类策略.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
抢沙发
一个资源只可评论一次,评论内容不能少于5个字
weixin_39840387 如果觉得有用,不妨留言支持一下
2019-07-22
  • 至尊王者

    成功上传501个资源即可获取
关注 私信 TA的资源
上传资源赚积分or赚钱
最新推荐
论文研究-基于耦合HMM的多传感异步信息融合分类策略.pdf 9积分/C币 立即下载
1/4
论文研究-基于耦合HMM的多传感异步信息融合分类策略.pdf第1页

试读结束, 可继续读1页

9积分/C币 立即下载 >