语音技术，分类，国内外现状_语音合成技术距今已经有两百多年历史,早期的研究主要是采用参数合成方法。值得提资源-CSDN文库

语音识别

语音技术

需积分: 50 183 浏览量 2011-06-15 20:13:02 上传评论 1 收藏 265KB DOC 举报

资源推荐

资源详情

资源评论

语音技术

语音识别和语音技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的两项关键技术.使电

脑具有类似于人一样的说话和听懂人说话的能力,是 90 年代信息产业的重要竞争市场.和语言识别相比,语

言合成的技术相对说来要成熟一些,是该领域中近期最有希望产生突破并形成产业化的一项技术.

 语言合成或者让计算机说话包含着二个方面的可能性:一是机器能再生一个预先存入的语音信号,就象普

通的录音机一样,不同之处只是采用了数字存储技术.简单地将预先存入的单音或词组拼接起来也能作到"机

器开口", 但是"一字一蹦",机器味十足,人们很难接受.然而如果预先存入足够的语音单元,在合成时采用恰

当的技术手段挑选出所需的语音单元拼接起来,也有可能生成高自然度的语句,这就是波形拼接的语音合成

方法.为了节省存储容量,在存入机器之前还可以对语音信号先进行数据压缩.另一种可能是采用数字信号处

理的方法,将人类发声过程看作是一个模拟声门状态的源,去激励一个表征声道谐振特性的时变数字滤波器,

这个源可能是周期脉冲序列,它代表浊音情况下的声带振动,或者是随机噪声序列,代表不出声的清音. 调整

滤波器的参数等效于改变口腔及声道形状,达到控制发不同音的目的,而调整激励源脉冲序列的周期或强度,

将改变合成语音的音调、重音等. 因此,只要正确控制激励源和滤波器参数(一般每隔 10～30ms 送一组),

这个模型就能灵活地合成出各种语句来,因此又称作为参数合成的方法.根据时变滤波器的结构形式不同,又

有 LPC 合成和共振峰合成器等之分.

 按照人类言语功能的不同层次,语言合成也可分成三个层次,它们是:(1)从文字到语音的合成(Text-To-

Speech);(2)从概念到语音的合成(Concept-To-Speech);(3)从意向到语音的合成(Intention-To-

Speech).这三个层次反映了人类大脑中形成说话内容的不同过程,涉及人类大脑的高级神经活动.不难想象,

即使是按规则的文字到语音合成(文语合成)也已经是相当困难的任务.为了合成出高质量的语言,除了依赖

于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这将涉及自然

语言理解的问题.从这一点讲,文语转换系统实际上也可看作一个人工智能系统.图 1 显示了一个完整的文语

转换系统示意图.文语转换过程是先将文字序列转换成音韵序列,再由语音合成器生成语音波形.其中第一步

涉及语言学处理,例如分词、字音转换等,以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术,

能按要求实时合成出高质量的语音流.因此一般说来,文语合成系统都需要一套复杂的文字序列到音素序列

的转换程序,也就是说,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学知识的支持.

当然其中语音合成终究还是最基本的部分,它相当于"人工嘴巴",任何语言合成系统包括文语转换系统,都离

不开语音合成器.

语音技术的方式

 语音技术方式讲可分为波形编辑合成、参数分析合成以及规则合成等三种.

 波形编辑合成,这种合成方式以语句、短语、词或音节为合成单元,这些单元被分别录音后直接进行数字

编码,经适当的数据压缩,组成一个合成语音库.重放时,根据待输出的信息,在语料库中取出相应单元的波形

数据,串接或编辑在一起,经解码还原出语音.这种合成方式,也叫录音编辑合成,合成单元越大,合成的自然度

越好,系统结构简单,价格低廉,但合成语音的数码率较大,存储量也大,因而合成词汇量有限.

 参数分析合成,这种合成方式多以音节、半音节或音素为合成单元.首先,按照语音理论,对所有合成单元

的语音进行分析,提取有关语音参数,这些参数经编码后组成一个合成语音库;输出时,根据待合成的语音的

信息,从语音库中取出相应的合成参数,经编辑和连接,顺序送入语音合成器.在合成器中,通过合成参数的控

制,将语音波形重新还原出来.

 规则合成,这种合成方式通过语音学规则来产生目标语音.规则合成系统存储的是较小的语音单位(如音

素、双音素、半音节或音节)的声学参数,以及由音素组成音节、再由音节组成词或句子的各种规则.当输入

字母符号时,合成系统利用规则自动地将它们转换成连续的语音波形.由于语音中存在协同发音效应,单独存

在的元音和辅音与连续发音中的元音和辅音不同,所以,合成规则是在分析每一语音单元出现在不同环境中

的协同发音效应后,归纳其规律而制定的如共振峰频率规则、时长规则、声调和语调规则等.由于语句中的

轻重音,还要归纳出语音减缩规则.

国内外语音技术发展现状

 综观语言合成技术的研究已有二百多年的历史,但是真正有实用意义的近代语音合成技术是随着计算机

技术和数字信号处理技术的发展而发展起来的,主要是让计算机能够产生高清晰度、高自然度的连续语音.

近几十年来国际和国内的研究主要集中在按规则文语转换,即将书面语言转换成口头语言.在语音合成技术

的发展中,早期的研究主要是采用参数合成方法.值得提及的是 Holmes 的并联共振峰合成器(1973)和

Klatt 的串/并联共振峰合成器(1980),只要精心调整参数,这两个合成器都能合成出非常自然的语音.而最具

代表性的文语转换系统数美国 DEC 公司的 DECtalk(1987),该系统采用 Klatt 的串/并联共振峰合成器,可

以通过标准的接口和计算机连网或单独接到电话网上提供各种语音信息服务,它的发音清晰,并可产生七种

不同音色的声音,供用户选择.但是经过多年的研究与实践表明,由于准确提取共振峰参数比较困难,虽然利

用共振峰合成器可以得到许多逼真的合成语音,但是整体合成语音的音质难以达到文语转换系统的实用要

求.自八十年代末期至今,语言合成技术又有了新的进展,特别是基音同步叠加(PSOLA)方法的提出(1990),

使基于时域波形拼接方法合成的语音的音色和自然度大大提高.九十年代初,基于 PSOLA 技术的法语、德

语、英语、日语等语种的文语转换系统都已经研制成功.这些系统的自然度比以前基于 LPC 方法或共振峰

合成器的文语合成系统的自然度要高,并且基于 PSOLA 方法的合成器结构简单易于实时实现,有很大的商

用前景.最近几年,一种新的基于数据库的语音合成方法正引起人们的注意.在这个方法中,合成语句的语音

单元是从一个预先录下的庞大的语音数据库中挑选出来的, 不难想象只要语音数据库足够大,包括了各种可

能语境下的语音单元,理论上讲有可能拼接出任何语句.由于合成的语音基元都是来自自然的原始发音,合成

语句的清晰度和自然度都将会非常高.

 国内的汉语语音合成研究起步较晚些,但从八十年代初就基本上与国际上研究同步发展.大致也经历了共

振峰合成、LPC 合成至应用 PSOLA 技术的过程.在国家 863 计划,国家自然科学基金委,国家攻关计划,中

国科学院有关项目等支持下,汉语文语转换系统研究近年来取得了令人举目的进展,其中不乏成功的例子:如

中国科学院声学所的 KX-PSOLA(1993), 联想佳音(1995);清华大学的 TH_SPEECH(1993);中国科技大

学的 KDTALK(1995)等系统.这些系统基本上都是采用基于 PSOLA 方法的时域波形拼接技术,其合成汉语

普通话的可懂度、清晰度达到了很高的水平.然而同国外其它语种的文语转换系统一样,这些系统合成的句

子及篇章语音机器味较浓,其自然度还不能达到用户可广泛接受的程度,从而制约了这项技术的大规模进入

市场. -----1998 年中国科技大学在国家 863 计划和国家自然科学基金委支持下,研制成功 KD-863 汉语文

语转换系统.和采用国内外流行的 PSOLA 技术的系统相比,在输出语音的音质和自然度上有了突破性的提

高.KD-863 采用了一种全新的基于语音数据库的语音合成方法, 该技术的基本思想是将实际语流中汉语音

节千变万化的音变进行听感上的量化归并,设计出多样本的汉语语音基元库,这个库蕴涵了汉语韵律变化信

息,合成时只要通过对基元库样本的选取便可实现韵律控制.同时语音基元库中的样本是直接从自然语音中

截取,避免了采用信号处理技术获取音变单元对音质的损害,因而合成语音具有接近自然语音的音质.KD-

863 文语转换系统一经推出,就因其合成语音的高清晰度与高自然度引起了社会各方的重视.先后应用于为

深圳华为技术公司设计的"114 自动电话报号系统",和为国家工商总局设计的"工商企业语音(传真)查询系

统".使得汉语语音合成技术走出实验室,向市场应用迈出了重要的一步.KD-863 系统参加了在 1998 年 4

月国家科委组织的全国汉语语音合成系统的性能评测,其输出语音的自然度居同类系统之首,是唯一达到用

户可以接受程度的系统.KD-863 还在日本,新加坡,香港的有关研究所和大学进行过演示,均得到了有关方

面专家的认同.最近中国科技大学又推出了 KD-2000 汉语文语转换系统,不仅在语音合成技术方面有进一

步的发展,特别是在文本预处理中围绕层次化结构思想,运用大量的统计和规则的方法,较好地解决了三个大

的处理环节:特殊符号处理,分词处理和拼接处理,使得汉语文语转换系统的整体性能有很大提高.以 KD-

2000 文语转换为核心的"畅言 2000"智能汉语平台软件已开始进入市场.

语音技术的发展方向

 1. 提高合成语音的自然度

 提高合成语音的自然度仍然是高性能文语转换的当务之急.就汉语语音合成来说,目前在单字和词组一级

上,合成语音的可懂度和自然度已基本解决,但是到句子乃至篇章一级时其自然度问题就比较大. -----基于语

音数据库的语音合成方法有望进一步提高语音合成的自然度. 因为这是一种采用自然语音波形直接拼接的

方法,进行拼接的语音单元是从一个预先录下的自然语音数据库中挑选出来的,因此有可能最大限度地保留

语音的自然度.但由此产生了一系列新的需要研究的问题,包括:如何确定语音合成的基元,根据什么准则去

挑选合适的基元;韵律参数定量化问题,对数据库进行定标问题;以及如何将统计的方法和规则方法相结合使

机器能自动发现和找出所需的语音单元,保证最高的合成语句自然度等等. -----无论用哪种合成方法,韵律规

则的总结,特别是连续语音的韵律规则总结,尽可能将定性的规则描述定量化,对自然度始终有最重要的影响.

还有前端文本处理, 对合成语音的自然度也具有举足轻重的影响, 完整全面的解决, 需要自然语言理解的突

破.

 2 丰富合成语音的表现力

 目前国内外大多数语音合成研究是针对文语转换系统,且只能解决以某种朗读风格将书面语言转换成口

语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予个人的感情色彩.随着信息社会的需求

发展,对人机交互提出了更高的要求,人机口语对话系统的研究也提到了日程上.即语音合成研究已开始从文

字到语音的转换阶段向概念到语音的转换阶段发展.这不仅对语音合成技术提出了更高的要求,而且涉及到

计算机语言生成,涉及人类大脑的高级神经活动.但就语音合成来说,仍是一个要丰富合成语音的表现力问题.

相对来说采用波形拼接方法来增强合成语音表现力比较困难,尽管也可以通过增加音库容量和音库个数来

达到改变合成语音的特性,但毕竟它对韵律的控制能力非常有限.更为有效的办法是采用参数合成法,分析参

数特征,通过对相关参数的调整来实现对年龄、性别特征的改变,进一步实现语气、语调的变化,由于这种改

变是连续的,对象特征可以千千万万,显得更有生命力.近年来提出的基于 LMA(对数振幅近似)技术的语音合

成器,Hybrid Harmonic/Stochastic 模型 , Sinusoidal 模型等已被证实是一些新颖的能合成出高质量语

音的参数合成方法,为此应继续深入这方面的研究,以期在参数合成技术上取得突破.

 3 降低语音合成技术的复杂度

 语音合成技术正在走向市场.为了适应社会的需求,扩大文语合成的应用场合,除了解决好上面两个问题,

提高合成语音的质量和增强语音合成的表现力以外,在其他实用化方面也有要加以改进的地方.就目前汉语

文语转换系统而言,减小音库容量就是一个重要课题.目前高质量的汉语文语转换系统一般需要几兆字节到

几十兆,甚至几百兆字节的存储容量,这在以 PC 机或工作站为硬件平台的应用中是没有问题的,而对于象

HPC, PDA 及无线通信手机,商务通等资源有限的设备上就没法承受.解决的方法可以是通过语音压缩编码

的方法来压缩音库所需的容量,或者采用更小的合成基元,例如用声母、韵母或双音素、半音节, 以及减少

合成语音所需的音节基元数等等.然而又不能增加算法的复杂度,因为运算量及系统开销同样会直接影响汉

语语音合成的应用.既要提高语音合成的质量,又要降低语音合成的复杂度,这始终是一个矛盾的两个方面.

 4 多语种文语合成

 语言是人们交流的工具,不同民族有自己不同的语言,不同语言之间的交流在今天开放的信息社会和网络

时代显得十分重要,多语种的文语合成有着独特的应用价值.例如在自动电话翻译,有声的电子邮件等中都提

出多语种的合成,即使是对汉语合成也有多方言文语转换的需求.理想的多语种合成系统最好是各种语言共

用一种合成算法或语音合成器,但是现有的语音合成系统大多是针对某一种语言或若干种语言开发出来的,

所采用的算法及规则都是和某种语言密切相关的,因此很难推广到其他的语种.例如汉语就和西方语言有很

大的差异,国内的系统都是做汉语文语转换,它的一套韵律控制规则完全不适合于英语,而且主要是合成汉语

普通话,即使推广到广东话和上海话都有相当的难度.可见要真正解决多语种的文语合成,从文本处理到语音

合成都必须有新的思路.美国贝尔实验室在多语种文语转换方面作了大量的工作,其中包括汉语普通话合成,

值得注意.

VoWLAN 测试方法学探讨与无线网语音技术

剩余13页未读，继续阅读

评论收藏

内容反馈

ForeverJia

粉丝: 1
资源: 1

语音技术，分类，国内外现状

语音信号处理发展状况

语音识别及端到端技术现状及展望

语音识别技术的概况语音识别

基于深度学习的语音识别技术现状与展望.pdf

基于深度学习语音分离技术的研究现状与进展_刘文举

国内外水处理技术地现状发展趋势.doc

国内外太阳能技术现状与发展.doc

国内外水处理技术的现状发展趋势.doc

国内外柴油机技术现状与发展.doc

国内外煤炭液化的技术现状.pptx

智能语音技术基础.pdf

语音分类代码编写python

语音降噪技术的研究与实现

国内外水处理技术的现状 发展趋势.doc

国内外煤炭液化技术现状.ppt

国内外试油技术现状与发展趋势7.pptx

智能语音识别技术的发展现状与应用前景.pptx

语音识别专利技术发展现状与未来趋势

IMS技术及其现状

Bp神经网络的数据库分类与语音特征分类

语音意图分类

虚拟现实技术的国内外研究现状与发展

网络流量分类国内外研究现状.docx

网络流量分类国内外研究现状.pdf

国内外铸造技术发展现状.doc

国内外钻井新技术发展与现状.pdf

最新资源

国内外水处理技术的现状发展趋势.doc