汉语普通话与沈阳方言转换的研究
*
贾珈
1
,蔡莲红
1
,李明
1
,张帅
2
(1. 清华大学计算机科学与技术系,北京 100084;2. 北京信息科技大学计算机学院, 北京 100101)
文 摘:中国地域辽阔,汉语包括多种方言。方言转换技术可实现方言间语音的转换,丰富语音交流的方式,增强语
音交流的可懂性、友好性和趣味性。该文分析了普通话与沈阳方言在声调调类与调值、时长和特殊词等方面的差异;
探讨了普通话与沈阳方言转换的可行性;提出了基于混合聚类算法的方言基频转换模型、基于统计的方言时长转换模
型和基于加权有限状态机的特殊词识别算法;通过基本转换和说话人音色还原构建了方言转换系统,实现了实时普通
话语音输入,沈阳方言语音输出。评测结果显示通过方言转换系统得到的方言语音与目标方言语音具有较高相似度。
关键词:方言转换;基频聚类;时长统计;语音识别;音色还原
中图分类号:
TP391
收稿日期:2009 年 3 月 13 日
*
国家自然科学基金(60805008, 90820304)资助项目;国家 863 高技术项目(2007AA01Z198)资助项目。
作者简介:贾珈(1981-),女(汉),北京,助理研究员。
通讯联系人:蔡莲红,教授,E-mail: clh-dcs@tsinghua.edu.cn
中国地域辽阔,汉语包括多种方言 [1-3]。方
言转换技术可实现方言间语音的转换,丰富语音交
流的方式,增强语音交流的可懂性、友好性和趣味
性。基于基音同步叠加(PSOLA)算法(具体为
TD-PSOLA,LP-PSOLA 和 FD-PSOLA 算法)和声音
分析变换合成算法(STRAIGHT) [4-6],可以实现语
音时域、频域声学特征的控制修改,为方言转换提
供了技术基础。本文分析了普通话与沈阳方言在声
调的调类与调值、时长和特殊词等方面的差异;探
讨了普通话与沈阳方言转换的可行性;提出了基于
混合聚类算法的方言基频转换模型、基于统计的方
言时长转换模型和基于加权有限状态机的特殊词
识别算法;通过基本转换和说话人音色还原,构建
了普通话到沈阳方言的转换系统,实现了实时普通
话语音输入,沈阳方言语音输出。评测结果显示通
过本文提出的方言转换系统得到的方言语音与目
标方言语音具有较好相似性。
1 普通话与沈阳方言差异分析
为了实现普通话与沈阳方言的转换,本文首
先研究普通话与沈阳方言的调类调值、时长和特
殊词等方面的差异。
1.1 分析语料
本文设计的分析语料包括单音节字、双音节
词语和短句。
单音节语料包括 3 部分:1)用于进行方言语
音声调的调类和调值的分析。采用中国社会科学
院语言研究所编制、商务印书馆出版的《方言调
查字表》正表之前的第一页声调代表字,共 241
个字,为了涵盖声韵母类型,涵盖方言中的特殊
音节,进一步补充 159 个音节。2)沈阳方言与北
京话古音清入声字的调类和调值对应关系研究。
由于沈阳方言中古音清入声字的读音存在特殊变
化,因此录制古音清入声字语料共 358 个单音节。
录制时将音节嵌入负载句中朗读,负载句为:“*”
说“ *”这 个“*”(*为音节),以消除句中位置对
发音的影响。
双音节语料用于进行方言声调换转的建模,
共录制 488 个双音节词语,包含特殊变调和变音。
短句语料用于进行方言时长分析。本文从
1998 年 1 月《人民日报》版语料中共选取 23 句
短句,每句长度为 10 至 25 音节。
录制者为在沈阳出生并在沈阳生活 18 年的
男性朗读者一名和女性朗读者一名。并录制了同
文本的普通话语料。每名朗读者朗读 2 遍语料。
1.2 普通话与沈阳方言差异分析
1.2.1 声调的调类与调值的差异
方言语音声调的调类和调值分析,采用《方
言调查字表》 [7]正表之前第一页的声调代表字
审辨调类调值。本文录制了声调代表字的音共
241 个。提取录音的基频曲线,通过聚类审辨方
言的调类、调值。普通话与沈阳方言的调类调值
差异以五度标音法表示如表 1 [8-9]。统计结果显
示普通话和沈阳方言单字的调类和调值存在与表
1 基本一致的对应关系,但同一声调的普通话单
音节字对应的沈阳方言单音节字的基频调形和调
值略有不同。因此在声调分类的基础上,进一步
定量研究两种方言基频间的映射关系,建立的普
通话与沈阳方言单字调形和调值的映射模型,可
以实现两种方言间基频的转换。沈阳方言的连读