论文研究-现代维吾尔语人名汉字音译转写关键技术研究.pdf

所需积分/C币:26 2019-09-08 05:47:25 686KB .PDF
收藏 收藏
举报

改革开放后,新疆与国内以及国际交往越来越频繁。新疆少数民族人名汉字音译转写缺少统一标准,维吾尔人名汉字音译转写时,在户口上是一种写法,在身份证上另一种写法,在护照上更不一样的用字写法,机票、汇款单等又是一种写法。为解决这些问题,前人作了研究并取得了一定成果以及使用维吾尔人名汉语音译撰写系统来规范维吾尔人名汉语音译。但是这些成果正确率只有52%。利用规则和维吾尔人名特征相结合的方法,提高系统自动维吾尔人名汉语音译正确率30%。介绍该领域研究进展,通论维吾尔音节切分与维吾尔人名特征相结合方法。陈述基于字形的DOM音译框架解决的问题,介绍基于音节切分的维吾尔人名汉字音译转写的实现方法,给出了实验结果
阿力木·木拉提,艾孜尔古丽,玉素甫·艾白都拉:现代维吾尔语人名汉字音译转写关键技术研究 2014,50(9 2l1 示为C=c1,c2 这里的c表示汉语人名 F"= arg max∑P(a,B,y) 中的一个汉字(j=1,2,…,n;为汉语人名C中汉字的 个数);ⅵ表示为维吾尔语人名U中的一个音节(i=1, 在此,利用最大值来代替求和过程以减少计算的复 2,…,m;m是维吾尔语人名U中的音节个数)。维吾尔 性,于是公式(2)又变换为: 语人名U及其对应的汉语人名音译C切分成一系列的子 Barga max(arg, max P(a,B, 7)) (3) 串:U=u1,u2,…,ti,…,w和C=c1,c2 ck。合并/和y的 armax过程: 字串为音译单元,每个维吾尔语音译单元(维吾尔语人 B=argB. max P(a,B, 7) 名的一个音节)与其相应的汉语音译单元C(汉字),公式(4)即为最终的U2C的过程。 从而构成了一个音译对。 音译单元( Transliteration unit):是指每个被切分出4基于音节切分的维吾尔人名汉字音译转写的 来的子串。其中,汉语人名音译单元c代表一个汉字,实现 维吾尔语人名音译单元代表维吾尔语的一个音节 维汉人名音译采用了基于音节切分的人名音译,是 吝译对( transliteration pair):是由一个维吾尔语人在基于字形音译的框架下进行音译。以一个维吾尔文 名音译单元m和一个汉族人名音译单元c对应形成的,人名词为输入,对应的汉语音译词为输出。首先要对维 用<n,c>i表示。因此,对于给定的一个维吾尔语人名吾尔人名进行当译单元划分,因为维吾尔语人名的音节 音译单元v及其对应的汉语人名音译单元c,音译对数决定了它的音译单元个数。音译单元划分以切分音 <l,c>i反应了维吾尔语人名音译单元到汉语人名音译节的方式*实现,且一个维吾尔语音译单元是相当于维 单元和汉语音译单元到英语音译单元两种方向的匹配吾尔语人名中的一个音节。然后利用维汉对音表找出 关系。 每一个音节的汉字音译;如果某个音节对应的汉字音译 表示维吾尔语人名U和汉语人名C之间的对齐,可不在维汉对音表内,则利用子音节划分规则将各个音节 如下表示: 划分成多个子音节。由于维汉对音表不可能具备所有 <t,C>1=<tl,c1> 维吾尔文人名中的音节对应的汉字音译,所以部分音节 <l,c>2=<l2,c2> 需要再划分成子音节;并依次实现每一个音节的汉字音 译。详细过程见图2所示。 <u, ck=suk. ck> 吝译对<t.c>i表示mi和ci之问的双向匹配。 维吾尔语人名 个音译单元对汉语人名来说是一个汉字,对于维吾尔语 划分音译单元 来说是一个音节。 代表维吾尔语人 例如,维吾尔语人名“←”和与之对应的汉语音 名的一个音节 译“阿斯娅”:维吾尔语人名有3个音节,汉语音译有3 当前音节 个汉字,即有3个汉语、维吾尔语音译单元。假设维吾 Y 的汉语吝译在维汉 尔语人名的音节切分方式为:增,则该维吾尔语 对 音表 人名到汉语人名的3个音译对为<,阿>,<,斯>和 划分音译单元 <,娅>。 所以从例子中可以看出,对应的音译单元和音译对 子音节 是由切分方式决定的。因为维吾尔语人名切分方式是(霾吾尔语人召 维吾尔语人名 由维吾尔语音节划分规则规定的,只要确定了维吾尔语 音节对音表 音节对音表 音译单元,汉语音译单元的个数是确定不变的。 32音译算法 汉语人名 维吾尔语到汉语的人名音译(U2C)是指对于一个 图2基于音节切分的维汉人名音译流程图 给定的维吾尔语人名a产生一个相对应的概率最大的 经研究发现,维吾尔语字母(组合)到汉字有一定的 汉语人名音译B′,用公式(1)表示如下 映射关系。在维吾尔语发音中,根据不同人的不同习 max P(a,B) (1 惯,同样的发音可以有多种多样的拼写方式。因此映射 由于a和B之间有许多对齐方式y,需要全面考虑表中每个维吾尔语音译单元对应着它最匹配的汉字。如 这些对齐方式,因此公式(1)又变换为: 图3所示。 212 014,50(9) Computer Engineering and Applications计算机工程与应用 辅音字母 表1构成维吾尔人名的词缀与规则 元音字母对应汉宇卜甫提 合吾依 词缀 性别位置 巴帕塔 阿瓦亚(娅 0 戈拜派太(苔) 攴外亚(娅 鸟 鸟 普普 托图铁图特提 吾哥玉 吾|元 00110 乌 1,0 海维叶 依比皮 依维依 (a)维吾尔语字母到汉字的映射 要原因是由于维吾尔语字母在汉语有不同的发音,而造 成一个维吾尔人名对应多个汉字音译。最后,本文按照 补充规则再次改进系统,用同样的数据进行二次测试, li 4)y 并统计结果 班潘 南汉王阳 测试结果表明,如表2所示,基于音节切分的维吾尔 人名汉字音译系统在补充规则后,准确率提高了30% 班凡坦坚 农罕万(菀)岩 结果表明,最初使用的规则是不够全面的,并且在维汉 人名音译中,维吾尔语字母对应的汉字是区分性别的, 补充了人名词缀库以后,通过二次测试,音译效果得到 拜波大亭(婷)全诺大文辛 了较大的提升 (b)维吾尔语音节到汉字的映射 图3维吾尔语人名汉字对音关系 表2实验结果 普通音译补充规则 实验结果与分析 数量 5000 5000 准确音译数量263 4330 51测试数据 准确率/%) 86.50 在本文研究中,所用的测试语料是新疆师范大学网 络安全与舆情分析实验室提供的18000条维吾尔人名 总之,音译的准确率很大程度上是被人名词缀库的 中随札抽取的5000条维吾尔人名进行测试。 数量来决定,所以通过更多地收集构成人名的词缀,准 52实验结果 确率将有一定的提高。 本文首先按照最初的基于音节切分的维吾尔人名 汉字音译算法,即不使用人们常用的人名语料厍及音译6总结和展望 本文利用音节划分和构建词缀库的方法研究和探 规则识別,实现了维吾尔人名汉字自动音译系统。在此 基础上对以上5000条维吾尔人名进行第一次的自动翻 索了维吾尔人名汉字自动音译的关键技术和方法。为 译,并统计了翻译的准确率。 了进一步提高维汉人名音译系统的质量分别进行二次 由于汉语中存在多音字,在维汉人名音译时,有此测试。最终,实验结果表明了本文提出的音译方法是有 效和可行的。在此方法基础上,还可以进行哈萨克和柯 维吾尔语字母对汉字映射并不是一对一。例如:“”和 尔克孜人名的音译研究 “阿”是·对一的,“”在男性人名中和“力”对应,在女 尽管本文使用的两种方法均取得了不错的效果,但 性人名中和“丽”对应。因此在第次测试结果中,仅有更进一步地提高系统准确率是本研究必要的工作。随 超过半的人名翻译是正确,其余的人名翻译是有歧义着新的维吾尔人名的不断增长,系统对人名词级库的规 的现象,这是造成准确率不高的主要原因。 模扩大的需求也有所增加,这也将会影响系统整体的音 本文在根据前面提出的维吾尔语字母到汉字的映译性能。下一步可以尝试更有效的方法进行音译。 射关系,以及人名音译原则:即同一名字同一写法、尽量 其中部分人名不遵循补充规则,就是说男女通川 选用常用、尽量少用多音字、区分性别、约定俗成的基础无法匹配人名词缀库,因此,下一步可以尝试将收集有 上,找出106个构成维吾尔人名的词缀及标注它们在人歧义的维吾尔人名和上述的方法结合起来,用更有效的 名相应的位置和性别,从而构建一个基于词缀的规则方法进行音译。 库,如表1所示。 测试结果表明,如表1所示,翻译结果中仅有52%参考文献 的准确率,通过与正确汉译进行对比,准确率较低的主1疆维音尔自治区民族语言文字工作委员会推广使用少数 阿力木·木拉提,艾孜尔古丽,玉素甫·艾白都拉:现代维吾尔语人名汉字音译转写关键技术研究 2014,50(9 民族人名汉宇音译转写规则实施方案EBOL(2007-11-13 for machine transliteration c/?Proceedings of 20th Inter- http://www.xiyw.gov.cn/web/article.aspxArticleld-57 national Conference on Computational 1. inguistics, 2004 2]多力坤,热外都拉关于维吾尔人名的规范化问题[语言 716-722 与翻译,2000(1):74-75 [10] Jeong K S, Myaeng S H, Lee J S, et al. Automatic iden 3]陈毓贵规范少数民族人名汉字音译转写促进语言文字规 tification and back-transliteration of foreign words for 氾化定设[J语言与翻译,2003(2):3-6 information retrieval[J].Information Processing and Man [4]艾山·吾买尔,叶尔根·依布拉音英文维文人名机器翻译 agement,1999,35(1):523-540 算法的研究与实现印新疆大学学报:自然科学版,200 [l Goto I, Kato N, Uratani N, et al. Transliteration consider- 24(1):97-100 ing context information bascd on the maximum entropy [5]衣马木支山·阿布都力克木,吐尔地·托合提,艾斯卡尔·艾 method[C]/Proceedings of MT-Summit IX 2003: 125-132. 木都拉,基于规则的维吾尔人名汉文机器翻译算法研究[J [12]阿卜杜外力·佐尔冬,尼加提马木提,麦麦提,阿希木,等 计算机应用与软件,2010,27(8):86-87 [6]赛麦提·麦麦提敏,亚森·伊明基于转换规则的汉文维文 维吾尔人名汉文写法手册[M]乌鲁木齐:新骚电子出版 专有名词自动翻译饼究[C]中国计算技术与语言问题研 社.2000:1-172 究——第七届中文信息处理国际会议论文集,2007:102-106.[13]吐尔根·伊布拉音,阿不力米提·阿布都热依木维汉机器 「7]哈米提·铁木尔现代维语语法[M北京:民族出版社,1987 翻译词典的结构设计与实现[门新疆大学学报,2005,22 3):258-262 8]阿比达吾买尔维吾尔文音节切分方法的研究与实现]141艾尼瓦尔,麦麦提,吐尔根供布拉音维吾尔文字母频率 民族语言文字信息技术研究—第十一届全国民族语言 统计与应用[C计算机语言学研讨会论文集 文字信息学术研讨会论文集,2007:56-6 [15勺]杜绍源新疆维吾尔族人名初探[]中央民族大学学报 J. Direct orthographical mapping 上接199页) 邮电大学,20 程度上的影响,例如词“ kainan”(维语拉丁形式),维语的3]鲍长春,樊昌信基于归一化互相关函数的基音检测算法[ 意思是大白然,宇宙,其中重读音节就在第一个a 通信学报,1998,19(10):27-31 由于重音前移,可能导致词的插入错误的次数增多,进 H]邢玉娟,李明,张亚芬基于PCA和核 Fisher判别的说话人 而降低重音检测的识别精确率。 确认[门计算机工程与设计,2008,29(15). [5 Kandpal N, Rao M Implementation of PcA&ICa for voice recognition and separation of speech[C]/IEEE Conf on 6结论 Advanced Management Science, 2010: 536-538 本文参照维吾尔语词重音位置的一般规则,提取出[61KmHC,kimD, Bang Sung- Yang.A PCA mixture model 较能反应重音特征的声学特征参数,通过多流和单流的 with an efficient model selection method cp/lnternational 对比实验,得出使用单流的识别精确率要优于多流,最 Joint conference on Neural networks, 2001: 430-435 后,通过PCA方法对特征融合后高维特征的降维处理 [7 Zhang Wanfeng, Yang Yingchun, Wu Zhaohui. Experimental 使得计算量和复杂度都有很大的简化,并在低高斯混合 evaluation of a new speaker identification framework using 数的情况下,重音识别精确率有∫一定的提高。 PCAIC/Proceedings of the IEEE International Confer ence on Systems, Man and Cybernetics, 2003: 4147-4152 [8]赖珉,陈一宁,初敏,等训练数据有限的英文语音重音标 参考文献 注研究[计算机工程与应用,2007,43(33):48-50. [江海燕,刘岩,卢莉维吾尔语重音实验研究[J民族语文,[9]赖珉英文语音重音检測研究[D].合肥:中国科学技术大学 2010(3):67-71 2006 I2]工洪海基于声学特征的自动语言辨识研究[D,北京:北京10]帕尔哈提,季兰维吾尔语的重音[语言与翻译.1985(1)

...展开详情
试读 5P 论文研究-现代维吾尔语人名汉字音译转写关键技术研究.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    weixin_38743968 你的留言是对我莫大的支持
    2019-09-08
    img
    • 至尊王者

      成功上传501个资源即可获取

    关注 私信 TA的资源

    上传资源赚积分,得勋章
    最新推荐
    论文研究-现代维吾尔语人名汉字音译转写关键技术研究.pdf 26积分/C币 立即下载
    1/5
    论文研究-现代维吾尔语人名汉字音译转写关键技术研究.pdf第1页
    论文研究-现代维吾尔语人名汉字音译转写关键技术研究.pdf第2页

    试读已结束,剩余3页未读...

    26积分/C币 立即下载 >