论文研究-现代维吾尔文音节自动切分方法及其实现 .pdf

所需积分/C币:15 2019-08-16 16:11:35 284KB .PDF
收藏 收藏
举报

现代维吾尔文音节自动切分方法及其实现,瓦依提.阿不力孜,加米拉.吾守尔,各类维吾尔文本信息处理技术需要准确、快速、高效的音节自动切分的支持。目前通过辅助音节库的方法解决基于非规范音节结构的外来
取国科论又在线 http://www.paper.edu.cn 是一个音节 If#vcc% then vcc是一个音节 t If#vccv%then两个之间的第一个c划分为前一个音节 第二个c划分为后一个音节vc是一个音节,cv是一个音节 If ccvc%then两个v之间的第一个c划分为前一个音节, Al-din 第二个c划分为后一个音节,ve是一个音节,cve是一个音节 VC-CVC If cccv%then两个v之间的第一,第二个c划分为前一个音 10 第二个c划分为后一个音节,vec是一个音节,cv是一个音节 If#cv%thεn算为一个音芍 If +cvcv%then两个v之间的c划分为后一个音节,cv是一个音节 Da-da 是一个音节 If# cvcvc%then两个v之间的c划分为后一个音节,cv是一个音节, CV-Cvc Da-dam cv是一个音节 %then算为一个音节 15 算为一个首节 If爿 then两个ⅴ之间的第一c划分为前一个音节 16 第二个c划分为后一个音节,cvc是一个音节,cv是一个音节 then两个v之间的第一c划分为前一个音节 CVC-CV Mak-Iar 第二个c划分为后一个音节,cvc是一个音节,cvc是一个音节 两个ⅴ之间的第一,第二个c划分为前一个音节, Dars-ka 第三个c划分为后一个音节,cvc是一个音节,cv是一个音节 If# CVcccvc%then两个之间的第一,第二个c划分为前一个音芍, CVcc-Cvc Dars lar 第三个c划分为后一个音节,cvcc是一个音,cve是一个音节 I4wvc%then第一个v之后分割,uv是一个音节,vc是一个音节 间出现Han If#cve'vc%then两个ⅴ之间的c划分为前一个音节,第二个vc构成一个音节 CVC-VC an- 是一个音节,vc是一个音节(v前出现 Hamze Ifv'vevc%then两个v之间的c划分为前一个音节,第二个v 构成单独一个音节,之后的cvc划分为一个音节,cvc是一个音节, Jam-l-yat 是一个音节(出现 Hamze),cvc是一个音节 I+rv'vev%then两个c之间的两个v划分为两个音节(出现 harvie), d cⅴ是一个音节,v是一个音节,cv是一个音节 If#cv’vevc%then两个c之间的两个v划分为两个音节(出现 Hamzejcv是一个音节 CV-V-CVC v是一个音节,cvc是一个音节 If#vc'vc%then两个c之间的v划分为后一个音节(出现 Hamze)vc 是一个音节,vc是一个音节 VC-vc In-am If cvc%then汉语借词,亓音数量=2,算为一个音节 bing-tuan If#cwv%then汉语借词,元音数量=2算为一个音节 CV\ If# ccvcccy%then两个v之间的3个c中离第二个v最近的c T r 属于下一个音节 表中,表示音节开始;%表示音节末尾;I为如果;Hame为y If #cccvcv%then迕续三个c与后面的ⅴ一起属于一个音节 Stra-tegl 3音节切分存在的问题及解决方法 自动音节切分中存在的问题 (1)表1所示的第7~12音节结构用于记汞不符合维吾尔文固有音节特征的外来词,是 实现自动音节切分的主要技术难点。维吾尔文音节特征是一个音节只包含一个元音,可以不 包含辅音,词语的元音数量理论上等于该词语的音节数量,但是汉语借词中有时可以有2 个元音,如 tuan、hua等。 (2)维督尔文音节里,元音前面的辅音不会超过1个,但是大量外语借词则存在元音前 面有1个以上的辅音,如 Stalin、 Strategiya等。 取国科论又在线 http://www.paper.edu.cn 在确定当前音节边界时,有些汉语借词的2个元音的音节结构和外来词的多个辅音的音 节结构容易使切分算法产生歧义,如音节类型11(CVC)从结构上看是音节类型2(VC)和类 型3(CV)的结合,则一个词语里出现CVVC结构的字符串时,该字符串是1个音节还是2 个音节,是必须解决的问题,也是其他切分方法用规则库和附加音节库来实现音节切分的主 要原因。 自动音节切分的实现 (1)利用Ham∠e对词语进行分块 通过分析表2所示的规则,可以把 Hanze符号看成是一个吝节开始的标志。 Hamze 般出现在词首和词语中间,如母亲“Ana(咔)有两个“A”(为了方便宁母间用竖线分割),第 个“A”(5)必须带 Hamze,第二个“A”()则不必 Hamze有时出现在词语中间,这时 Hamze 的功能类似于汉语拼音xan(A5s)里的单引号…”,如果没有单引号,x'an(2个音节)将 变成xan(→,1个音节)。所以,首先用Ham对词语进行切分,然后再对每一个分块 进行音节切分,如(不舒服, baran, CVVCVC)次可以分成b和aam(v+vvc两个字 符串,然后再分别进行切分,这样就可以简化表2规则当中的所有“出现 Hamze”的规则。 (2)遍历方向和当前音节边界的确定。 通过反复试验可发现,遍历字符串时,从词尾丌始遍历比从词首丌始遍历效果更好。如 从词首开始遍历 islapciqiris生产, VCCVCCVCVCVc)时,不能确定第一个音节应该是v还是vc 切分有多个辅音的外来词的音节时,产生的歧义切分更严重。如果从词尾开始遍历,每当遇 到cv(先遇到v然后遇到c)时,把c作为音节边界,可以顺利地进行音节切分,切分结果为 ve+evc+ cv+CV+eve。但是切分有些外来词时会出现一些问题,如 Grammatika( CCVCcycvcv 语法学)的切分结果为Ccv+cv+v+cv。因为第一音节C里没有元音,不符合音节规则,所 以把C加到第二个音节cve,以生成ccvc方式来解决。类似地, Transport(运输)的切分为 Ccvcccvcc)-丶Cc+ vcc+cvco→ Cevectevccs有时出现极端个别的现象,如 Transkripsiya(转写) 的切分木应为 CCVCcccvccvcv)→ ccecc+cvc+v+cv,但因为表1里没有cvec类型的音节, 与cvcc匹配的最长的音节结构是cvcc,所以将剩余的个c附加到下·个音节cvc,以 构成cvc(符合第8音节类型)来解决。如果新音节结构不符合表1所示的任何类型,则认为 有拼写错误,保留原始切分结果 (3)汉语借词里的一个的音节多个元音的识别。 对汉语借词里的一个音节的多个元音的识别也可以采用从后遍历的方法来解决,例如 bingtuan(兵闭,ng在维吾尔文里只对应一个字母, CVcCVVc)>cve+ cVvco junghua(中华,维吾 尔文没有zh,ch,sh,对应的字母用j,c,s代膂,cvcv)ev+cw。维吾尔文里的 biram( CVVCVC)根据 Hamze进行分块,所以不存在与汉语借词音节元音产生歧义的问题 因为计算机输入 Hamze时是用单独键来输入,用 strlen函数计算维吾尔文词语和音节 长度时, Hamze占一个字符长度,但是维尔文字母表里 Hamze是字母的一部分,而不是 单独一个字母,所以计算结果里需要减去 Hamze的长度。如维吾尔文“Ana'”的计算长度是4, 但因是3个字母,修正后的词语长度应该是3。 取国科论又在线 http://www.paper.edu.cn 自动音节切分方法的特点 该方法没有使用汉语和外来词的辅助音节库,而是采用Hamε切分词语→≯词尾开始扁 历→>査找边界标志cⅴ)检查音芍结构[有问题则修复]方式实现维吾尔文音节的完全自动切 分。如果使用辅助音节库,则可能不能正确处理一些附加厍之外的音节,例如文献[8]“将汉 语中可能出现的400多种音节列成表”,如muan,音节结构属于汉语,但实际上不是汉语 首节,所以不会出现在汉语音节库里。 测试 文献[门]和文献[8]用生语料库进行切分测试,并统计出了一定数量的音节,但是都没有 提出具体的测试方法和标准。牛语料再多,也不能保证涵盖所有的音节类型,例如比较简单 的CVC类型,理论上有24×8×24=4608种音节,CⅤCC类型则有110592种音节。 因为音节切分与只体字母无关,只有字母的辅音或元音性质有关,因此可以假设维音尔 文只有2个字母(一个辅音C和1个元音V),设计一个词语生成工只,生成包括12种音节 类型的所有可能性的组合的人工合成词语列表。包括每一个音节的单独类型和它们与 其他2种音节的任意组合。这样可以模拟出表1所示的每种音节类型的单独出现和其它首 节类型一起在词首、词中、词尾的全部组合。通过公式可以计算出组合可有1740种字 符串,即: 单入音节3种音节的所有组合 根据以上假设,该1740种字符串由5196个音节组成,包括基于12种标准音节结构的 所有音节类型的所有组合。如果对的每个字符串进行音节切分,将切分结果与合并前的 音节组合进行对比,理论上可以计算出切分的正确率。但通过观察可发现,该测试方法存在 两个问题。 (1)对有些进行人工正确音节切分后,切分结果与原来音节组合不同,即 1+1→(合并)==→(切分)=2+2。例如第4和第1号音节结构的合并为 CVC+V→(合并)=CVCV→(切分)=CV+CV≠CVC+V。 (2)有些拼写有问题的或刻意写的字符串的本身不受切分规则,也没有可以参考的标准 的切分结果。例如 CCCCCO或者 CVVVVO等。表中也存在类似的一些字符串,如 ===1 根据以上情况,本文设计了两种测试方法。 1)对维尔文语法信息词典的词语进行切分。 维吾尔文语法信息词典包括的词语数量为41408(该数量不包括词典里由一个以上词语 组成的词组、谚语、固定搭配等),每一个词语只出现一次,拼写正确,有可以对比的人工 音节切分 测试内容:(1)切分结果与人工切分的对比。(2)统计切分结果中不在12种标准音节结 构中的吝节。 测试结果:(1)与人L切分结果匹配程度(100%)。(2)发现的非标准的音节数(O)。 2)对上述进行首节切分。 取国科论又在线 http://www.paper.edu.cn 测试内容:(1)统计切分结果中不在12种标准音节结构的音节。(2)统计问题()所述的 原音节组合与切分之后音节组合的匹配程度。 测试结果:(1)发现11种非标准音节结构,共出现208次,切分错误率为 08 100%=4.003%。(2)发现切分结果与原音节组合不匹配的数量为549个,匹 5196 配率为 1740-549 1740×100%=68448% 测试结果的部分特例如表3所示。 表3测试结果(部分特例) 序号 模拟词语 机器切分 非标准音节 备注 VC+CCⅤ+ⅤCC VCC+CVVCC 切分结果出现非祘准音节 2 切分结果与原音节组合匹 VC+CVV+CCCV VC+CVVC+CCV 切分结果与原音节组合不匹配 4 V+V+V 不受音节规则的字符串 根据文献[10分析,英语外来词音节结构的数量来看,(文献使用的语料斥中)外来词中 只有3个词出现ccvc的音节形式,3个词出现c的音节形式,只有5个外来词语中出现 cvcc的音节形式。可以看出ccvc,ccv,cvcc形式的词确实存在,但是数量不多,只有l1 个词。还有上面提到的ccvc,cw,cwvc音节形式的词,测试语料中没出现。可以推论80% 的英语外来词还遵循维吾尔文音节规律S 结束语 维吾尔语里的少数外米词结构复杂,来源不同(中文、英文、俄文、波斯和阿拉伯等 没有遵循维吾尔语固有的音节规律,不容易发音和拼写,是自动音节切分的难点。本文通过 规则和后序遍历和检测和修复不规则方式解决了音节自动切分问题。实验结果表明该方法可 以满足实际应用。实验中岀现的错误切分也是实际语料库中几乎不公出现,除非作者刻意写 进文章。 如果引进的外来词尽量以符合维吾尔文的固有的音节规则进行拼写不仅降低发音和书 写难度,还容易记忆,不仅对本民族人员学习方便还降低其他民族学习维昔尔语和书写维旮 尔文的难度。从自然语言处理的技术角度来看也为开发人员提供算法设计的便利,诚少音节 种类,降低算法难度提高处理速度,减少各种系统的错误率和丌发成本。因为音节切分是维 吾尔文自然语言处理中的基础底层工作,这一层的错误直接会影响基于音节切分的上层模 块,增加上层模块的开发难度。而且音节种类的减少只对发音广生微小的变化,不会影响原 词语语法意义。 维吾尔文本身是一种“表音”文字,用32个最小话音单位(字母)记录各种基本语音单位 (音节)再用这些语音单位(音节)的各种组合表示各种有语法意义的声音片段(词语)。语言文字 委员会等相关部门在制定新词或夕来词的拼写标准时应该简化音节结构。例如外来词 【】( Transkripsiyi)的日前的正确音芎切分结果【 Trans+krip+si+ya】,若以符合 维旮尔文固有的音节规则拼写可以拼写成 Tiransikiripsiya【 Titran-si+ kitrip+si+ya】。音节 数量从4增加到7,但是学习方便、发音容易,拼写错误率低 音节自动切分算法源代码 Windows xp7+Ⅴ isual studio20052008C#环境调试成功,需 要算法源码的同事可以通过电子邮件与作者联系 取国科论又在线 http://www.paper.edu.cn 参考文献( References) [1]阿不都许库尔毛拉克.现代维语词的音节分写规则[J语言与翻译.1999,42526 Abudouxukuer Maolake. The syllable rules of modern Uyghur[J]. Language and Translation, 1999, 4: 25-26.(in Chinese) [2]新疆维吾尔自治区民族语言文字工作委员会.维吾尔语拼写与发音大辞典[M]乌鲁木齐:新疆人民 出版社,1997 Xinjiang ethnic language work committee. Uyghur spelling and pronunciation dictionary[M]. Urumqi: Xinjiang People's Publishing House, 1997.(in Uyghur 3」海米提铁木尔.现代维吾尔语法(词汇学)M」.北京:民族出版社,1987 Haimiti Ticmucr. The modcrn Uyghur language syntax(lexicology )[M]. Bcijing: The Ethnic Publishing House, 1987. (in Uyghur 「4]努尔麦麦提尤鲁瓦斯,吾守尔.斯拉木,热依曼.吐尔逊等.基于音节的维吾尔语大词汇连续语音识别系 统[J.清华大学学报(自然科学版,2013,53(6):741-744 Nurmemet Yolwas, Wushour Silamu, Reyiman Tuerxun et al. Syllable based language model for large vocabulary continuous speech recognition of Uyghur[J] Journal of Tsinghua University( Science and Technology ) 2013, 53(6) 741-744.(in Chinese [5]艾克白尔买吐努热.基于手机的维吾尔文手写输入系统研究[D]长春:吉林大学,2012年 Aikcbaicr Maiturc. Thc phonc-bascd handwriting input systcm of thc Uighur[D]. Changchun: Jilin Univcrsity, 2012. (in Chinese 「6]刘攻怡,吴建国,刘慧婷,等.音节切分歧义方法研究「J.计算机技术与发展,2008,18(8):35-38 Liu Zhengyi, Wu Jianguo, Liu Huiting, et al. Research on syllable segmentation method[]. Computer Technology and Development. 2008, 18(8): 35-38.(in Chinese 「7阿比达.吾买尔,吐尔根依布拉音.维吾尔文音节切分方法的研究与实现「C/中圜中文信息学会第11 眉全国民族话言文字信息学术研讨会论文集.北京:西苑出版社,2007:365-370 Abida Umar, Turgun Ibrahim Research on and Implementation of Uyghur syllable breaking algorithm[C]/Chinese Information Proccssing Socicty of China. The 11- National Minority Language Information of Acadcmic Symposium. Beijing: Xiyuan Publishing House, 2007: 365-370.(in Chinese [8]艾尼瓦尔麦麦提,吐尔根依布拉音,伊米提.艾则孜.维吾尔文音节分解算法的设计与实现[C]中国 协2005年学术年会论文集.乌鲁木齐:中国科协,2005,630634 Ainiwaer Maimaiti, Turgun Ibayim, Yimit Aziz. Design and implementation of Uyghur syllable segmentation algorithm[C]/ China Association for Science and Technology. Proceedings of the 2005 Academic Annual meeting of Chinese Association. Urumqi: China Association for Science and Technology, 2005: 630-634(in Chinese) [9]古丽拉阿东别克,米吉提阿布力米提.维吾尔语词切分方法初探门中文信息学报,2004,18(6) 6l-6 Gulila Adongbieke, Mijit Ablimit. Research on Uighur word segmentation[J]. Journal of Chinese information processing, 2004, 18(6): 61-65(in Chinese 10]阿布力克木喀吾孜.维吾尔语中英语外米词矿究[D]北京:巾央民族大学,2012 Abulikemu Kawuzi. English borrowings in Uyghur languageD]. Beijing: Minzu University of China, 2012. (in Chinese

...展开详情
试读 7P 论文研究-现代维吾尔文音节自动切分方法及其实现 .pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    上传资源赚积分,得勋章
    最新推荐
    论文研究-现代维吾尔文音节自动切分方法及其实现 .pdf 15积分/C币 立即下载
    1/7
    论文研究-现代维吾尔文音节自动切分方法及其实现 .pdf第1页
    论文研究-现代维吾尔文音节自动切分方法及其实现 .pdf第2页
    论文研究-现代维吾尔文音节自动切分方法及其实现 .pdf第3页

    试读已结束,剩余4页未读...

    15积分/C币 立即下载 >