中文分词算法介绍、分类详解_中文分词算法分为哪几类资源-CSDN文库

需积分: 50 37 浏览量 2010-04-25 18:25:46 上传评论收藏 108KB DOC 举报

该文档详细介绍了中文分词的原理及相应的技术。文档讲解了最大匹配法（Forward Maximum Matching method, FMM法）、正向最大匹配法（由左到右的方向）、逆向最大匹配法（由右到左的方向）、最少切分（使每一句中切出的词数最小）。中文分词是自然语言处理中的基础任务，尤其在中文文本分析和信息检索中扮演着重要角色。本文将详细探讨几种常见的中文分词算法，包括最大匹配法及其变体。最大匹配法（FMM法）是一种广泛应用的分词策略，其基本思想是从文本中选取一个最大长度的候选词，然后与词典进行匹配。如果匹配失败，则逐渐减少候选词的长度，直到找到匹配的词为止。最大匹配法有两种方向：正向最大匹配法（FMM）和逆向最大匹配法（BMM）。FMM从右向左进行匹配，BMM则从左向右进行。例如，在句子“我是中国人”中，逆向最大匹配法会先尝试将“中国人”作为一个整体匹配，如果成功，则继续处理其他部分，直到所有词都被识别。 FMM法虽然简单直观，但存在明显的缺陷。由于必须预设匹配词长，这可能导致词长过短导致长词切分错误，如“中华人民共和国”被误切；反之，词长过长则会降低效率，因为大部分词的长度远小于设定值，导致大量无效匹配。无论词长如何设定，效率问题始终存在，尤其是在处理大量文本时。第三，由于中文语言的复杂性和歧义性，最大匹配法往往无法解决语境带来的分词歧义，例如“有意见分歧”可能有两种切分方式。最大匹配法倾向于寻找最长的匹配词，但实际应用中可能需要的是部分匹配，如药品名“感冒解毒胶囊”。为改善最大匹配法的不足，研究者提出了各种优化策略，如双向最大匹配结合、动态规划、词频统计等。双向最大匹配试图同时考虑左右两个方向，减少歧义，而动态规划方法能更好地平衡效率与准确性。词频统计则可以通过学习语料库中的词汇使用频率，辅助判断更合理的分词结果。中文分词是一个涉及语言学、计算机科学和统计学的综合问题。随着深度学习技术的发展，基于神经网络的分词模型，如Bi-LSTM、BERT等，已经取得了显著的进步，它们能够自动学习词汇上下文信息，进一步提高分词的准确性和鲁棒性。然而，无论是传统方法还是深度学习方法，中文分词始终是一个需要不断探索和完善的过程，因为它直接影响到后续的文本分析和信息提取任务的性能。

资源推荐

资源详情

资源评论

1

最大匹配法（Forward Maximum Matching method, FMM 法）：选取包含 6-8 个汉字的符号

串作为最大符号串，把最大符号串与词典中的单词条目相匹配，如果不能匹配，就削掉一

个汉字继续匹配，直到在词典中找到相应的单词为止。匹配的方向是从右向左。

逆向最大匹配法（Backward Maximum Matching method, BMM 法）：匹配方向与 MM 法相

反，是从左向右。实验表明：对于汉语来说，逆向最大匹配法比最大匹配法更有效。

给定串：我是中国人

从左往右最长匹配优先：

读入‘我’，一个字当然是一个词

再读入‘是’，查表找‘我是’，不在表中，则‘我’是一个独立的词，‘是’还要下一步判断

读入‘中’‘是中’肯定不在表内，那‘是’也是一个独立的词，‘中’还要下一步判断

读入‘果’，‘中国’在表内

再读入‘人’，’中国人‘也在表内，

此时全部读完，’中国人‘是一个次

结果就是：我是中国人

从右往左也类似

最近折腾毕业论文，搞得人没心情写

blog

了。于是觉得不如把毕业论文里的东西贴出来

当

blog

算了。这里主要介绍了我自己的中文分词算法，我觉得它比现在开源代码比较多

的中文匹配法要好多了。这里的内容没有任何背景知识啥的，毕竟论文里的背景知道我也

是从网上粘贴的，呵呵！因此这篇文章的内容可能适合做搜索引擎的人。如果要了解中文

分词算法在搜索引擎中的重要性，或者最大匹配法的思想与过程，请去网上搜吧，资料还

是蛮多的。

1.1.1

最大匹配法分词的缺陷

尽管最大匹配法分词是常用的解决的方案，但是无疑它存在很多明显的缺陷，这些缺陷也

限制了最大匹配法在大型搜索系统中的使用频率。最大匹配法的问题有以下几点：

一、长度限制

由于最大匹配法必须首先设定一个匹配词长的初始值，这个长度限制是最大匹配法在效率

与词长之间的一种妥协。我们来看一下以下两种情况：

（

1

）词长过短，长词就会被切错。例如当词长被设成

5

时，也就意味着它只能分出长度

为

5

以下词，例如当这个词为“中华人民共和国”长度为

7

的词时，我们只能取出其中的

5

个字去词库里匹配，例如“中华人民共”，显然词库里是不可能有这样的词存在的。因此我

们无法下确的划分出“中华人民共和国”这样的词长大于

5

的词。

（

2

）词长过长，效率就比较低。也许有人会认为既然

5

个字无法满足我们的分词要求，

何不将词长加大，例如加到

10

或者

100

，毕竟这个世界超过

100

个字长的词还是很少见

的，我们的词长问题不就解决了？然而当词长过长时，我们却要付出另一方面的代价：效

率。效率是分词算法、甚至是整个算法理论体系的关键，毕竟算法书里所有的高深的查询

或排序算法都是从效率出发的，否则任何笨办法都可以解决分词效率低的问题。设想到我

们把字长设成

100

个词时，我们必须将词从

100

开始一直往下匹配直到找到要查的字为

止，而我们大多数词的字长却只有两三个字，这意味着前

97

次的匹配算法是徒劳的。

因此我们必须要在词长与效率之间进行妥协，既要求分词尽量准确，又要求我们的词长不

能太长。尽管我们可能找到这样一个比较优化的字长值使两者都达到比较满足的状态，但

是毕竟不管我们怎么设定，总会有些太长词分出来，或者带来效率问题。

二、效率低

效率低是最大匹配法分词必然会来的问题。即使我们可以将字长设成相当短，例如

5

（注

意，我们不能再缩短字长了，毕竟字长为

5

以上的词太多了，我们不能牺牲分词的准确），

然而当我们的大数词长为

2

时，至少有

3

次的匹配算法是浪费掉的。回想一下算法书里提

到的最简单的字符匹配与

KMP

算法之间天差地别的效率，我们知道通过某种方法，这些浪

费的掉的匹配时间是可以补回来的。

三、掩盖分词歧义

中文是如此复杂的语言，它的表达方式如此之多，语法文法如此精妙，机械的电脑是很难

理解这么复杂的语言，因此它必然会带来歧意性，以下是两个简单的例子：

剩余13页未读，继续阅读

内容反馈

zzhongcy

粉丝: 1134
资源: 11

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip