没有合适的资源?快使用搜索试试~ 我知道了~
基于vsm模型的文本相似度检查软件的设计与实现.doc
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 142 浏览量
2023-06-25
22:53:18
上传
评论
收藏 764KB DOC 举报
温馨提示
基于VSM模型的文本相似度检查软件的设计与实现 第1章 绪论 * 介绍了文本相似度检查的重要性和挑战性 * 提出了基于VSM模型的文本相似度检查软件的设计与实现 第2章 系统原理介绍 * 介绍了VSM模型的原理和特点 * 论述了文本相似度检查的相关技术和算法 * 介绍了基于VSM模型的文本相似度检查软件的系统架构 第3章 系统架构设计 * 介绍了系统的需求分析和功能概述 * 论述了系统的性能要求和数据库设计 * 介绍了系统的功能模块设计和数据流程 第4章 系统实现 * 介绍了系统的运行环境和界面实现 * 论述了系统的实现技术和开发语言 * 介绍了系统的测试和调试 基于VSM模型的文本相似度检查软件的设计与实现 * 介绍了基于VSM模型的文本相似度检查软件的设计思想和实现方法 * 论述了软件的功能和性能特点 * 介绍了软件的应用前景和发展方向 知识点总结 * 文本相似度检查的重要性和挑战性 * VSM模型的原理和特点 * 文本相似度检查的相关技术和算法 * 基于VSM模型的文本相似度检查软件的设计与实现 * 软件的功能和性能特点 * 软件的应用前景和发展方向
资源推荐
资源详情
资源评论
目 录
第 1 章 绪论 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙1
1.1 课题背景∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙1
1.2 课题研究意义 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙1
1.3 开发语言∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙1
1.4 设计任务∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙2
第 2 章 系统原理介绍∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙2
2.1 系统原理概述 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙2
2.2 系统相关知识点简介 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙3
2.3 系统实现思想 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙6
第 3 章 系统架构设计∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙7
3.1 系统需求分析 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙7
3.2 系统功能概述 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙7
3.3 系统性能要求 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙9
3.4 功能模块设计 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙9
3.5 数据库设计∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙10
第 4 章 系统实现 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙12
4.1 系统运行环境 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙12
4.2 界面实现∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙12
4.3 相关代码分析 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙16
第 5 章 系统测试 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙17
5.1 相似度检测∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙17
5.2 记录查看检测 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙20
第 6 章 总结与展望∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙21
6.1 系统总结∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙21
6.2 系统展望∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙22
致 谢∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙23
参考文献 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙24
附 录∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙25
1
第 1 章 绪论
1.1 课题背景
随着计算机的广泛应用以及 Internet 的普及,互联网逐渐成为当今世界上最大的信
息库,人们可以非常便捷从网络中获得想要的信息,但与此同时也带来了一些问题,诸如
非法复制、非法分发等文档侵权。在如今的高校中,学生的论文抄袭、作业抄袭现象更是
屡见不鲜。学生日益对自己的作业马虎了事,随便抄抄了事。尤其是对于有些枯燥的专业
课程通常要进行实验并撰写电子实验报告,这就给不想动手动脑的同学以可乘之机。这种
现象长此发展下去,不仅老师不能把握学生专业课程学习的情况,而且学生学习的积极性
也会严重下降,抄袭的风气将影响到整个高校的学术氛围。那么文本进行相似度检测应用
就成了眼下一个现实的需求。
目前,国内外有很多学者在研究文本相似度计算问题。诸如国内学者潘谦红、王炬等
就提出利用属性论计算文本相似度
[1]
,张焕炯、王国胜等提出基于汉明距离的文本相似度
计算方法
[2]
。而由现代搜索技术之父,杰拉德·索尔顿(Gerard Salton)等提出的基于向量
空间模型(VSM:Vector Space Model)的相似度计算方法已被广泛的应用于相似度计算领
域。如在电信行业中,利用 VSM 模型分析转网的客户数据,找出两个客户之间的相似度,
以确定两个客户是否是同一用户,最终确定流失客户的流失方向。
基于这些学者对文档相似度计算的研究以及现实的需求,本系统采用 VSM 模型实现
对文本的相似度计算,在一定程度上可以有效地对学生的相关作业进行检测。
1.2 课题研究意义
抄袭是一种造假的行为。高校是用来培养人才的,要求学生德智体美劳全方位发展。
学生在诚信的尺度上就不合格,那么在很大程度上失去了高校培养人才的意义,也更加难
以保证学生走向社会后更好的为社会服务。针对出现的问题,我们要积极采取措施加以遏
制。本系统主要是对相似度的检测进行一个理论的研究,了解文档相似度的实现原理以及
相关技术。当然也可以对学生作业有无抄袭情况进行一个检测,要求与数据库连接但无需
网络的连接,这个在一定程度上可以辅助老师检查学生作业抄袭的情况。老师对学生的监
督有了一定的方法和依据,那么就尽量减少了学生抄袭的念头,进而提高学生自主学习的
积极性,营造一个良好的学习氛围。
1.3 开发语言
C#又读做“C sharp”,是微软公司在 2000 年 6 月发布的一种程序设计语言。微软公司
对 C#的定义是:“C#是一种类型安全的、现代的、简单的,由 C 和 C++衍生出来的面向对
2
象的编程语言,它是牢牢植根于 C 和 C++语言之上的,并可立即被 C 和 C++的使用者熟悉。C#
的目的就是综合 Visual Basic 的高生产率和 C++的行动力
[3]
。”由于 C#面向对象的卓越设
计,它成为构建各类组件的理想之选——无论是高级的商业对象还是系统级的应用程序。
本系统选择 C#作为开发语言,一方面是因为自己对这种语言比较熟知,另一方面是因
为它的确有着一些优于其他语言的特点:
(1)拥有 C/C++的强大功能以及 Visual Basic 简易使用的特性,而且看起来与 Java 有
着惊人的相似。因集众家之长,使其不仅安全,而且易于掌握和使用。
(2)不仅有实时的编译器,而且含有比一般语言更丰富的数据类型。无论是从输出
格式,还是网络 I/O,都有一整套标准的类和数据类型。
(3)强大的操作能力、优雅的语法风格、创新的语言特性和便捷的面向组件编程。
(4)能够消除很多常见的 C++编程错误,如变量由环境自动初始化、变量的类型安
全等。
系统以 Microsoft Visual Studio 2005 作为开发工具
[4]
,可以非常灵活的对界面进行设计,
而且点击控件自动生成的代码非常规整,易于理解。
1.4 设计任务
本系统对文档相似度检测进行一个理论研究的同时,也要实现相似度检测的基本功能。
文档相似度检测主要有三大功能,文档分词、词频统计、相似度计算。从这三大功能入手,
首先要对文档进行分词,分词要考虑到具体的一些分词方法,何种方法能更精确方便的对
文档进行分词。本系统是利用现成的词库,采用正向最大匹配算法对文档实现分词。接下
来进行词频统计,词频统计即通过连接数据库,在编程语言中利用 SQL 语句对数据库表进
行操作,统计出所需要的数据。相似度计算,即将统计的结果返回进行计算。相似度检测
完成后,还需实现的是让用户能够清晰明了的看到两篇的相似度检测情况,在此设计了查
看记录界面,在后面的介绍中会具体介绍。最后,在主界面中设计一个帮助说明的界面,
以显示一些操作说明和注意事项。
第 2 章 系统原理介绍
2.1 系统原理概述
本系统是基于向量空间模型(VSM)来设计的。我们将每一篇文档都看成一个向量,
每个词作为向量的一个维度,而词的频率看成其值(有向),即向量,这样每篇文章的词
及其频率就构成了一个 i 维空间图,两个文档的相似度就是两个空间图的接近程度,即它
们之间夹角的大小,我们通过计算余弦系数来体现。计算机不会像人一样自动识别文档里
的每个词,所以要对文档进行分词处理,然后统计词频,最后根据余弦系数计算公式得出
相似度比较结果。
3
2.2 系统相关知识点简介
2.2.1 数据库技术
数据库技术是现代信息科学技术的重要组成部分,是计算机数据处理与信息管理系统
的核心
[5]
。数据库技术解决了计算机信息处理过程中大量数据有效组织和存储的问题,实
现了数据共享,保障了数据安全,从而高效地检索数据和处理数据。数据库技术主要起着
两方面的作用:
(1) 信息系统开发。利用数据库技术,并结合具体的编程语言,可以开发一个信息系
统,从而解决业务数据的输入和管理问题。在信息系统开发中,主要利用的是 RDBMS 的
基本功能,即数据定义功能,数据操纵功能,数据查询功能以及数据控制功能
[6]
。
(2) 数据分析与展示。利用 RDBMS 的数据查询功能对数据库中的数据进行关联组合
或者汇总分析,并以表格、图形或报表形式将分析结果返回设计系统进行展示,从而解决
业务数据的综合利用问题。
本系统以 Mircroft SQL Server 2005 作为后台辅助工具。通过连接数据库,将数据存到
数据库表中,结合编程语言,对数据库表的数据进行操作,以及将信息返回到系统显示给
用户。
2.2.2 向量空间模型
VSM 模型(VSM:Vector Space Model)即向量空间模型,由 Salton 等人于 20 世纪 70
年代提出,并成功地应用于著名的 SMART 文本检索系统。
向量空间模型的基本思想为将文本简化为特征向量表示,将相似度计算问题简化为空
间向量的运算,由此使得问题的复杂性大大降低
[7]
。该方法根据文本中的词语将文本映射
为 n 维空间向量,通过计算空间向量的余弦值来确定文本的相似度,即利用空间的相似性
来解决文本上的相似性,直观易懂。通过向量空间模型,文本数据就转换成了计算机可以
处理的结构化数据,两个文档之间的相似性问题转变成了两个向量之间的相似性问题。
我们可以这样来理解一下向量空间模型。对于每篇文档来说,它都是由很多词条组成
的。对此,我们可以对文档(Document)和其所包含的词条(Term)之间的关系进行一个
研究。我们可以将一篇文档看成一个向量 D(term1,term2,……,termn)。这样,假设某两篇
文档中都出现了 term1 和 term2,就可以用一个二维的坐标来表示文档和词条之间的关系,
如图 2-1 所示:
4
从图中可看出,文档 1 中 Term1 共出现 3 次,Term2 出现 1 次;而文档 2 中 Term2 出
现 3 次,Term1 出现 1 次。所以,可以用向量 D1(3,1)、D2(1,3)来表示这两篇文档。
以此类推,一个搜索引擎的索引库,可以看成是一个由词条组成的 N 维向量空间。每一篇
文档均为其中的一个向量。在这种情况下,文档之间就出现了特定的关系。例如,当两篇
文档内容相近时,它们的词条也就差不多。因此,从逻辑上看,它们可能就会在这个向量
空间中处于一种很“接近”的位置。此时,“接近”真实含义指的是这两个向量之间的夹
角比较小
[8]
。
2.2.3 中文分词技术
众所周知,中文是世界上最复杂的语言之一。那么要对文本进行相似度计算,首先就
要进行分词处理。分词,即将一段文本拆分成多个词。现有的分词方式主要有单字分词、
二分法、词典分词。
单字分词,顾名思义即在对中文文本进行分词时,以字为单位进行切分。按这种方式
建立索引,则索引中所有的词条的集合就是中文汉字库的一个子集合。字索引比较灵活,
但需要复杂的单字匹配算法,以及大量的 CPU 运算
[8]
。
二分法,即将每两个字当作一个词语进行切分,然后建立索引。它明显的减少了每个
词条后位置信息的长度。如 Lucene 的 CJKAnalyzer 就是对中文采取二分的方式进行分词
[8]
。
本系统采用词典分词的方法。词典分词,是目前来讲分词比较准确的一种方法,即通
过构造一个常用词词典来对遇到的文本进行词语的切分。中国科学院计算技术所研究的
ICTCLAS 在中文分词领域是较为先进的分词系统,其分词词典也是世界公认的精准。使用
词典分词法在文本中匹配单词时用到一些常用的算法:
正向最大匹配算法即是:从左到右将待分词文本中的几个连续字符与词库匹配,如果
匹配上,则切分出一个词。
Term1
Term2
文档 1
文档 2
图 2-1 文档和词条的向量空间
剩余32页未读,继续阅读
资源评论
老帽爬新坡
- 粉丝: 92
- 资源: 2万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功