基于向量空间模型的中文文本相似度的研究


-
在文本聚类中需要衡量中文文本之间的相似性。本文首先讨论了文本相似度的概念和常用计算算法,详细介绍了向量空间模型和算法步骤,采用删除去除词表、近义词合并、修改文件长度3中策略对算法进行了改进。最后借助盘古分词组件和搜狗实验室的互联网词库,在Visual Studio 2008环境下使用C#语言对算法进行了实现。使用在CNKI上得到的5个不同领域的500篇学术论文的中文摘要对算法进行了测试,结果表明新算法在误差率方面有较大改善,但运行时间较长。
-
2021-01-27
8KB
向量空间模型快速文本相似度计算 java源码+数据
2015-07-01使用向量空间模型以最快速度计算文本之间的相似度,JAVA源码+数据
46.37MB
文本相似度系统-java版本
2017-01-20java实现的文本相似度系统,使用向量空间模型以及余弦相似度距离公式,实测可以实现2篇文本的相似度计算且有一定的效果。
126KB
基于C#的文本相似度检测
2010-04-04这是一个基于C#的反作弊系统,基于VSM空间向量模型,能对doc和txt文件进行相似度的检测,在VS2005和SQL Server 2005上实现
590KB
论文研究-基于公共子串的文本相似度计算模型 .pdf
2019-08-16基于公共子串的文本相似度计算模型,苏振魁,田园,为了克服现有文本相似度计算模型过多关注词频,而较少关注词语在文本中出现顺序的缺点,本文在基于向量空间模型的基础上,提出了
33KB
论文研究-基于VSM的文本相似度计算的研究.pdf
2019-07-22文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TDIDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处
2.91MB
文本相似度计算:使用VSM模型
2009-03-25使用VSM模型进行文本相似度计算 vs2008 C# .net 3.5
825KB
论文研究-基于语义列表的中文文本聚类算法.pdf
2019-07-22针对大多数基于向量空间模型的中文文本聚类算法存在高维稀疏、忽略词语之间的语义联系、缺少聚簇描述等问题,提出基于语义列表的中文文本聚类算法CTCAUSL(Chinese text clustering
1.24MB
论文研究-一种基于词义和词频的向量空间模型改进方法.pdf
2019-07-22文本内容较多时,传统的向量空间模型(VSM)建模可能产生维数爆炸现象,效率低下且难以保证分类效果。针对VSM高维现象,利用词义和词频降低文本建模维度的方法提高效率和准确度,提出一种多义词判别优化的同义
508KB
论文研究-结合关键词微变和LD算法的文本相似性研究.pdf
2019-09-10为了解决基于传统向量空间模型的文本相似性算法没有考虑向量高维及关键词的微变,而导致文本相似性计算结果不够精确的问题,提出了关键词微变情况下基于聚类和LD算法的文本相似性算法TSABCLDA(Text
889KB
论文研究-基于优化密度的耦合空间LDA文本聚类算法研究.pdf
2019-07-22针对传统的空间向量模型在进行文本表示时计算相似度仅采用词频统计来表示文本以及对高维文本数据聚类效果有所下降等问题,提出一种基于优化密度的耦合空间LDA文本聚类算法。该算法利用提出的耦合空间模型和LDA
959KB
论文研究-基于相对密度的多耦合文本聚类算法.pdf
2019-07-22针对现有的空间向量模型在进行文本表示时忽略词条的位置和词条间关系的问题,提出了一种基于相对密度的多耦合文本聚类算法。在基于相对密度的聚类方法基础上,该算法根据相对密度越小文本相似性越小这一事实,将相对
962KB
论文研究-基于语义的微博短文本倾向性分析研究.pdf
2019-07-22通过结合情感词库和微博语义特征,采用向量空间模型的方法表示微博文本,提出一种融合模式匹配和机器学习的微博文本倾向性分析方法。对分词之后的微博文本,先提取出情感关键词,再匹配分析出的几种模式抽取情感评价
645KB
论文研究-基于隐含语义分析的微博话题发现方法.pdf
2019-09-11随着微博的大量普及和关注度的不断提高,微博热点话题发现已成为当前研究热点。针对于短文本、向量空间模型(VSM)文本表示方法存在高维度、稀疏,以及同义多义问题,导致难以准确度量文本相似度,提出一种基于隐
208KB
论文研究-结合LSA的中文谱聚类算法研究.pdf
2019-07-22传统的文本谱聚类需要的文本相似矩阵依赖于向量空间模型,忽略了词与词之间的语义关系,存在词频维数过高、计算代价高等问题。针对这些问题,提出了一种基于潜在语义分析(latent semantic anal
34.16MB
News_Search_Engine.zip
2020-07-17本项目使用python语言+flask框架+sqlite数据库实现了新闻搜索引擎,使用向量空间模型实现新闻检索(将对文本内容的处理简化为向量空间中的向量运算(TF-IDF),且空间中的相似度表达文本的
731KB
论文研究-基于文本—链接模型和近邻传播算法的网页聚类.pdf
2019-07-22关于网页聚类的研究已经提出多种基于文本—链接模型的聚类算法,其中应用最广泛的便是MS模型。针对MS模型在效率和计算精度方面的不足,提出了改进的TLMS模型。新模型通过将词聚成词簇、链接向量聚成链接簇的
712KB
论文研究-基于随机词汇迭代模型的POI分类检索.pdf
2019-07-22从特征选择、局部区域划分和词汇语义相似性计算入手,利用随机词汇迭代模型(random terms iterative model,RTIM)进行海量兴趣点(point of interest,POI)
264KB
论文研究-基于内容的网络异常信息过滤.pdf
2019-07-22通过对信息过滤一般过程的分析,提出了一种基于内容的网络异常信息过滤方法。在源信息采集方面,建立了网络信息捕获构架,基于协议分析实现网络数据的提取;在信息内容处理方面,采用设立切分标志进行文本信息的预处
645KB
基于Hadoop平台的海量文本分类的并行化
2021-02-24文本分类是信息检索与数据挖掘的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.近来年随着文本数据呈指数增长,要有效地管理这些数据,就必须在分布式环境下用有效的算法来处理这些数据.在Ha-doo
7KB
nlp_project.zip
2020-10-25基于Word2Vec的词向量空间模型,包括对文本预料的预处理,去停用词,分词以及训练等,可以基于语料查询词汇相似度,对词向量进行降维显示。
483KB
基于峰值密度聚类的电信业投诉热点话题检测方法
2021-01-19针对电信业对投诉热点话题缺乏有效的检测方法问题,提出一种基于峰值密度聚类算法的投诉热点话题检测方法。首先建立电信业专用词库用于投诉样本的文本分词,采用向量空间模型表示文本分词,然后通过计算文本分词相似
1.40MB
基于Paragraph Vector模型的科研热点发现方法
2021-01-26科研热点对科学研究具有指导意义,目前的科研热点发现主要依赖文本聚类技术,针对文本表示存在的特征语义表达能力不强、无法揭示词语之间潜在联系的问题,提出了一种基于Paragraph Vector模型的科研
110KB
潜在语义分析(LSA)的原理讲解以及python实现
2021-01-06在传统的文本信息处理中,以单词向量表示文本的语义内容,以单词向量空间的度量来表示文本之间的语义近似度。这种方法不能准确表示语义。 潜在语义分析试图从大量的文本数据中发现潜在的话题,以话题向量来表示文本
240KB
一种基于软构件描述文本信息抽取的检索方法
2020-10-18通过对目前应用广泛的软构件检索技术的研究,提出了一种基于软构件描述文本信息抽取的检索方法。该方法利用中文分词技术和向量空间模型中“词频与倒文档频度”算法抽取关键词,通过《知网》语义相似度,计算用户需求
68.21MB
funNLP_fighting41love.tar.gz
2019-10-20中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模
235KB
AI学习知识点.xmind
2019-07-15*AI学习知识点* 1. 基础知识 概率论 微积分与逼近论 极限、微分、积分的基本概念 利用逼近的思想理解微积分,利用积分的方式理解概率论 概率论的基础 古典模型 常见的概率分布 大数定理和中心极限定
797KB
基于联合知识表示学习的多模态实体对齐
2021-01-12基于知识表示学习的实体对齐方法是将多个知识图谱嵌入到低维语义空间,通过计算实体向量之间的相似度实现对齐.现有方法往往关注文本信息而忽视图像信息,导致图像中实体特征信息未得到有效利用.对此,提出一种基于
2.30MB
高校误判拉圾邮件自动召回系统的研究与实现
2021-01-15垃圾邮件的误判问题一直是反垃圾邮件领域中未能得到根本解决的难点。基于清华大学邮箱系统及反垃圾邮件网关系统进行了一整年的部署和实验(2011年9月至2012年10月),通过用户对可疑垃圾邮件点击召回的历
9.19MB
Managing Gigabytes: Compressing and Indexing Documents and Images
2012-02-16In this fully updated second edition of the highly acclaimed Managing Gigabytes, authors Witten, Mof
117.27MB
unsupervised_learning_of_text_line_segmentation_by_differentiating_coarse_patterns-源码
2021-02-16通过区分粗略模式进行文本行分割的无监督学习 我们提出了一种无监督的深度学习方法,该方法将文档图像补丁嵌入到紧凑的欧几里得空间中,其中距离对应于粗略的文本线图案相似度。 一旦产生了该空间,就可以使用带有
-
博客
Day1
Day1
-
下载
learn:只是为了学习python-源码
learn:只是为了学习python-源码
-
博客
linux系统中mysql 数据库的基本管理()
linux系统中mysql 数据库的基本管理()
-
学院
python Flask+scrapy+人工智能 实现高性能搜索引擎
python Flask+scrapy+人工智能 实现高性能搜索引擎
-
学院
C# 高级网络编程及RRQMSocket框架详解
C# 高级网络编程及RRQMSocket框架详解
-
学院
朱老师鸿蒙系列课程第1期-3.鸿蒙系统Harmonyos源码配置和管理
朱老师鸿蒙系列课程第1期-3.鸿蒙系统Harmonyos源码配置和管理
-
下载
IC类面试题(不同公司合集).pdf
IC类面试题(不同公司合集).pdf
-
学院
libFuzzer视频教程
libFuzzer视频教程
-
博客
S2-045之不能再当脚本小子之格物致知之知行合一
S2-045之不能再当脚本小子之格物致知之知行合一
-
下载
36路modbus RTU控制器说明书20-6-18.pdf
36路modbus RTU控制器说明书20-6-18.pdf
-
博客
理解数据库中的事物
理解数据库中的事物
-
下载
日本的高技术投资
日本的高技术投资
-
学院
基于电商业务的全链路数据中台落地方案(全渠道、全环节、全流程)
基于电商业务的全链路数据中台落地方案(全渠道、全环节、全流程)
-
下载
github-actions-test-源码
github-actions-test-源码
-
下载
happydev-源码
happydev-源码
-
博客
从JVM底层原理分析数值交换那些事
从JVM底层原理分析数值交换那些事
-
下载
Wireless-Hopping-源码
Wireless-Hopping-源码
-
学院
MySQL 性能优化(思路拓展及实操)
MySQL 性能优化(思路拓展及实操)
-
下载
Linux环境下已经编译好的all版本的protobuf3.15.4
Linux环境下已经编译好的all版本的protobuf3.15.4
-
下载
proj-4.9.3.tar.gz
proj-4.9.3.tar.gz
-
下载
光学材料的未来趋势
光学材料的未来趋势
-
下载
UL 962:2021 Household and Commercial Furnishings - 最新完整英文版(245页)
UL 962:2021 Household and Commercial Furnishings - 最新完整英文版(245页)
-
学院
MySQL 四类管理日志(详解及高阶配置)
MySQL 四类管理日志(详解及高阶配置)
-
学院
C#Winform桌面开发编程上位机基础入门
C#Winform桌面开发编程上位机基础入门
-
下载
Lau效应在导向(航)信标中的应用
Lau效应在导向(航)信标中的应用
-
博客
Vue基础语法
Vue基础语法
-
博客
字母异位词分组
字母异位词分组
-
学院
app软件测试全栈系列精品课程
app软件测试全栈系列精品课程
-
下载
hellowMusic-源码
hellowMusic-源码
-
博客
第五章 类的分类(1.2)
第五章 类的分类(1.2)