没有合适的资源?快使用搜索试试~
我知道了~
文库首页
后端
Java
Simhash java实现
Simhash java实现
Simhash
文本相似度
敏感hash
需积分: 50
14 下载量
87 浏览量
2017-05-27
15:37:26
上传
评论
1
收藏
6KB
JAVA
举报
温馨提示
立即下载
Java实现simHash算法
资源推荐
资源评论
Java实现simHash算法
浏览:170
5星 · 资源好评率100%
Java实现simHash算法,对应博客http://www.cnblogs.com/hxsyl/p/4518506.html
simhash:simhash的Java实现
浏览:24
simhash simhash算法的Java实现
simhash算法的java实现simhash-java.zip
浏览:162
simhash 算法的 java 实现。特点计算字符串的 simhash通过构建智能索引来计算所有字符串之间的相似性,因此可以处理大数据使用使用输入文件和输出文件运行 Maininputfile 的格式(参见 src / test_in):一个文件每行用 utf8 字符集outputfile 格式 start //start flag first line // doc sencode lie
java实现中文分词simhash算法
浏览:125
5星 · 资源好评率100%
simhash算法对字符串计算权重时,对中文要做特殊操作,及先分词,请自行下载sanford中文分词jar包及中文分词库
SimHash-java实现及海明距离
浏览:178
计算两个文本的相似度,使用到了Simhash、分词、海明距离等技术
一种hash算法的实现
浏览:105
仅供学习研究,欢迎探讨!<br>
simhash:中文文档simhash值计算
浏览:3
专门针对中文文档的simhash算法库 简介 此项目用来对中文文档计算出对应的simhash值。simhash是谷歌用来进行文本去重的算法,现在广泛应用在文本处理中。 详见 特性 使用作为分词器和关键字抽取器 使用作为hash函数 hpp风格,所有源码都是.hpp文件里面,方便使用。没有链接,就没有伤害。 本项目的副产品项目: 提供了简单的simhash HTTP服务。 依赖 g ++(建议版本>
simhash算法库simhash.zip
浏览:74
专门针对中文文档的simhash算法库 简介 此项目用来对中文文档计算出对应的 simhash 值。 simhash 是谷歌用来进行文本去重的算法,现在广泛应用在文本处理中。 详见SimhashBlog 特性 使用 CppJieba 作为分词器和关键词抽取器 使用 jenkins 作为 hash 函数 hpp 风格,所有源码都是 .hpp 文件里面,方便使用。 没有链接,就没有伤害。 依
Simhash:使用Simhash对海量文本进行去重
浏览:47
Simhash 使用Simhash对海量文本进行去重
simhash文本相似度
浏览:117
3星 · 编辑精心推荐
文本相似度判断 simhash 海明距离<3 判断为相似
Simhash4J:Simhash Java单机实现
浏览:147
Simhash-Java实现 依赖 结巴分词:进行文本分词 Murmur3:字符串产生64位Hash值 运行 mvn install mvn exec:java
Simhash算法及java实现.doc
浏览:129
5星 · 资源好评率100%
Simhash算法及java实现.doc
文本相似度计算的Simhash算法的实现与改进.pdf
浏览:199
文本相似度计算的Simhash算法的实现与改进
simhash, Simhash算法的python 实现.zip
浏览:7
simhash, Simhash算法的python 实现 simhash这是 Simhash的python 实现。正在启动http://leons.im/posts/a-python-implementation-of-simhash-algorithm/插件生成状态
simhash-java Java实现simhash算法的简单实现.zip
浏览:93
simhash-java Java实现simhash算法的简单实现.zip
MySimHash.java
浏览:77
java实现的SimHash算法,用于海量的网页去重和打拼量的文本相似度检测
shingling、simhash、bloom filter
浏览:166
4星 · 用户满意度95%
相似项发现主题中的shingling、simhash、bloom filter算法java实现,测试通过,附带测试数据。
中文文本相似度匹配算法 simHash 海明距离 IK分词
浏览:200
4星 · 用户满意度95%
中文文本相似度匹配算法 simHash 海明距离 IK分词 完整的可运行的示例代码 包含simHash 算法,使用IK 对中文文本进行分词处理
文本相似度系统-java版本
浏览:83
5星 · 资源好评率100%
java实现的文本相似度系统,使用向量空间模型以及余弦相似度距离公式,实测可以实现2篇文本的相似度计算且有一定的效果。
simhash:一种有效的文本相似度计算算法
浏览:158
simhash高效的文本相似度去重算法实现simhash是什么Google发明的的文本去重算法,适合于大批量文档的相似度计算主要步骤对文本分词,得到N维特征向量(默认为64维)为分词设置权重(tf-idf)为特征向量计算哈希对...
Java编写多个爬虫实例
浏览:64
Java爬虫实例类说明如下: DownLoadFile 文件下载 HtmlParserTool Html解析 MyCrawler 爬虫 ConsistentHash 一致性Hash WordCount Map-Reduce算法例子 Retrive 文件下载 IP 获得IP地址示例 ip QQ纯真数据库示例 ...
二进制串模糊搜索的Java实现0.2
浏览:185
3星 · 编辑精心推荐
在之前版本http://download.csdn.net/source/3339688 上增加修改了一些
基于Java实现的文本相似度计算工具包,可用于文本相似度计算、情感分析等任务,开箱即用
浏览:171
由一系列算法组成的Java版相似度计算工具包,目标是传播自然语言处理中相似度计算方法。similarity具备工具实用、性能高效、架构清晰、语料时新、可自定义的特点。 提供下列功能: 词语相似度计算 词林编码法相似度...
simhash.zip
浏览:23
高效的文本相似度去重算法实现 simhash是什么 Google发明的的文本去重算法,适合于大批量文档的相似度计算。 流程介绍 simhash是由 Charikar 在2002年提出来的,为了便于理解尽量不使用数学公式,分为这几步: ...
二进制串模糊搜索的Java实现0.11
浏览:158
4星 · 用户满意度95%
http://blog.csdn.net/lgnlgn/archive/2010/11/14/6008498.aspx 中提到的论文中的算法部分,整个eclipse工程打包了。
二进制串模糊搜索的Java实现0.1
浏览:106
WWW07的 Detecting Near-Duplicates for Web Crawling 算法部分,eclipse工程整个打包了
ai-java-quick:学习使用java实现机器学习、深度学习或自然语言处理等等
浏览:176
使用java实现一些算法,如机器学习,深度学习,数据挖掘之类的 quick-bayes 贝叶斯 quick-text-similarity 文本相似度相关的算法 CosineSimilarity 向量空间余弦相似度 EditDistance 编辑距离 SimHash
Java第十五届蓝桥杯大赛软件JavaB组真题
浏览:190
【Java】第十五届蓝桥杯大赛软件JavaB组真题
SwitchHosts
浏览:64
切换host工具
评论
收藏
内容反馈
立即下载
资源评论
资源反馈
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~
联系上传者
评论
_执着_
粉丝: 383
资源:
44
私信
上传资源 快速赚钱
我的内容管理
展开
我的资源
快来上传第一个资源
我的收益
登录查看自己的收益
我的积分
登录查看自己的积分
我的C币
登录后查看C币余额
我的收藏
我的下载
下载帮助
前往需求广场,查看用户热搜
最新资源
Flask:轻量级Web框架的实用指南.zip
mmexport1714760787981.png
1714750046114.png
image_editor_1714763063766.jpg
芯盛美msecore小主机minipc ami bios 1165G7 雷电4接口,原生提取NeoProgrammer-2.2
微密圈子.apk
占美双千兆网口小主机5257u、5557u模具ami bios 源码提取
前言.docx的替身
美国大学生数学建模竞赛的概要介绍与分析
javascript的概要介绍与分析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功