MyGraduationProjectandpapersourcecode，本科毕业设计.zip资源-CSDN文库

共50个文件

java：34个

dic：7个

csv：3个

版权申诉

本科毕业设计

153 浏览量 2023-10-05 00:51:45 上传评论收藏 331KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

My Graduation Project and paper source code，本科毕业设计.zip （50个子文件）

Graduation Design

src

IKAnalyzer.cfg.xml 284B

fileclass

TopicDirecotry.java 163B

TextContent.java 4KB

FeatureText.java 3KB

DirectoryOperator.java 2KB

mydict.dic 14B

ext_stopword.dic 126B

operator

SimilarOperator.java 2KB

ENSDSimilar.java 8KB

SimHashSimilar.java 532B

VectorSimilar.java 5KB

FeatureTextSimilar.java 2KB

term

ENSD.java 4KB

SimHash.java 7KB

TopicDirectory.java 1KB

TermFrequencyMapTest.java 4KB

SimilarEle.java 535B

TermFrequencyEle.java 2KB

ext.dic 41B

main

TestCompareRate.java 4KB

FeatureSetJudge.java 3KB

DistToCosine.java 3KB

SimHashCompare.java 4KB

TestExperiment.java 12KB

ENSDJudge.java 3KB

META-INF

MANIFEST.MF 23B

org

wltea

analyzer

sample

timeget.java 2KB

paper.java 70KB

nickname.dic 116B

NewWord.java 17KB

others.java 6KB

IKAnalyzerDemo.class 6KB

build.xml 5KB

placename.dic 697B

paperSimilation.java 30KB

output

temp.dic 0B

dist_to_precise.py 2KB

error.dic 0B

DistToPrecise.csv 18KB

dis_report.csv 3KB

simhash_result.csv 2KB

test

org

wltea

analyzer

test

SegmentorTester.java 22KB

NumberSegmenter.java 113B

DictionaryTester.java 14KB

StandardAnalyzerTest.java 14KB

SimpleQuantifierSegmenter.java 7KB

IKTokenerTest.java 781B

CfgTester.java 378B

CharacterTest.java 1KB

simhash在文本相似的应用与效果.doc 346KB

学校编码：10384 分类号密级

学号： UDC

本科学位论文

Simhash 在文本相似领域的应用与效果

Applied Simhash on the Domian of Text Similarity

XXX

指导教师姓名：教授

专业名称：计算机科学与技术

论文提交日期：2013 年 05 月

论文答辩时间：2013 年 06 月

学位授予日期：2013 年月

答辩委员会主席：

评阅人：

2013 年 05 月

摘要

随着网页及其它文本数目的急剧增加，从大量文本中迅速地检测出近似的文

本成了研究热点。高效、准确地实现文本相似的检测，能极大地影响到信息检索、

知识产权保护、文本聚类、网页去重等领域的效果。因此，文本相似度的研究得

到了国内外众多学者的重视，成为信息检索中重要的方向之一。

计算文本相似度的方法很多，其中 SimHash 方法由于其速度上优势，成为

Google 公司使用的方法，得到了较多的关注。本文主要是研究 SimHash 的原理，

通过实验，验证 SimHash 在文本相似计算上的效果，并与其它一些相关的算法进

行比较，并根据结果的数据分析，选定 SimHash 的阈值。

关键字：信息检索文本相似 Simhash；

Abstract

The amount of web pages is numerous , how to efficiently find the

similar text has become an important topic. It has great influence on some

areas such as IR, document clustering . So this topic attracted numerous

domestic and foreign scholar’s attention and research, became the import

domain in information retrieval.

Plenty of methods for similar text had published.Among them, SimHash

was chosen by Google for their search engine ,because it has a efficient

capable.This thesis mainly focus on the principles of SimHash and its

performance. Based on a great deal of experiments and analysis of real

data, this paper will show some relationship between SimHash and other

methods , then try to choose the threshold for SimHash.

Key words：information retrieval similar text Simhash

Abstract

摘要 ..............................................................................................................................................2

Abstract ..........................................................................................................................................3

第一章引言 .................................................................................................................................1

1.1 研究背景综述 ....................................................................................................................1

1.2 文本相似技术的研究进展.................................................................................................2

1.3 本文的主要工作 ................................................................................................................3

第二章文本相似检测过程.............................................................................................................5

2.1 分词 ....................................................................................................................................5

2.1.1 分词介绍 ................................................................................................................5

2.2 特征提取 ............................................................................................................................7

2.3 相似度计算方法................................................................................................................7

2.3.1 相似度计算方法介绍..............................................................................................8

第三章 SimHash 算法 .....................................................................................................................9

3.1 SimHash 介绍......................................................................................................................9

3.2 SimHash 算法基本原理....................................................................................................10

3.3 SimHash 的实现................................................................................................................11

3.3.1 hash 函数实现.......................................................................................................11

3.3.2 生成权重向量 V ...................................................................................................12

3.3.3 生成特征指纹 fingerprint ....................................................................................13

第四章实验测试及结果分析.......................................................................................................14

4.1 实验数据集说明..............................................................................................................14

4.2 实验内容 .........................................................................................................................14

4.2.1 相似判断的准确性实验.......................................................................................14

4.2.2 bits、k 值与 precision-recall 实验 ........................................................................16

4.2.3 Hamming 距离与集合相似度实验 .......................................................................17

4.2.3 时间测试 ..............................................................................................................20

第五章总结和展望 ......................................................................................................................22

致谢 ................................................................................................................................................23

第一章引言

1.1 研究背景综述

计算机作为纸张、印刷术后又一个革命性的技术成果，推动了人类科技全面

的发展。而互联网的出现和普及，更是彻底改变了人们的生活方式，增强了人们

获取信息的能力。

据《第 31 次中国互联网络发展状况调查统计报告》[1]指出，截至 2012 年

12 月底，我国网民规模达到 5.64 亿，全年共计新增网民 5090 万人。互联网普

及率为 42.1%，较 2011 年底提升 3.8%。79.4%的网民经常使用搜索引擎获取信息，

71.5%经常浏览网络新闻。互联网为人类知识的传播提供了极大的方便。

然而互联网规模的急剧扩大，人们面临的不再是信息缺失的问题，而是信息

过载及信息检索，如何从互联网上检索自己需求的信息。而随着大数据的热度逐

渐升级，人们越来越关注如何从海量的数据中更高效地获取信息。

影响人们获取信息的因素有很多。比如搜索引擎的精确理解问题，比如，搜

索引擎会返回大量重复或相似的网页，浪费读者大量的时间。《第 16 次中国互

联网络发展状况调查统计报告》[2]显示，44.6%的被调查网民反映：“重复信息

太多”是“在互联网上查询信息时遇到的最大问题”。

1996 年，Broder 等人在对 AltaVista 搜集到的 30,000,000 个网页进行实验

得出结论[3]：有近 18％的网页是完全相同的。有 41％的网页是具有 50％的相似

性。Stanford 的 Cho 等人在 1999 年利用 Google 搜索到的 25,000,000 个网页的

数据集统计得出约 48％的网页是重复的[4]。

通过分析，可以将近似网页根据性质分为以下几种：

1) 完全重复。例如 FAQ、RFC、法律文件、热门网站的镜像站点等等。

2) 部分重复，即近似镜像的网页。这些网页内容不完全相同，但是通过分

析，可以明显发现相似、相近。例如，相同的文档可能在网上存在不同格式的版

本。这些网页也有可能是内容部分重复的网页。例如未更新的文档。这些近似镜

像的网页正是本文研究的重点和难点。例如抄袭其他网页的文章。

近似网页的存在已经成为了一个很严重的问题。它所带来的代价就是

评论收藏

内容反馈

版权申诉

学术菜鸟小晨

粉丝: 1w+
资源: 4938

My Graduation Project and paper source code， 本科毕业设计.zip

This is my graduation project. 这是我的本科毕业设计项目。.zip

graduation_project.zip

admin__graduation_project.zip

毕业设计数据库源码-Graduation-Project:毕设相关数据及代码

基于机器学习的新闻标题分类系统源码+文本数据+sql数据库(本科毕设项目).zip

Graduation Project Management System. - 毕业设计管理系统.zip

毕业设计管理系统——An Graduation Project Management System.zip

精品--毕业设计管理系统——An Graduation Project Management System.zip

ExcaliburEX-Graduation-Design-and-MATLAB-Code.zip

python-graduation-project-master.zip

Graduation-Design-Management-System-master.zip

Graduation_App.zip

Java-graduation-design-.zip_Soft!_毕业设计_聊天室

JSP的个人博客系统的设计源码+毕业论文.zip

Android毕业设计; Android, Music Player, for graduation.zip

数独游戏的设计与开发毕业设计.doc

毕业设计-Graduation-Design.zip

毕业设计管理系统-graduation.zip

这是本人的毕业设计项目，是一套前后端分离的电子商务系统。采用Springb-graduation-project.zip

graduation-master.zip

基于SpringBoot+Hadoop+Vue开发的企业级网盘分布式系统源码+项目说明（本科毕设）.zip

毕业设计：基于SSM框架+Layuimini前端模板开发的酒店管理系统.zip

安卓期末大作业（AndroidStudio开发），垃圾分类助手app，分为前台后台，代码有注释，均能正常运行

Notepad++安装包

SwitchHosts

微信小程序源码-合集1.rar

ruoyi-vue-pro开发指南PDF下载

2024北森能力测评题库.7z

jdk-11-windows-x64.zip

最新资源

My Graduation Project and paper source code，本科毕业设计.zip