没有合适的资源?快使用搜索试试~ 我知道了~
WebpageCorrelationEngine
共30个文件
class:13个
java:13个
txt:3个
需积分: 5 0 下载量 38 浏览量
2021-05-07
07:09:31
上传
评论
收藏 36KB ZIP 举报
温馨提示
网页关联引擎 Mohit Mishra,印度理工学院(BHU)瓦拉纳西,语言:Java 该项目/软件基本上将相似的页面聚集成一个聚类。 为此,我们使用文档聚类的概念(可在Internet上轻松获得以进行理解)。 现在的问题是,给定一堆URL,您如何分类哪一组URL彼此相似/不同。 为此,如果我们可以将URL问题“转换”为文本文档,然后应用文档聚类,那么问题就变得很容易理解。 但是,存在一个主要问题: 确保为文档文本选择了相关的内容。 噪音消除 但是,这里使用的算法根本不考虑噪声。 执行文档余弦相似度时,噪声会自动消除。 提到这一点后,余弦相似度度量用于定量确定两个文本文档(以及两个网页)之间的紧密度。 自适应K均值聚类用于对网页进行分类。 从算法/程序本身计算k的“最佳”值的意义上说,它是自适应的,而不是静态定义它并在k值的范围内进行实验。 这基于集群内距离与集群间距离的比率。
资源推荐
资源详情
资源评论
收起资源包目录
WebpageCorrelationEngine-master.zip (30个子文件)
WebpageCorrelationEngine-master
bin
Cluster.class 2KB
Vector.class 3KB
PageDocList.class 2KB
BuildFeatureVector.class 165B
DistanceMetric.class 1KB
ClusterEngine.class 156B
KMeansClustering.class 3KB
ClusterList.class 4KB
PageDoc.class 3KB
Parser.class 4KB
stop-words_english_1_en.txt 4KB
CosineSimilarity.class 507B
TF_IDF.class 3KB
CorrelationEngine.class 3KB
stop-words_english_1_en.txt 4KB
src
DistanceMetric.java 633B
Cluster.java 2KB
PageDocList.java 2KB
TF_IDF.java 3KB
ClusterEngine.java 269B
BuildFeatureVector.java 167B
CosineSimilarity.java 277B
Parser.java 4KB
KMeansClustering.java 3KB
stop-words_english_1_en.txt 4KB
Vector.java 3KB
ClusterList.java 4KB
PageDoc.java 3KB
CorrelationEngine.java 2KB
README.md 1KB
共 30 条
- 1
资源评论
Fl4me
- 粉丝: 36
- 资源: 4600
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于ARM的指令调度和延迟分支
- 基于Vue和TypeScript的极简聊天应用设计源码 - HasChat
- 基于Vue2全家桶和Zcool数据的图片收集网站设计源码 - cool-picture
- 基于C和C++的二维绘制工具设计源码 - DrawPro
- Object.defineProperty 的 IE 补丁object-defineproperty-ie-master.zip
- 整卷预览.mhtml
- MySQL是一种广泛使用的开源关系型数据库管理系统,它提供了丰富的SQL语句用于数据库的创建、查询、更新和管理 以下是一些常见的
- MySQL是一种广泛使用的开源关系型数据库管理系统,它提供了丰富的SQL语句用于数据库的创建、查询、更新和管理 以下是一些常见
- MySQL是一种广泛使用的开源关系型数据库管理系统,它提供了丰富的SQL语句用于数据库的创建、查询、更新和管理 以下是一些常见的
- 基于Javascript的结婚请帖设计源码 - Invitation
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功