没有合适的资源?快使用搜索试试~ 我知道了~
tfidf:HadoopTF-IDF算法
共30个文件
java:9个
class:9个
prefs:3个
需积分: 11 0 下载量 125 浏览量
2021-05-11
19:09:56
上传
评论
收藏 140KB ZIP 举报
温馨提示
TF-IDF(术语频率-逆文档频率),术语频率-逆文档频率(即,该术语在文档集合中出现的频率),是一种数字量度,表示单词与文档的相关性在一个集合中。 此度量通常用作信息检索和文本挖掘中的加权因子。 tf-idfa值与一个单词在文档中出现的次数成正比地增加,但是被文档集合中该单词的出现频率所抵消,从而使您可以处理一个事实,即某些单词通常比其他单词更常见。 算法tf * idf的执行:hadoop jar tfidf.jar en.mbit.tf_idf.TfIdfDriver / tmp /电影/ tmp / exitok 部分执行第一个过程:hadoop jar tfidf.jar en.mbit.tf_idf.proc1tf.WordFreqDriver / tmp /电影/ tmp / mov_result 第二个进程的部分执行:hadoop jar tfidf.jar en.m
资源推荐
资源详情
资源评论
收起资源包目录
tfidf-master.zip (30个子文件)
tfidf-master
README.md 1KB
resultados
p2.txt 11KB
tfidf.txt 10KB
p1.txt 10KB
tf_idf
.project 535B
pom.xml 1KB
target
classes
es
mbit
tf_idf
proc1tf
WordFreqReducer.class 2KB
WordFreqDriver.class 3KB
WordFreqMapper.class 3KB
proc2wc
WordCountMapper.class 2KB
WordCountReducer.class 3KB
WordCountDriver.class 2KB
TfIdfDriver.class 2KB
proc3idf
IdfDriver.class 3KB
IdfMapper.class 3KB
.settings
org.eclipse.core.resources.prefs 90B
org.eclipse.jdt.core.prefs 238B
org.eclipse.m2e.core.prefs 86B
src
main
java
es
mbit
tf_idf
proc1tf
WordFreqReducer.java 819B
WordFreqMapper.java 2KB
WordFreqDriver.java 2KB
proc2wc
WordCountDriver.java 1KB
WordCountMapper.java 2KB
WordCountReducer.java 3KB
proc3idf
IdfDriver.java 2KB
IdfMapper.java 3KB
TfIdfDriver.java 1KB
.classpath 996B
datasources
Colecciones Movies.zip 98KB
jars
tfidf.jar 12KB
共 30 条
- 1
资源评论
姜一某
- 粉丝: 28
- 资源: 4633
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功