没有合适的资源?快使用搜索试试~ 我知道了~
Hadoop-KMeans:HadoopMapReduce范式中的KMeans集群
共14个文件
java:6个
py:2个
jar:2个
需积分: 12 0 下载量 13 浏览量
2021-05-12
19:28:24
上传
评论
收藏 37KB ZIP 举报
温馨提示
指示: 步骤1:启动python脚本以对书进行索引,将创建一个文件GutenbergBook.csv-python create_doc_index.py book,其中book是包含所有包含txt文件的目录'etextXY'的目录。 请注意,我已经手动处理了这些目录以删除所有非txt文件。 该目录大约为450M,因此我尚未将其附加到作业中。 您可以跳过此步骤,因为我是在家中生成文件GutenbergBook.csv并将其放入此目录的。 步骤2:使用python脚本规范化每个文档的tfidf,将创建一个文件GutenbergBookNorm.csv-python euclidian_normalizer.py 第三步:将标准化文件GutenbergBook.csv复制到hdfs-hadoop fs -mkdir inputKmeans-hadoop fs -copyFromLocal
资源推荐
资源详情
资源评论
收起资源包目录
Hadoop-KMeans-master.zip (14个子文件)
Hadoop-KMeans-master
java_src
ReducerRandom.java 1KB
KMeans.java 6KB
MapperClosestCenter.java 3KB
ReducerClusterVisualization.java 789B
MapperRandom.java 902B
ReducerCentroid.java 2KB
create_doc_index.py 5KB
KMeansMain.jar 10KB
KMeans.jar 10KB
euclidian_normalizer.py 2KB
README.md 3KB
result_clusters
part-r-00000_k=20 7KB
part-r-00000_k=10 7KB
part-r-00000_k=50 7KB
共 14 条
- 1
资源评论
鈤TiAmo
- 粉丝: 20
- 资源: 4695
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功