jar包已包含在项目中!!路径:
WordCount_Chinese\out\artifacts\TopNWordCount_Chinese_jar\WordCount_Chinese.jar --TopN中文词频统计
WordCount_Chinese\out\artifacts\WordCount_Chinese_jar\WordCount_Chinese.jar --中文词频统计
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
1. 背景描述 最近在重新学习MapReduce框架,为之后学习Spark计算框架打下基础;想到之前实现过一个WordCount,借着大数据技术这门课的机会,在此项目中实现TopN中文词频统计。 划重点! 使用MapReduce框架实现(Spark我还不会 ) 区别于普通的单词计数,本次实现的是中文汉字计数(要使用分词器) 区别于单纯的统计词数,本项目实现的是求汉字词频的TopN 2. 实验过程 MapReduce实现英文词频统计 使用中文分词工具实现中文词频统计 实现TopN中文词频统计。 由于三个实验难度层层递进,故本文只对MapReduce实现TopN中文词频统计做重点阐述。但是后续会把三个项目的实现都打包发上来,感兴趣的家人可以自行下载参考。 思路: 求TopN中文词频与单纯统计中文词频的区别主要是在reduce阶段,因为map阶段主要任务是处理输入文本,执行词频统计操作,而reduce阶段用于将相同单词的词频进行累加,并且执行TopN词频统计和将结果写入到输出文件的功能。 ————————————————
资源推荐
资源详情
资源评论
收起资源包目录
TopNWordCount_Chinese.zip (39个子文件)
pom.xml 1KB
src
test
java
main
resources
META-INF
MANIFEST.MF 61B
java
WordCountReducer.java 630B
WordCountMapper.java 2KB
TopNWordCount
TopNMapper.java 1KB
TopNReducer.java 2KB
WordFrequencyPair.java 1KB
TopNMain.java 1KB
WordCountMain.java 2KB
org
example
Main.java 138B
out
artifacts
TopNWordCount_Chinese_jar
WordCount_Chinese.jar 62.5MB
WordCount_Chinese_jar
WordCount_Chinese.jar 62.48MB
README.txt 247B
.idea
jarRepositories.xml 864B
uiDesigner.xml 9KB
artifacts
TopNWordCount_Chinese_jar.xml 17KB
WordCount_Chinese_jar.xml 17KB
workspace.xml 3KB
misc.xml 541B
compiler.xml 550B
.gitignore 190B
encodings.xml 267B
IKAnalyzer2012_u6.jar 1.11MB
target
classes
WordCountReducer.class 2KB
TopNWordCount
TopNMain.class 2KB
TopNMapper.class 3KB
WordFrequencyPair.class 2KB
TopNReducer.class 4KB
WordCountMain.class 2KB
WordCountMapper.class 3KB
META-INF
MANIFEST.MF 61B
org
example
Main.class 540B
WordCount_Chinese-1.0-SNAPSHOT.jar 5KB
test-classes
maven-status
maven-compiler-plugin
compile
default-compile
createdFiles.lst 88B
inputFiles.lst 540B
testCompile
default-testCompile
createdFiles.lst 0B
inputFiles.lst 0B
maven-archiver
pom.properties 73B
generated-test-sources
test-annotations
generated-sources
annotations
.gitignore 490B
共 39 条
- 1
资源评论
蹒跚者_Stan
- 粉丝: 2055
- 资源: 5
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功