2017/11/22 Spark应用HanLP对中文语料进行文本挖掘--聚类 - CSDN博客
http://blog.csdn.net/fansy1990/article/details/77577061?locationNum=9&fps=1 1/10
原创 2017年08月25日 17:41:43
标签:spark (http://so.csdn.net/so/search/s.do?q=spark&t=blog) /
中文文本挖掘 (http://so.csdn.net/so/search/s.do?q=中文文本挖掘&t=blog) /
TF-IDF (http://so.csdn.net/so/search/s.do?q=TF-IDF&t=blog) /
HanPL (http://so.csdn.net/so/search/s.do?q=HanPL&t=blog) /
文本聚类 (http://so.csdn.net/so/search/s.do?q=文本聚类&t=blog)
771
Spark应用HanLP对中文语料进行文本挖掘--聚类
软件:IDEA2014、Maven、HanLP、JDK;
用到的知识:HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition;
用到的数据集:http://www.threedweb.cn/thread-1288-1-1.html(不需要下载,已经包含在工程里
面);
工程下载:https://github.com/fansy1990/hanlp-test (https://github.com/fansy1990/hanlp-test) 。
1. 问题描述
现在有一个中文文本数据集,这个数据集已经对其中的文本做了分类,如下:
其中每个文件夹中含有个数不等的文件,比如环境有200个,艺术有248个;同时,每个文件的内容基本上
就是一些新闻报道或者中文描述,如下:
他的最新文章
更多文章 (http://blog.csdn.net/fansy1990)
Java Web提交任务到Spark Standalo
ne集群并监控 (http://blog.csdn.net/f
ansy1990/article/details/78551986)
TensorFlowOnSpark stuck (http://bl
og.csdn.net/fansy1990/article/detail
s/78402457)
Centos6安装TensorFlow及TensorFlo
wOnSpark (http://blog.csdn.net/fan
sy1990/article/details/78370648)
0
mahout算法源码分析
(http://blog.csdn.net/column/details/fansy-
dis.html)
35351
mahout算法源码分析
(http://blog.csdn.net/column/details/fansy1990.html)
0
JavaWeb invoke Spark
(http://blog.csdn.net/column/details/18060.html)
在线课程
fansy1990 (http://blog.…
+关注
原创
264
粉丝
1307
喜欢
1
码云
未开通
(https://gitee.com?
utm_source=csdn_blog)
博主专栏
立即体
验
CSDN新首页上线啦,邀请你来立即体验! (http://blog.csdn.net/)
(http://www.csdn.net?ref=toolbar)
博客 (http://blog.csdn.net/?ref=toolbar) 学院 (http://edu.csdn.net?ref=toolbar)
下载 (http://download.csdn.net?ref=toolbar) 更多
(http://write.blog.csdn.net/postedit?
ref=toolbar)
(http://gitbook.cn/new/gitchat/activity?
utm_source=csdnblog1)
登录 (https://passport.csdn.net/account/login?ref=toolbar) 注册 (http://passport.csdn.net/account/mobileregister?ref=toolbar&action=mobileRegister)
(http://blog.csdn.net/fansy1990)
(http://blog.csdn.net/column/details/fansy-
dis.html)
0
(http://blog.csdn.net/column/details/fansy1990.html)
8
(http://blog.csdn.net/column/details/18060.html)
0
(http://edu.csdn.net/huiyiCourse/series_detail/72?
utm_source=blog9)
白鹭引擎在
WebAssembly中的实践
(http://edu.csdn.net/hu
iyiCourse/series_detail/
72?utm_source=blog9)
讲师:
(http://edu.csdn.net/huiyiCourse/detail/602?
utm_source=blog9)
Apache Weex:移动研
发的进阶之路
(http://edu.csdn.net/hu
iyiCourse/detail/602?
utm_source=blog9)
讲师:董岩