没有合适的资源?快使用搜索试试~ 我知道了~
lang:项目利用开源语言检测和 Carrot2 聚类库以 2 pass 的方式实现文档聚类。 第一遍一次对小批量(5000 个...
共121个文件
java:16个
th:2个
sv:2个
需积分: 10 0 下载量 141 浏览量
2021-06-02
19:56:05
上传
评论
收藏 2.18MB ZIP 举报
温馨提示
项目时间 2015 年 2 月至 5 月 ######细节 项目利用开源语言检测和 Carrot2 聚类库以 2 pass 的方式实现文档聚类。 第一遍一次对小批量(5000 个文档)进行聚类,第二遍只使用聚类标签并将那些有效地创建 2 组聚类桶的标签聚类。 在聚类模块之前,语言检测模块确保如果检测到的语言具有超过 x%(在这种情况下 x 为 95)的置信度,则将其设为集合中文档的语言。 必须这样做,因为许多传入的英语新闻包含垃圾邮件或其他语言的相关内容。 然后将杂乱的桶写入文件,该文件由 Javascript 调用以进行可视化,以深入了解趋势演变、集群的相对大小和时间顺序信息 运行前:请注意,此处的输入是从 NoSQL Mongo 数据库中获取的,其确切字段和值已在 MongoClass 中被有意混淆,请进行您自己的相关初始化或使用另一个输入流来提供由 getDocsOfEng() 指定
资源推荐
资源详情
资源评论
收起资源包目录
lang:项目利用开源语言检测和 Carrot2 聚类库以 2 pass 的方式实现文档聚类。 第一遍一次对小批量(5000 个文档)进行聚类,第二遍只使用聚类标签并将那些有效地创建 2 组聚类桶的标签聚类。 在聚类模块之前,语言检测模块确保如果检测到的语言具有超过 x%(在这种情况下 x 为 95)的置信度,则将其设为集合中文档的语言。 必须这样做,因为许多传入的英语新闻包含垃圾邮件或其他语言的相关内容。 然后将杂乱的桶写入文件,该文件由 Javascript 调用以进行可视化,以深入了解趋势演变、集群 (121个子文件)
af 21KB
ar 119KB
ar 34KB
bg 69KB
bg 33KB
bn 115KB
bn 40KB
ca 63KB
cs 74KB
cs 32KB
da 49KB
da 25KB
de 62KB
de 27KB
el 85KB
el 34KB
en 52KB
en 27KB
es 51KB
es 25KB
et 69KB
et 44KB
fa 75KB
fa 28KB
fi 47KB
fi 25KB
fr 51KB
fr 26KB
.gitignore 802B
gu 81KB
gu 21KB
he 71KB
he 35KB
hi 106KB
hi 35KB
hr 64KB
hr 25KB
hu 88KB
hu 31KB
id 59KB
id 21KB
it 44KB
it 22KB
ja 84KB
ja 25KB
Detector.java 14KB
Command.java 11KB
DetectorFactory.java 7KB
ClusterText.java 6KB
App.java 5KB
GenProfile.java 4KB
MongoClass.java 3KB
LangDetection.java 3KB
LanguageGroups.java 1KB
LangDetectException.java 739B
AppTest.java 642B
Language.java 596B
LanguageTest.java 547B
ClusterLabelCount.java 493B
DocProperty.java 387B
EnglishNotFoundException.java 326B
kn 39KB
ko 300KB
ko 8KB
lt 72KB
lt 66KB
lv 73KB
lv 71KB
README.md 2KB
mk 63KB
mk 29KB
ml 111KB
ml 39KB
mr 36KB
ne 33KB
nl 49KB
nl 24KB
no 50KB
no 25KB
pa 69KB
pa 29KB
pl 62KB
pl 30KB
jate.properties 1KB
log4j.properties 801B
pt 51KB
pt 24KB
ro 61KB
ro 46KB
ru 74KB
ru 37KB
si 113KB
sk 30KB
sl 63KB
so 16KB
sq 54KB
sq 23KB
sv 60KB
sv 27KB
sw 17KB
共 121 条
- 1
- 2
资源评论
靳骁曈
- 粉丝: 24
- 资源: 4680
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 离线OCR(此软件解压后双击即可运行, 免费)
- 公开整理-上市公司员工学历及工资数据(1999-2023年).xlsx
- 公开整理-上市公司员工学历及工资数据集(1999-2023年).dta
- GDAL-3.4.3-cp38-cp38-win-amd64.whl(GDAL轮子-免编译pip直接装,下载即用)
- 基于Java实现WIFI探针的商业大数据分析技术
- 抖音5.6版本、抖音短视频5.6版、抖音iOS5.6版、抖音ipa包5.6
- 图像处理领域、QT技术、架构,可直接借鉴
- 【源码+数据库】基于Spring Boot+Mybatis+Thymeleaf实现的宠物医院管理系统
- H5漂流瓶交友源码 社交漂流瓶H5源码+对接Z支付+视频教程
- 华为ICT大赛云赛道真题资源库.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功