本程序的目的是创建倒排索引
==================================
主程序是IndexCreator.java文件
###jar
主要是分词程序的jar包
###src
* IndexOperation.Json2Docs 将Json文件读取新闻内容,存储在txt文档中
* Split2Words 将docs文档,即切词过程
* CreateIndex 创建倒排索引
* CreateTfidf 计算tf-idf权重
可以分别运行,也可以直接运行。
###data
数据分别存储在data文件夹下,docs,json2,words,index.txt,tf_idf.txt等文件中
由于10W篇新闻文件过大,只保存10篇样本文档;index.txt大约41M,移动到SearchEngine目录下
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
数据 用sportNewsSpider定向爬取的3-4体育新闻网站的10W篇体育新闻 倒排索引程序,Index 运行IndexCreator.java,将对data目录下的文档进行格式转换、切词、创建倒排索引、计算词项的tfidf值,并将倒排索引保存到data/index.txt,tfidf数据保存到data/tfidf_index.txt文本中。
资源推荐
资源详情
资源评论
收起资源包目录
人工智能-项目实践-搜索引擎-信息检索,简单搜索引擎原型程序 (156个子文件)
scrapy.cfg 254B
Parse.class 9KB
APcluster.class 6KB
DocSimilarity.class 5KB
JsonUtil.class 2KB
StopSet.class 2KB
AutoAbstract.class 2KB
Segment.class 2KB
DocSimilarity$1.class 1KB
Parse$2.class 1KB
Document.class 1KB
CollatorComparator.class 930B
JsonObject.class 694B
Parse$1.class 684B
.classpath 2KB
org.eclipse.wst.common.component 465B
org.eclipse.wst.jsdt.ui.superType.container 49B
Zzk.css 4KB
ext.dic 8KB
ext.dic 8KB
ext.dic 8KB
stopword.dic 132B
stopword.dic 132B
stopword.dic 132B
News.gif 26KB
homeLogo.gif 6KB
logo.gif 5KB
o_ico.gif 393B
rss.gif 364B
help.gif 350B
tab_close.gif 94B
tab_open.gif 90B
ucas2.ico 17KB
ucas1.ico 4KB
lucene-core-3.5.0.jar 1.4MB
IKAnalyzer2012.jar 1.12MB
je-analysis-1.5.1.jar 871KB
lucene-core-2.4.0.jar 800KB
lucene-core-2.3.0.jar 649KB
commons-collections-3.2.jar 558KB
commons-lang-2.4.jar 256KB
commons-beanutils-1.7.0.jar 184KB
jdom.jar 149KB
json-lib-2.2.2-jdk15.jar 141KB
ezmorph-1.0.4.jar 84KB
lucene-demos-2.4.0.jar 55KB
commons-logging-1.1.jar 52KB
Parse.java 9KB
IndexCreator.java 7KB
APcluster.java 5KB
DocSimilarity.java 5KB
DocSimilarity.java 5KB
IKAnalzyerDemo.java 5KB
APcluster.java 5KB
IndexOperation.java 3KB
DataProcess.java 3KB
AutoAbstract.java 3KB
ReadAndWrite.java 2KB
StopSet.java 1KB
JsonUtil.java 1KB
JsonUtil.java 1KB
Segment.java 1KB
AutoAbstract.java 1KB
Test.java 571B
CollatorComparator.java 442B
JsonObject.java 424B
Document.java 409B
JsonObject.java 364B
Nimeia.java 95B
RentRoom.jpg 28KB
IssueRoom.jpg 27KB
zzkResult.jpg 23KB
zzk.jpg 8KB
.jsdtscope 488B
2.json 6KB
2.json 6KB
10.json 5KB
10.json 5KB
5.json 4KB
5.json 4KB
6.json 4KB
6.json 4KB
8.json 3KB
8.json 3KB
7.json 3KB
7.json 3KB
9.json 3KB
9.json 3KB
4.json 2KB
4.json 2KB
1.json 2KB
1.json 2KB
3.json 2KB
3.json 2KB
index.jsp 8KB
README.md 492B
README.md 101B
MANIFEST.MF 36B
.mymetadata 302B
org.eclipse.wst.jsdt.ui.superType.name 6B
共 156 条
- 1
- 2
资源评论
- sqmh6662024-05-20资源内容详细,总结地很全面,与描述的内容一致,对我启发很大,学习了。
博士僧小星
- 粉丝: 1936
- 资源: 5894
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 安装及环境配置UMCM-2023C-ma笔记
- (完整)数据库课程设计餐厅点餐说明书-21ab6d3c8beb172ded630b1c59eef8c75ebf952c.doc
- 2023-04-06-项目笔记 - 第一百五十四阶段 - 4.4.2.152全局变量的作用域-152 -2024.06.04
- 松哥解协议松哥解协议松哥解协议松哥解协议松哥解协议
- 618节日618节日618节日
- tensorflow-gpu-2.9.1-cp37-cp37m-win-amd64.whl
- tensorflow-gpu-2.9.0-cp37-cp37m-win-amd64.whl
- tensorflow-gpu-2.9.0-cp39-cp39-win-amd64.whl
- lcd daimalcd daima
- 电影领域-推荐算法-个性化内容-观影决策-电影推荐小程序.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功