没有合适的资源?快使用搜索试试~ 我知道了~
WikiSearchMachine:Python 中的维基百科转储搜索引擎
共28个文件
py:7个
txt:5个
sh:3个
需积分: 9 0 下载量 153 浏览量
2021-06-23
10:01:04
上传
评论
收藏 185KB ZIP 举报
温馨提示
维基搜索机 Python 中的维基百科转储搜索引擎 为 IIIT-H 2015 年Spring信息检索和提取课程编写 概括 Wiki Parser 使用python 的SAX 解析器来解析Wiki 标记的标签。 Parser.py 将被执行以进行解析和索引。 Tokenizer 和 Stemmer (PorterStemmer) 来自 ntlk,必须安装。 标题、文本、信息框、类别是大小写折叠、标记化、词干化和索引的。 搜索查询可以是常规词,也可以是字段查询,如 t:lord b:rings 。 Searcher.py 是主要的搜索文件 run_index.sh 和 run.sh 分别包含 Parser.py 和 Searcher.py 执行命令 给定的问题 给定的问题是使用维基百科数据设计和开发可扩展且高效的搜索引擎。 要求: ~50 GB 维基百科数据(下载的压缩文件为 ~11GB)
资源推荐
资源详情
资源评论
收起资源包目录
WikiSearchMachine-master.zip (28个子文件)
WikiSearchMachine-master
.gitignore 5B
install.sh 92B
src
QueryHandler.py 2KB
Indexer.py 14KB
WikiSAXHandler.py 11KB
stopwords.txt 3KB
TokenStemmer.py 2KB
Parser.py 3KB
StopWords.py 784B
Searcher.py 11KB
testQueryEvaluation.txt 120B
README.md 5KB
run.sh 47B
Index
sampleXML
output.tmp 4KB
output.titles 21B
output.tmp0 4KB
output.indexWordMap 4B
output.index0.bz2 896B
output.parser.done 798B
run.bat 52B
testQuery.txt 16B
sampleXML.xml 889KB
testQuery2.txt 11B
run_indexer.bat 69B
sampleOne.xml 6KB
run_indexer.sh 66B
install.bat 32B
testQueryOld.txt 50B
共 28 条
- 1
资源评论
张A裕
- 粉丝: 17
- 资源: 4759
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功