# Information_retrieva_Projectl-
新闻检索:定向采集3-4个网页,实现网页信息的抽取、检索和索引。网页个数不少于10个,能按时间、相关度、热度等属性进行排序,并实现相似主题的自动聚类。要求有:有相关搜索推荐、snippet生成、结果预览(鼠标移到相关结果, 能预览)功能
#依赖项
scrapy 安装方法:pip install Scrapy
webpy 安装方法:sudo easy_install web.py 官方网站:http://webpy.org/
jieba 安装方法:pip install jieba 官方网站:https://pypi.python.org/pypi/jieba
数据10万条网易新闻网页、倒排索引等数据 baidu网盘http://pan.baidu.com/s/1gfkDb4B
下载后,将data文件夹放在Information_retrieva_Projectl-目录下即可
#使用方法:
交互式查询:linux下cd 至web/ 文件夹下
终端下键入python main.py
浏览器中打开:http://0.0.0.0:8080/
#参考文献:
1.scrapy手册 http://scrapy-chs.readthedocs.org/zh_CN/1.0/intro/tutorial.html
2.webpy 手册 http://webpy.org/
#运行效果
![image](https://github.com/Google1234/Information_retrieva_Projectl-/raw/master/screenshot/2016-05-29%2020_10_07____________.png)
![image](https://github.com/Google1234/Information_retrieva_Projectl-/raw/master/screenshot/2016-05-29%2020_40_30____________.png)
![image](https://github.com/Google1234/Information_retrieva_Projectl-/raw/master/screenshot/2016-05-29%20011426%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE.png)
![image](https://github.com/Google1234/Information_retrieva_Projectl-/raw/master/screenshot/2016-05-29%2015_59_57____________.png)
![image](https://github.com/Google1234/Information_retrieva_Projectl-/raw/master/screenshot/2016-05-29%20011426%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE.png)
!!!更多技术细节、学习资料请查看report文件。
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
项目工程资源经过严格测试可直接运行成功且功能正常的情况才上传,可轻松copy复刻,拿到资料包后可轻松复现出一样的项目,本人系统开发经验充足,有任何使用问题欢迎随时与我联系,我会及时为你解惑,提供帮助 【资源内容】:项目具体内容可查看下方的资源详情,包含完整源码+工程文件+说明(若有)等 【附带帮助】:若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步 【本人专注计算机领域】:有任何使用问题欢迎随时与我联系,我会及时解答,第一时间为你提供帮助,CSDN博客端可私信,为你解惑,欢迎交流 【适合场景】:相关项目设计中,皆可应用在项目开发、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面中 可借鉴此优质项目实现复刻,也可以基于此项目进行扩展来开发出更多功能 #注 1. 本资源仅用于开源学习和技术交流。不可商用等,一切后果由使用者承担 2. 部分字体及插图等来自网络,若是侵权请联系删除,本人不对所涉及的版权问题或内容负法律责任。收取的费用仅用于收集和整理资料耗费时问的酬劳
资源推荐
资源详情
资源评论
收起资源包目录
新闻检索:爬虫定向采集3-4个网页,实现网页信息的抽取、检索和索引。网页个数不少于10个,能按时间、相关度、热度等属性进行排序,并实现相似主题的自动聚类。可以实现:有相关搜索推荐、snippet生成、结果预览(鼠标移到相关结果, 能预览)功能 .zip (40个子文件)
DSWY
report.pdf 5.56MB
main.py 2KB
similar_doc.py 12KB
screenshot
2016-05-29 011426屏幕截图.png 268KB
2016-05-29 20_40_30____________.png 73KB
2016-05-29 20_10_07____________.png 15KB
2016-05-29 16_00_35____________.png 241KB
2016-05-29 15_59_57____________.png 210KB
data
test.txt~ 0B
stopword.txt 8KB
LICENSE 1KB
word2Vec
__init__.py 0B
word2vec.py 649B
distance.o 14KB
distance.c 5KB
scrapy.cfg 254B
Dictionary.py 9KB
web
main.py 4KB
templates
index.html 2KB
news.html 1KB
.idea
vcs.xml 180B
workspace.xml 41KB
misc.xml 208B
modules.xml 312B
codeStyleSettings.xml 270B
Information_retrieva_Projectl-.iml 398B
News_Recommend.py 12KB
merge_inverted_files.py 7KB
crawl
__init__.py 0B
pipelines.py 506B
scrapy.cfg 260B
spiders
__init__.py 161B
toutiao_spider.py 2KB
netease_spider.py 4KB
items.py 699B
settings.py 3KB
.gitignore 929B
README.md 2KB
inverted_files.py 8KB
config.py 2KB
共 40 条
- 1
资源评论
热爱技术。
- 粉丝: 2950
- 资源: 7864
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 仙岭小学结构建模revit
- 第6章习题参考答案.zip
- BeautifyAPP的产品设计(论文+源码)_kaic.zip
- 俄罗斯方块游戏系统的设计与实现(源码+论文)_kaic.zip
- 仓库管理系统的设计与实现(论文+源码)_kaic.zip
- 基于BC模式的电商平台的设计与实现(论文+源码)_kaic.zip
- 基于C#的超市收银管理系统设计与实现(论文+源码)_kaic.zip
- 妇幼保健信息管理系统设计(论文+源码)_kaic.zip
- 基于Java技术的养生知识管理系统设计与实现(论文+源码)_kaic.zip
- 基于springboot框架的高校就业管理系统设计与实现(论文+源码)_kaic.zip
- 基于web的电影购票管理系统的设计与实现(论文+源码)_kaic.zip
- ssm149学生成绩管理系统+vue.rar
- 深度报告:CPU研究框架.pdf
- Freertos-freertos
- BootstrapAdmin-c#
- XTools-idea
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功