没有合适的资源?快使用搜索试试~ 我知道了~
Chihiro:千寻搜索
共1826个文件
json:1735个
py:23个
pyc:15个
需积分: 16 1 下载量 149 浏览量
2021-05-14
06:33:08
上传
评论
收藏 2.72MB ZIP 举报
温馨提示
"千寻" 搜索 上图为一个搜索引擎的框架图。首先爬虫程序从特定的几个新闻网站抓取新闻数据,然后过滤网页中的图片、视频、广告等无关元素,抽取新闻的主体内容,得到结构化的xml数据。然后一方面使用内存式单遍扫描索引构建方法(SPIMI)构建倒排索引,供检索模型使用;另一方面根据向量空间模型计算两两新闻之间的余弦相似度,供推荐模块使用。最后利用概率检索模型中的BM25公式计算给定关键词下的文档相关性评分,根据评分给出排序结果。本实验根据此框架图构建搜索引擎项目。 1.1 网络爬虫 网络爬虫[1](英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。 网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引供用户搜索。 大型网站几乎都有反爬虫策略
资源推荐
资源详情
资源评论
收起资源包目录
Chihiro:千寻搜索 (1826个子文件)
style.css 133KB
bootstrap.min.css 118KB
buttons.css 79KB
animate.css 64KB
font-awesome.min.css 33KB
navStyle.css 24KB
search.css 3KB
first-page.css 2KB
categoryChoose.css 1KB
index.css 770B
Chihiro.db 584KB
glyphicons-halflings-regular.eot 20KB
index.html 3KB
search.html 3KB
first-page.html 2KB
Chihiro.iml 1KB
config.ini 265B
jquery-3.3.1.js 265KB
vue.js 263KB
jquery-3.2.1.js 262KB
jquery.min.js 82KB
bootstrap.min.js 36KB
pace.min.js 15KB
contabs.js 12KB
search.js 7KB
hplus.js 7KB
jquery.slimscroll.min.js 5KB
jquery.metisMenu.js 4KB
jquery.cookie.js 3KB
categoryChoose.js 627B
first-page.js 199B
131.json 5KB
2145.json 4KB
110.json 4KB
2153.json 3KB
2122.json 3KB
2110.json 3KB
19227.json 3KB
29727.json 3KB
10527.json 3KB
29517.json 3KB
25287.json 3KB
27387.json 3KB
27417.json 3KB
25227.json 3KB
10587.json 3KB
27627.json 3KB
16887.json 3KB
14727.json 3KB
12627.json 3KB
21057.json 3KB
29427.json 3KB
25257.json 3KB
12687.json 3KB
6357.json 3KB
6387.json 3KB
2161.json 3KB
136.json 3KB
55.json 3KB
4207.json 3KB
4539.json 3KB
27447.json 3KB
29547.json 3KB
4202.json 3KB
2136.json 3KB
4520.json 3KB
5.json 3KB
16886.json 3KB
29726.json 3KB
12686.json 3KB
10526.json 3KB
27386.json 3KB
25256.json 3KB
19226.json 3KB
12626.json 3KB
29426.json 3KB
10586.json 3KB
25226.json 3KB
27626.json 3KB
29516.json 3KB
21056.json 3KB
27416.json 3KB
25286.json 3KB
14726.json 3KB
6386.json 3KB
6356.json 3KB
27419.json 3KB
14729.json 3KB
10589.json 3KB
12689.json 3KB
25259.json 3KB
25289.json 3KB
21059.json 3KB
12629.json 3KB
27389.json 3KB
25229.json 3KB
10529.json 3KB
29729.json 3KB
29519.json 3KB
16889.json 3KB
共 1826 条
- 1
- 2
- 3
- 4
- 5
- 6
- 19
资源评论
清净平常心
- 粉丝: 38
- 资源: 4671
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 数据来源于Kaggle,文件名为 cwurData.csv -预测大学得分
- 【java毕业设计】大学生户外运动管理系统源码(完整前后端+说明文档+LW).zip
- 编译原理-LR(1)语法分析器-C语言实验
- Web前端大作业 在线电影主题网站10页 HTML+CSS 带设计说明报告
- Web应用渗透测试信息收集器.zip
- 操作系统-模拟进程调度(时间片轮转调度算法,高优先级调度算法)C语言实现-实验报告
- C#ASP.NET教务系统框架源码 ASP.NET Extjs框架源码数据库 SQL2008源码类型 WebForm
- 操作系统-模拟进程的调度(时间片轮转算法,高优先级调度算法)C实现
- WEB 渗透测试.zip
- Web 渗透工具集.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功