没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
计算机科学与技术专业本科生论文内容模
板
数据采集(模板)
几点说明:
1.此模板适用于数据采集的设计。
2.设计目的是为规范论文编写,使学生明确论文内容基本要求。
3.论文的目录只是个基本的框架,不同的项目可能会有所变动(或增加
或减少),请 80%以上保持本模板的限制;
4.本模板的格式是采用教务处下发的 2021 年 2 月 27 版撰写规范编写。
将来具体论文格式要求可参照本届学校给定的排版格式;
5.因为本人的能力有限,不足之处在所难免,望能提出宝贵意见。
计算机科学与技术教研室
2021 年 4 月 5 日
毕业论文(设计)
【论文题目】
姓 名:【姓名】
学 号:【学号】
学院(系):【学院】
专 业:【专业】
年 级:【年级】
指导教师:【指导教师】
职 称:【指导教师职称】
年 月 日
黑龙江工商学院
毕业论文(设计)诚信声明
本人郑重声明:所呈交的本科毕业论文(设计)是本人在指
导老师的指导下所取得的成果,成果不存在知识产权争议。除文
中已经注明引用的内容外,本毕业论文(设计)不含任何其他个
人或集体已经发表或撰写过的作品成果。对本文的研究做出重要
贡献的个人和集体在文中均作了明确的说明并表示了谢意。本人
完全意识到本声明的法律结果由本人承担。
毕业论文(设计)作者签名:
年 月 日
黑龙江工商学院本科毕业设计
I
摘 要
随着互联网的飞速发展,web 已经成为人们主要的检索,和发布的主要
平台,在海量的数据中如何快速,准确的找到用户所需要的信息成为人们当
前所需求的,而网络爬虫就是为了满足这一需要而产生的研究领域。在现实
中我们的资源是有限的,如何在有限的资源中区分我们每个人不同的需求,
有的想听歌,有的想看电影,而有的是工作需要的机密文件,不想让别人看,
只能自己看等等一系列这样的问题,他能保护每个人的隐私以及满足不同人
的需求,因此,分不同用户区分爬取内容还是有研究必要的。
在检索信息和搜集信息中实现 web 信息展示,核心在于设计网络爬虫模
块,主要是全文搜索引擎模块。本文主要设计了全文搜索并实现页面搜集器
的详细介绍,该工作流程影响到核心算法和数据的存储,克服了该技术难点,
实现良好的实际运行和良好的效果,进一步改进引擎效果。
本网站基于 B/S 模式对该爬虫网站进行设计,并要求爬取的操作简单,
多用户数据鲜明,开发一个爬虫网站实现对多用户管理,数据分层管理,并
且把数据存储到指定的数据库中。区分出重复的网页,解决去重问题;加上
主题的相关性;更快速的抓取数据;存储数据;实现数据可视化。
关键词:数据采集;数据可视化;Scrapy 框架
黑龙江工商学院本科毕业设计
II
Abstract
With the rapid development of the Internet, the web has become the main
platform for people to search and publish. How to quickly and accurately find the
information that users need in the massive data has become the demand of people,
and the web crawler is to satisfy The field of research that arises from this need.
In reality, our resources are limited. How to distinguish the different needs of each
of us in limited resources, some want to listen to songs, some want to watch
movies, and some are confidential documents needed for work, do not want others
to see, only I can watch a series of such problems by myself. He can protect
everyone's privacy and meet the needs of different people. Therefore, it is
necessary to study the content of different users.
Whether it is in-site information retrieval or specific web information
collection, it is inseparable from the core module of the full-text search engine
system - web crawler. This paper describes in detail a design and implementation
scheme, including page collector and page indexer. Basic workflow, data storage
structure, core algorithms and major technical difficulties. The system was
actually operated and the results were good. Finally, the areas for further
improvement were given.
This website is based on the B/S mode to design the crawler website, and
requires simple crawling operation and clear multi-user data. Develop a crawler
website to implement multi-user management, hierarchical data management, and
store data to a specified database. in. Identify duplicate web pages and
deduplication problems; determine topic relevance; capture data faster; store data;
and visualize data.
剩余34页未读,继续阅读
资源评论
毕业程序员
- 粉丝: 8992
- 资源: 1826
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功