大数据时代下爬虫技术应用与研究.docx资源-CSDN文库

版权申诉

188 浏览量 2022-10-18 23:18:09 上传评论收藏 14KB DOCX 举报

资源详情

资源评论

资源推荐

大数据时代下爬虫技术应用与研究

随着互联网快速发展和大数据时代的来临，Web 数据逐渐庞大，如何有效并

快速地从互联网上获取到用户自身需要的信息是亟需解决的问题，网络爬虫技术

应运而生，它是搜索引擎抓取系统的重要组成部分。文章是以标讯快车项目为研

究目标，依托本学院在大数据方面的研究优势，结合该院 IT 特色，具有较强的

实际意义和社会意义。

标签：JavaScript；网络爬虫；Web 信息抓取

Abstract： With the rapid development of the Internet and the advent of big data

era， it is urgent to solve the problem of how to get the information needed by users

from the Internet effectively and quickly. Network crawler technology emerges as the

times require， it is an important part of search engine grab system. This paper is

based on the standard express project as the research goal ， relying on the research

advantage of big data in this college， combined with the IT characteristics of the

institute， has a strong practical and social significance.

Keywords： JavaScript； WebCrawler； Web information scraping

1 網络爬虫的研究现状与分析

搜索引擎的原理是根据用户提交的关键词返回一组 URL 地址，通过关键词

相似度进行优先级排序，用户通过浏览 Web 页面来寻找所需信息。但这种利用

人工的方式来定位信息，仍然有缺乏统一管理的缺点，而且搜索结果精确度不高。

此时，网络爬虫（Web crawler）技术的出现至关重要，网络爬虫是目前搜索引擎

的重要组成部分，它的基本原则是在不影响服务器执行效率和不造成致命冲击的

前提下，提高爬虫的爬行速度，扩大数据下载量以及提升抓取信息的准确率，这

项技术的关键点为消除任何影响爬虫爬行效率的障碍，令爬虫达到高效且准确无

误。

1.1 网络爬虫效率瓶颈分析

网络爬虫效率受到制约的主要因素有：网络延时和爬虫运行效率；爬虫系统

功能模块设计不良；爬虫算法和功能模块之间协同工作效率低；网页服务器适应

性差等。

1.2 动态网页的信息抓取

首先，动态网页是通过更新网站后台数据库，从服务器中传递参数而生成的

网页。本爬虫采用的方法是通过对动态网页进行解析，对网页数据中进行信息处

理并建立索引数据库，重新定义一个自定义标准接口，当爬虫开始对该网页进行

抓取前，对网页的 URL 地址进行判断，若判断该动态网页符合自定义标准接口，

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余0页未读，立即下载

评论0

内容反馈

版权申诉

春哥111

粉丝: 1w+
资源: 5万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip