没有合适的资源?快使用搜索试试~ 我知道了~
大数据时代下爬虫技术应用与研究.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 188 浏览量
2022-10-18
23:18:09
上传
评论
收藏 14KB DOCX 举报
温馨提示
试读
1页
大数据时代下爬虫技术应用与研究.docx大数据时代下爬虫技术应用与研究.docx
资源详情
资源评论
资源推荐
大数据时代下爬虫技术应用与研究
随着互联网快速发展和大数据时代的来临,Web 数据逐渐庞大,如何有效并
快速地从互联网上获取到用户自身需要的信息是亟需解决的问题,网络爬虫技术
应运而生,它是搜索引擎抓取系统的重要组成部分。文章是以标讯快车项目为研
究目标,依托本学院在大数据方面的研究优势,结合该院 IT 特色,具有较强的
实际意义和社会意义。
标签:JavaScript;网络爬虫;Web 信息抓取
Abstract: With the rapid development of the Internet and the advent of big data
era, it is urgent to solve the problem of how to get the information needed by users
from the Internet effectively and quickly. Network crawler technology emerges as the
times require, it is an important part of search engine grab system. This paper is
based on the standard express project as the research goal , relying on the research
advantage of big data in this college, combined with the IT characteristics of the
institute, has a strong practical and social significance.
Keywords: JavaScript; WebCrawler; Web information scraping
1 網络爬虫的研究现状与分析
搜索引擎的原理是根据用户提交的关键词返回一组 URL 地址,通过关键词
相似度进行优先级排序,用户通过浏览 Web 页面来寻找所需信息。但这种利用
人工的方式来定位信息,仍然有缺乏统一管理的缺点,而且搜索结果精确度不高。
此时,网络爬虫(Web crawler)技术的出现至关重要,网络爬虫是目前搜索引擎
的重要组成部分,它的基本原则是在不影响服务器执行效率和不造成致命冲击的
前提下,提高爬虫的爬行速度,扩大数据下载量以及提升抓取信息的准确率,这
项技术的关键点为消除任何影响爬虫爬行效率的障碍,令爬虫达到高效且准确无
误。
1.1 网络爬虫效率瓶颈分析
网络爬虫效率受到制约的主要因素有:网络延时和爬虫运行效率;爬虫系统
功能模块设计不良;爬虫算法和功能模块之间协同工作效率低;网页服务器适应
性差等。
1.2 动态网页的信息抓取
首先,动态网页是通过更新网站后台数据库,从服务器中传递参数而生成的
网页。本爬虫采用的方法是通过对动态网页进行解析,对网页数据中进行信息处
理并建立索引数据库,重新定义一个自定义标准接口,当爬虫开始对该网页进行
抓取前,对网页的 URL 地址进行判断,若判断该动态网页符合自定义标准接口,
春哥111
- 粉丝: 1w+
- 资源: 5万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0