没有合适的资源?快使用搜索试试~ 我知道了~
基于R语言爬取电商数据的价格销售分析.doc
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 135 浏览量
2022-06-20
09:28:19
上传
评论
收藏 714KB DOC 举报
温馨提示
试读
23页
基于R语言爬取电商数据的价格销售分析.doc
资源推荐
资源详情
资源评论
目 录
1 绪论.......................................................................................................3
研究背景及意义
国内外研究现状
本文研究内容
2 相关技术简介.......................................................................................5
网络爬虫定义
语言简介
框架
数据挖掘技术介绍
日志挖掘
数据挖掘分析的过程
简介
3 系统分析...............................................................................................9
系统可行性分析
功能需求分析
系统流程分析
性能需求
4 系统设计.............................................................................................12
网络爬虫的模型分析
网络爬虫的搜索策略
网络爬虫的主题相关度判断
网络爬虫设计
功能实现
5 总结与展望.........................................................................................21
参考文献................................................................................................22
致 谢.......................................................................................................23
1 绪论
1.1 研究背景及意义
随着网络的发展,越来越多的资源出现在人们面前,这时候人们就需要一
种查询这些资源的方法,一种可以方便快捷获取自己想要的东西的方法。这时
候搜索引擎这种搜索工具就出现了。网站拥有了较多内容后,首先考虑基于目
录的内容分类,以解决信息快速定位的问题,随着内容量的进一步增加,很多
内容在发表之后就很快被湮没,成为“信息孤岛”,而不断加深的目录结构也会
让用户逐渐失去耐心。这时,搜索引擎的优势就体现出来了:可以让处于“信息
孤岛”状态的内容以一种更直接的方法提供给用户;和基于目录分类的树形结
构不同,基于关键词检索还可以让内容之间实现网状的关联结构,已经出现了
许多类似的搜索引擎。针对搜索引擎广阔的应用前景以及分析国内外搜索引擎
的发展现状,根据全文检索系统的工作原理设计一种基于 的全文搜索引
擎模型,它可以从互联网上获取网页,建立索引数据库,并采用数据库管理作
业和多线程技术以提高全文搜索的性能和效率,从技术上可以适用于任何有搜
索需求的应用。
1.2 国内外研究现状
网络爬虫,又称为 或 ,几乎与网络同时出现。第一个网络爬
虫是 !" 的 #,在头两届国际万维网会议上出现过数篇关于网
络爬虫的论文。但是那时候互联网上的信息规模比现在要小得多,那些文章中
并没有阐述如何处理现在所面临的海量网络信息的技术。每个搜索引擎的后台,
都有相应的网络爬虫在工作着。但是出于互相竞争的原因,这些网络爬虫的设
计并没有公开,除了以下 个:"$%&!%,' (&!% 以及
。
年,万维网还没有诞生,但是人们已经开始频繁的使用网络来传输文
件了,由于大量的文件分布在不同的终端上,如果对每个终端逐一的进行访问
既费时又费力,于是蒙特利尔大学的学生'%)*$、+%%# %和,
-. 开发了一个可以用文件名查找文件的系统,也就是' 。它存储了一
个/0,文件名列表,当用户输入文件名进行搜索时,它会告诉用户该文件是放
在哪个/0, 主机中,用户就可以直接访问这个主机获取文件。深受' 系统
的启发, 年美国内华达*&*.$(大学开发出了一个已经
可以检索网页的搜索工具。
同年,麻省理工学院(0)的学生马休 格雷(• !")开发出了
第一个!网络机器人程序,这个程序被命名为#%##
#。虽然当时这个程序并不是以做搜索引擎为目的而编写的,但是它却
促进了后来搜索引擎的发展。网络机器人程序()也叫网页蜘蛛
()或网络爬虫(&!%)。它是搜索引擎系统中负责抓取网页的文本
信息、图片信息和其它信息的功能模块。它利用01文档中包含的指向其它
页面或文件的链接信息,在分析完一个页面后转到其它链接继续分析,把分析
出来的结果存入数据库。#%!##刚开始只用来计算互联网的
发展规模,后来也发展成为能够抓取21的系统。
1.3 本文研究内容
本文主要分为五个章节,第一部分为前言,主要介绍了课题背景、研究意
义、国内外研究现状等内容。
第二部分是相关技术的介绍,主要介绍了网络爬虫、 语言、1. 等。
第三部分为系统分析,主要介绍了可行性分析功能需求分析等。
第四部分是系统设计,系统架构设计和功能设计是主要的设计内容。
第五部分是总结,主要对全文进行了总结。
2 相关技术简介
2.1 网络爬虫定义
定义 :网络爬虫是一个自动提取网页的程序,它为搜索引擎从 # 上下
载网页,是搜索引擎的重要组成部分。通用网络爬虫从一个或若干初始网页的
21 开始,获得初始网页上的 21 列表;在抓取网页的过程中,不断从当前页
面上抽取新的 21 放入待爬行队列,直到满足系统的停止条件。
33定义 :主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链
接,保留主题相关的链接并将其放入待抓取的 21 队列中;然后根据一定的搜
索策略从队列中选择下一步要抓取的网页 21,并重复上述过程,直到达到系
统的某一条件时停止。所有被网络爬虫抓取的网页将会被系统存储,进行一定
的分析、过滤,并建立索引,对于主题网络爬虫来说,这一过程所得到的分析
结果还可能对后续的抓取过程进行反馈和指导。
33定义 :如果网页 中包含超链接 %,则 称为链接 % 的父网页。
33定义 :如果超链接 % 指向网页 ,则网页 称为子网页,又称为目标网页。
主题网络爬虫的基本思路就是按照事先给出的主题,分超链接和已经下载的网
页内容,预测下一个待抓取的 21 及当前网页的主题相关度,保证尽可能多地
爬行、下载与主相关的网页,尽可能少地下载无关网页。
2.2 R 语言简介
是用于统计分析、绘图的语言和操作环境。 是属于 "42 系统的一个自
由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运
行于 2456#! 和 的操作系统上,而且嵌入了一个非常方便实用
的帮助系统,相比于其他统计分析软件, 还有以下特点:
是自由软件。这意味着它是完全免费6开放源代码的。可以在它的网站
及其镜像中下载任何有关的安装程序、源代码、程序包及其源代码、文档资料。
标准的安装文件身自身就带有许多模块和内嵌统计函数6安装好后可以直接实现
许多常用的统计功能。
是一种可编程的语言。作为一个开放的统计编程环境6语法通俗易懂6很
容易学会和掌握语言的语法。而且学会之后6我们可以编制自己的函数来扩展现
有的语言。这也就是为什么它的更新速度比一般统计软件6如6,6' 等快得
多。大多数最新的统计方法和技术都可以在 中直接得到。
所有 的函数和数据集是保存在程序包里面的。只有当一个包被载入时6
它的内容才可以被访问。一些常用、基本的程序包已经被收入了标准安装文件
中6随着新的统计分析方法的出现6标准安装文件中所包含的程序包也随着版本的
更新而不断变化。在另外版安装文件中6已经包含的程序包有: 一 的基础
模块、*% 一极大似然估计模块、 一时间序列分析模块、*( 一多元统计分析
模块、.((% 一生存分析模块等等
具有很强的互动性。除了图形输出是在另外的窗口处,它的输入输出
窗口都是在同一个窗口进行的,输入语法中如果出现错误会马上在窗口口中得
到提示6对以前输入过的命令有记忆功能6可以随时再现、编辑修改以满足用户的
需要。输出的图形可以直接保存为 7,"6+,6,4" 等图片格式6还可以直接保存
为 ,-/ 文件。另外6和其他编程语言和数据库之间有很好的接口。
剩余22页未读,继续阅读
资源评论
智慧安全方案
- 粉丝: 3672
- 资源: 59万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python的酒店评论情感分析源码+文档(高分项目).zip
- meta-llama-3-8b-instruct 的 model-00003-of-00004.safetensors 的3/3
- nginx配置文件,注意其中需要对应宿主机的路径
- 自用数据集自用数据集自用数据集
- HTML5小游戏【堆雪人-优秀H5小游戏合集】游戏源码分享下载 - epicsnowman.zip
- SNMP Client 是SNMP测试工具
- Android Camera内存统计脚本
- AD9220高速数据芯片硬件参考设计原理图+STM32F103单片机驱动程序代码+芯片技术手册资料.zip
- 常用爆破用户名字典top500
- meta-llama-3-8b-instruct 的 model-00003-of-00004.safetensors 的2/3
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功