"R爬虫及进行文本挖掘1" 本篇文章主要讲解了爬虫的概念和应用,特别是使用R语言进行文本挖掘。爬虫是一种使用编程语言编写的程序,可以不知疲倦地替我们去广阔的互联网上搜寻信息。 爬虫的概念 爬虫是指使用编程语言编写的程序,能够自动地替我们搜寻信息。爬虫的好处是方便,安装好了就可以用,代码量少,效率高,但灵活性不够,有些地方对用户来说不透明。 静态网页和动态网页 爬虫需要明确一些概念,如Http协议、静态网页和动态网页、json格式、selenium自动化测试。静态网页是指HTML网页在我们客户端请求时候已经客观存在于网页服务器上了。动态网页是指在收到请求的时候,根据请求用服务器程序(PHP,JSP,ASPX)“动态”地生成HTML网页。 Web页面的构成 Web页面由三部分组成:内容是什么,HTML脚本,描述怎么样,即CSS样式,动作行为,即JavaScript。 JavaScript对HTML,CSS进行操纵(增、删、改、查)。如果程序能解析HTML结构就能控制页面,从而爬取相关的信息。 DOM结构 DOM文档对象模型,是W3C组织推荐的处理可扩展标记语言的标准编程接口。前面讲到web页面由各种层次的标签元素构成的,总体上看是一个树形结构。这些结构不想我们的矩阵或excel表格那么工整,它们都是非结构化的数据,所以想提取信息,需要费点功夫的。 JSON JSON是什么,我们从网上收集的数据大多是JSON格式,特别是通过API方式,你可以把JSON理解为一个格式化好的数据。 R语言中可以使用rjson包来处理JSON数据。 使用R语言进行文本挖掘 R语言可以用来进行文本挖掘,首先需要安装rjson包,然后加载rjson包,接着使用fromJSON函数来读取JSON数据。最后,可以使用print函数来打印出结果。 爬虫是一种非常有用的技术,可以帮助我们自动地搜寻信息,并进行文本挖掘。使用R语言可以方便地进行文本挖掘,并且可以与JSON数据集成。
- 粉丝: 16
- 资源: 322
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
评论0