没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
网
络爬虫, Python和数据分析
什么是网络爬虫?
• 网络爬虫是一个自动提取网页的程序,它为搜索
引擎从万维网上下载网页,是搜索引擎的重要组
成。传统爬虫从一个或若干初始网页的URL开始,
获得初始网页上的URL,在抓取网页的过程中,
不断从当前页面上抽取新的URL放入队列,直到满
足系统的一定停止条件
爬虫有什么用?
• 做为通用搜索引擎网页收集器。(google,baidu)
• 做垂直搜索引擎.(找工作的搜索引擎:
www.deepdo.com,数据来源于:www.51job.com ,
www.zhaoping.com , www.chinahr.com 等等)
• 科学研究:在线人类行为,在线社群演化,人类
动力学研究,计量社会学,复杂网络,数据挖掘,
等领域的实证研究都需要大量数据,网络爬虫是
收集相关数据的利器。
• 偷窥,hacking,发垃圾邮件……(《google
hack》….)
爬虫是搜索引擎的第一步
也是最容易的一步
• 网页搜集
• 建立索引
• 查询排序
用什么语言写爬虫?
• C,C++。高效率,快速,适合通用搜索引
擎做全网爬取。缺点,开发慢,写起来又
臭又长,例如:天网搜索源代码。
• 脚本语言:Perl, Python, Java, Ruby。简单,
易学,良好的文本处理能方便网页内容的
细致提取,但效率往往不高,适合对少量
网站的聚焦爬取
• C#?(貌似信息管理的人比较喜欢的语言)
剩余34页未读,继续阅读
资源评论
passionSnail
- 粉丝: 405
- 资源: 5624
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功