python 实训心得_python 网络爬虫——入门基础
网络爬虫(又被称为网页蜘蛛,网络机器人,在 FOAF 社区中间,更经常的称为网页追逐
者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的
名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
Python 学习网络爬虫主要分 3 个大的版块:明确目标,抓取,分析,存储
明确目标(要知道你准备在哪个范围或者网站去搜索)
爬(将所有的网站的内容全部爬下来)
取(去掉对我们没用处的数据)
处理数据(按照我们想要的方式存储和使用)
网络爬虫要做的,简单来说,就是实现浏览器的功能。通过指定 url ,直接返回给用户所需
要的数据, 而不需要一步步人工去操纵浏览器获取。
1.通用爬虫 VS 聚焦爬虫
1.通用爬虫:搜索引擎使用的爬虫系统