通俗的讲,网络爬虫到底是什么
简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网
站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一
幢楼里不知疲倦地爬来爬去。
你可以简单地想象:每个爬虫都是你的「分身」。就像孙悟空拔了一撮汗毛,
吹出一堆猴子一样。
你每天使用的百度,其实就是利用了这种爬虫技术:每天放出无数爬虫到各个
网站,把他们的信息抓回来,然后化好淡妆排着小队等你来检索。
抢票软件,就相当于撒出去无数个分身,每一个分身都帮助你不断刷新 12306
网站的火车余票。一旦发现有票,就马上拍下来,然后对你喊:土豪快来付
款。
那么,像这样的爬虫技术一旦被用来作恶有多可怕呢?
正好在上周末,一位黑客盆友御风神秘兮兮地给我发来一份《中国爬虫图
鉴》,这哥们在腾讯云鼎实验室主要负责加班,顺便和同事们开发了很多黑科
技。比如他们搞了一个威胁情报系统,号称能探测到全世界的「爬虫」都在做
什么。
我吹着口哨打开《图鉴》,但一分钟以后,我整个人都不好了。
我看到了另一个「平行世界」:
就在我们身边的网络上,已经密密麻麻爬满了各种网络爬虫,它们善恶不同,
各怀心思。而越是每个人切身利益所在的地方,就越是爬满了爬虫。
看到最后,我发现这哪里是《中国爬虫图鉴》,这分明是一份《中国焦虑图
鉴》。
我们今天要说的,就和这些 App 有关。
一、爬虫的「骚操作」
爬虫也分善恶。
像谷歌这样的搜索引擎爬虫,每隔几天对全网的网页扫一遍,供大家查阅,各
个被扫的网站大都很开心。这种就被定义为「善意爬虫」。
但是,像抢票软件这样的爬虫,对着 12306 每秒钟恨不得撸几万次。铁总并不
觉得很开心。这种就被定义为「恶意爬虫」。(注意,抢票的你觉得开心没
用,被扫描的网站觉得不开心,它就是恶意的。)