声明:本博客只是简单的爬虫示范,并不涉及任何商业用途。
前言
为什么选取豆瓣电影Top 250来进行爬取呢?原因是它的网页结构相当规整,比较适合爬虫新手练习。下面我将详细展示爬虫的整个过程。
爬虫过程
网页链接分析
爬虫起点网页为豆瓣电影 Top 250,整个250部电影一共分10页,每页对应的链接如下:
https://movie.douban.com/top250?start=0&filter=
https://movie.douban.com/top250?start=25&filter=
https://movie.douban.com/top250?start=50&filter=