Python爬虫实例:爬取豆瓣电影TOP250
在本文中,我将通过一个具体的Python爬虫实例,向读者展示如何使用Python语言和相关库来爬取豆
瓣电影TOP250的数据。这个实例将涵盖爬虫的基本流程,包括发送请求、解析页面、提取数据以及存
储数据。
一、环境准备
首先,确保你的开发环境中安装了Python和以下库:
requests :用于发送网络请求。
BeautifulSoup :用于解析HTML页面。
可以通过以下命令安装这些库:
二、分析目标网站
在爬取之前,我们需要分析豆瓣电影TOP250的页面结构。豆瓣电影TOP250的数据分布在多个分页中,
每页显示25部电影。我们的目标是提取每部电影的标题、评分和链接。
三、编写爬虫代码
下面是一个简单的Python爬虫代码示例,用于爬取豆瓣电影TOP250的数据。
pip install requests beautifulsoup4
import requests
from bs4 import BeautifulSoup
# 豆瓣电影TOP250的基础URL
BASE_URL = 'https://movie.douban.com/top250'
# 存储爬取的电影数据
movies_data = []
# 豆瓣电影TOP250共有10页
for i in range(10):
# 构造完整的URL
url = f'{BASE_URL}?start={i*25}&filter='
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
# 发送HTTP请求
response = requests.get(url, headers=headers)
# 确保请求成功
if response.status_code == 200:
# 使用BeautifulSoup解析页面
soup = BeautifulSoup(response.text, 'html.parser')