# coding:utf-8
# 下载豆瓣爱情的电影封面
import requests
import json
# 下载图片
def download(url, title):
dir = './' + title + '.jpg'
try:
pic = requests.get(url)
fp = open(dir, 'wb')
fp.write(pic.content)
fp.close()
print(title)
except requests.exceptions.ConnectionError:
print('图片无法下载')
for num in range(0, 1000, 20):
# 构造url,翻页变换参数为start=, tag=电影, gender=爱情, 改变start=后面的数字,可以爬取不同的页
url = 'https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=%E7%94%B5%E5%BD%B1&start='\
+ str(num)+'&genres=%E7%88%B1%E6%83%85'
print(url)
html = requests.get(url).text
# 转为json格式
res = json.loads(html, encoding='utf-8')
for result in res['data']:
cover = result['cover']
title = result['title']
download(cover, title)
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫项目是指使用编程技术和工具自动化地从互联网上获取数据的项目。爬虫(Spider)是一种程序,可以模拟人类用户在网页上浏览和提取信息的行为。通过编写爬虫程序,可以让计算机自动访问网页、解析网页内容并抓取感兴趣的数据。 爬虫项目通常包括以下几个步骤: 目标确定:确定要爬取的网站或特定页面,并明确需要抓取的数据类型和结构。 网络请求:使用编程语言(如Python、Java等)和相关的网络库发送HTTP请求,获取网页的HTML源代码。 数据解析:使用HTML解析器(如BeautifulSoup、XPath等)将获取的HTML源代码解析为可操作的数据结构,例如树形结构或文档对象模型(DOM)。 数据抽取:根据预先设定的规则,从解析后的HTML文档中提取所需的数据。这可以通过正则表达式、CSS选择器或XPath表达式来实现。 数据存储:将抽取的数据存储到本地文件、数据库或其他数据存储系统中,以供后续分析和处理使用。 定时调度:如果需要定期更新数据,可以设置定时任务或使用调度框架,定期运行爬虫程序,以保持数据的最新状态。 爬虫项目可以应用于各种场景,如搜索引擎索引、数据挖掘、价格
资源推荐
资源详情
资源评论
收起资源包目录
python爬虫项目代码.zip (3个子文件)
pachong-master
.gitattributes 66B
douban_pic_download.py 788B
douban_love_download.py 940B
共 3 条
- 1
资源评论
童小纯
- 粉丝: 3w+
- 资源: 289
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功