# 豆瓣电影爬虫
使用Scrapy框架爬取豆瓣电影
## 项目介绍
[豆瓣选影视页面](https://movie.douban.com/tag/#/?sort=U&range=0,10&tags=%E7%94%B5%E5%BD%B1)分别筛选地区为中国大陆、香港、台湾(可更换为其他地区),构造Ajax请求,获取电影id,再通过id构造电影链接,解析页面后获得电影详细数据,如名称、年份、导演、主演、类型等。具体可见我的博文:[爬虫实战(一)利用scrapy爬取豆瓣华语电影](https://blog.csdn.net/weixin_43004311/article/details/82962159)。
## 安装
### 安装Python
至少Python3.5以上
### 安装Redis和Mongo
安装好之后将Redis和Mongo服务开启
### 安装依赖
```
pip3 install -r requirements.txt
```
## 运行
### 配置代理池
```bash
cd ProxyPool
cd proxypool
```
进入ProxyPool的proxypool目录,修改settings.py文件
PASSWORD为Redis密码,如果为空,则设置为None
目前默认的代理为免费代理,如需添加代理,请在crawler.py的Crawler下添加以crawl_开头的函数。
### 打开代理池和API
```bash
cd ProxyPool
python3 run.py
```
### 运行scrapy
```
cd douban
python3 run.py
```
## 获取结果
电影数据存储在MongoDB中名为douban数据库的film表中,数据结果如下:
```json
{
"_id" : ObjectId("5bb96351fd21815bdbe90124"),
"id" : "24719063",
"title" : "烈日灼心",
"year" : "2015",
"region" : [ "中国大陆"],
"language" : [ "汉语普通话"],
"director" : [ "曹保平"],
"type" : [ "剧情", "悬疑", "犯罪"],
"actor" : [ "邓超", "段奕宏", "郭涛", "王珞丹", "吕颂贤", "高虎", "白柳汐", "杜志国"],
"date" : [ "2015-08-27(中国大陆)", "2015-06-15(上海电影节)"],
"runtime" : [ "139分钟"],
"rate" : "7.9",
"rating_num" : "290209"
}
```
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
基于Scrapy框架的豆瓣电影爬虫.zip (43个子文件)
douban-spider-master
scrapy.cfg 256B
.idea
workspace.xml 11KB
douban-spider.iml 566B
misc.xml 314B
modules.xml 278B
requirements.txt 104B
douban
pipelines.py 1KB
.idea
workspace.xml 9KB
misc.xml 314B
modules.xml 264B
douban.iml 453B
spiders
__init__.py 161B
movie.py 4KB
__pycache__
movie.cpython-36.pyc 3KB
__init__.cpython-36.pyc 143B
run.py 74B
items.py 485B
settings.py 4KB
__pycache__
pipelines.cpython-36.pyc 2KB
settings.cpython-36.pyc 1KB
middlewares.cpython-36.pyc 4KB
items.cpython-36.pyc 568B
middlewares.py 3KB
README.md 2KB
ProxyPool
importer.py 74B
LICENSE 11KB
proxy provider.txt 237B
run.py 261B
.gitignore 31B
README.md 709B
proxypool
utils.py 793B
__init__.py 0B
tester.py 2KB
importer.py 391B
.Rapp.history 0B
scheduler.py 1KB
crawler.py 8KB
api.py 636B
getter.py 943B
setting.py 625B
error.py 160B
db.py 3KB
项目授权码.txt 268B
共 43 条
- 1
资源评论
不走小道
- 粉丝: 3237
- 资源: 5112
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功