# 豆瓣小组爬虫
## 2021.07.19 Update: 感谢 [xwjdsh](https://github.com/xwjdsh) 的 [PR](https://github.com/lesywix/douban_group_spy/pull/11),项目复活了
## ~~Update:豆瓣的接口废了~~
通过调用豆瓣接口,聚合想要爬取小组的租房信息,并可通过关键词进行匹配及排除。
为了方便,使用了 Django admin 进行数据的可视化。通过 Django admin 可对数据进行搜索,过滤等简单功能。
由于豆瓣的限制,爬取每篇帖子都会随机等待 3~5 秒,以尽量不触及 Rate Limit,爬取速度比较慢,但能获取更多内容。
## 环境
- python >= 3.6
- sqlite
## 使用
1. 创建 venv `python3 -m venv venv`, 并激活 `. venv/bin/activate`
2. 安装依赖 `pip install -r requirements.txt`
3. 数据库初始化 `make migrate`
4. 修改配置,由于豆瓣的限制,你需要设置 Cookie 后才能开始爬取。在网页上登录豆瓣,将 `douban_group_spy/settings.py` 中的 `COOKIE` 配置修改为你的 Cookie (cookie key 为 `dbcl2`)
5. 运行爬虫 eg: `python crawler_main.py -g 106955 -g baoanzufang -k 灵芝 -k 翻身 -e 求租`
6. 运行网页 `make run_server`, 默认账号密码均为 admin
### 爬虫参数
- `-g`: 要爬取小组的 id
- `-k`: 查找关键词
- `-e`: 排除关键词
- `--sleep`: 爬一个周期后暂停的时间, 默认 `60 * 30` 秒(15 分钟)
- `--pages`: 爬一个周期每个小组的页数,默认 `10` 页
- `-v`: 展示 debug 信息,默认 False
一个周期就是爬取参数里的所有小组,每个小组默认的爬取页数的总和。
## ps
### 推荐小组:
- 106955: 深圳租房团
- baoanzufang: 深圳宝安租房
- 498004:深圳南山租房团
- 551176: 深圳租房
- szsh: 深圳租房
- SZhouse: 深圳租房
### Screenshots
文章列表
![](https://github.com/weixianglin/douban_group_spy/raw/master/img/screenshots1.png)
文章详情
![](https://github.com/weixianglin/douban_group_spy/raw/master/img/screenshots2.png)
小组列表
![](https://github.com/weixianglin/douban_group_spy/raw/master/img/screenshots3.png)
小组详情
![](https://github.com/weixianglin/douban_group_spy/raw/master/img/screenshots4.png)
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
豆瓣小组爬虫.zip (23个子文件)
SJT-code
Makefile 79B
crawler_main.py 8KB
manage.py 548B
img
screenshots4.png 34KB
screenshots2.png 290KB
screenshots3.png 109KB
screenshots1.png 486KB
requirements.txt 212B
.gitignore 159B
README.md 2KB
douban_group_spy
__init__.py 58B
admin.py 3KB
migrations
__init__.py 0B
0002_group_post.py 2KB
0004_post_is_collected.py 400B
0001_create_superuser.py 658B
0003_auto_20190424_1634.py 547B
apps.py 97B
models.py 2KB
wsgi.py 409B
const.py 331B
urls.py 752B
settings.py 3KB
共 23 条
- 1
资源评论
JJJ69
- 粉丝: 6212
- 资源: 5783
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功