# 豆瓣租房信息爬取
> 目前个人已测试深圳可用,理论上其它城市也可用,只要修改配置文件中修改`WebSite`的地址到对应的城市的豆瓣租房小组地址即可
> 如:成都的租房小组地址是 [https://www.douban.com/group/CDzufang/discussion](https://www.douban.com/group/CDzufang/discussion) ,把配置文件中换成对应url即可
## CookieCloud支持
本项目使用了[CookieCloud](https://github.com/easychen/CookieCloud),可点去自己搭建CookieCloud,也可使用一些[公共的CookieCloud服务](https://github.com/easychen/CookieCloud#%E7%AC%AC%E4%B8%89%E6%96%B9)
## 如何运行项目
### 从docker-compose启动(推荐)
1. 将docker-compose.yml拷贝到本地,并确保他们在相同目录下(请确保已安装`docker`和`docker-compose`)
```yml
version: '3.7'
services:
douban:
image: yazzyk/douban:latest
container_name: douban
volumes:
- ${DOUBAN_ROOT}/config.toml:/app/config.toml
- ${DOUBAN_ROOT}/nutsDB:/app/nutsDB
- ${DOUBAN_ROOT}/logs:/app/logs
ports:
- '5050:5050'
```
以上的${DOUBAN_ROOT}为配置文件和日志文件的存放目录,可以自行修改
2. 运行
```bash
docker-compose up -d
```
### 从docker启动
```bash
docker pull yazzyk/douban:latest
docker run -d --name douban -v ${DOUBAN_ROOT}/config.toml:/app/config.toml -v ${DOUBAN_ROOT}/logs:/app/logs yazzyk/douban:latest
```
以上的${DOUBAN_ROOT}为配置文件和日志文件的存放目录,可以自行修改
### 自行编译运行
#### 1. 下载并安装 Golang
请参考: [https://go.dev/doc/install](https://go.dev/doc/install)
#### 2. 下载代码
```bash
git clone github.com/yazzyk/douban-rent-room
cd douban-rent-room
go mod tidy
```
#### 3. 修改配置文件
根据个人情况修改`config.toml`
#### 4. 运行代码
```bash
go run main.go
```
### 从Realease下载运行
1. 前往[Release](https://github.com/Yazzyk/douban-rent-room/releases)下载对应平台的压缩包
2. 根据个人需要修改配置文件`config.toml`(配置文件和可执行文件要在同一个目录下)
3. 运行程序
## 本地构建
```bash
make
```
## docker构建
> 构建依赖于makefile的构建结果
```bash
docker build -t <IMAGE_NAME> .
```
or
```bash
docker-compose -f docker-compose.build.yml build
```
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
豆瓣租房爬虫.zip (27个子文件)
SJT-code
makefile 2KB
go.mod 2KB
.github
workflows
go.yml 1KB
go.sum 13KB
config.toml 1KB
.env 47B
LICENSE 1KB
docker-compose.build.yml 247B
api
api.go 691B
report
api.go 450B
info
api.go 881B
cmd
main.go 1KB
docker-compose.yml 271B
internal
service
spider
service.go 3KB
dataClean
service.go 796B
report
service.go 238B
dataSort
service.go 617B
notice
notice.html 2KB
service.go 2KB
enums
cst.go 14B
models
vo.go 436B
config
config.go 1KB
db
bolt
db.go 2KB
Dockerfile 943B
pkg
log
logger.go 1KB
.gitignore 59B
README.md 2KB
共 27 条
- 1
资源评论
JJJ69
- 粉丝: 6376
- 资源: 5917
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功