## 豆瓣读书爬虫
Python所写,豆瓣读书的爬虫,方便大家搜罗各种美美书!
### 更新
今年年初又爬了一遍豆瓣图书数据,爬下了3000000+条目,这次爬的时候特意爬取了每个图书页面中的“喜欢读XX的人也喜欢条目XX”,最近对数据进行了处理和可视化做了这个新的WebApp(随意取名书海星空),WebApp的截图如下。
![Aaron Swartz](https://github.com/lanbing510/DouBanSpider/raw/master/screenshots/shxk.png)
![Aaron Swartz](https://github.com/lanbing510/DouBanSpider/raw/master/screenshots/shxk1.png)
书海星空WebApp中每本书作为一个节点包含评价人数、评分、被链接数(类似Google的RankPage算法根据网页被链接的数目来排网页的重要性,一般越好的书籍被链接的数目也越多)、链入的图书节点、链出的图书节点等信息。作为[好书一下](http://sobook.lanbing510.info)的补充(为了找经典好书读之前做了[好书一下](http://sobook.lanbing510.info):自己可通过评价人数、评分等筛选寻找好书),书海星空可以根据看过的或找到的好书顺藤摸瓜来找相关的更多经典好书,书海中尽情泛舟,找到自己喜欢的宝藏。我平时可以里面泡上一整天。
想获取书海星空源码及数据,移步到这里:[书海星空](https://zhuanlan.zhihu.com/p/123271223)。
### 更新
#### 写在前面
通过豆瓣评分和评价人数等规则,可非常好的探索挖掘经典图书和隐藏好书,从中更高效地汲取书中智慧。鉴于此,在16年的时候爬下了豆瓣所有的读书数据并做了个简单的WebApp接口方便自己挖掘查找和阅读好书。一直在用自己搞的这个搜书工具,觉得特别好,最近就再次爬了一遍豆瓣读书的数据,总共更新了3232088本图书信息。最近想把这个工具分享给大家,就自掏腰包租了一年的阿里云服务器,将WebApp放了上去,喜欢读书和不断学习的朋友可以访问[好书一下](http://sobook.lanbing510.info)使用(推荐使用电脑访问)。
#### 使用说明
好书一下的首页如下。输入你所想查找相关书的关键字、评价分数高于的数值(一般高于8分就是不错的书,高于9分就是很好的书)、评价人数多于的数值(评价分数又高、人数又多的往往是经典之作),选定排序方法,点击好书一下就可以查找好书啦!
![Aaron Swartz](https://github.com/lanbing510/DouBanSpider/raw/master/screenshots/sobook1.png)
查找结果截图示例如下。
![Aaron Swartz](https://github.com/lanbing510/DouBanSpider/raw/master/screenshots/sobook2.jpg)
最后希望该工具能对你有所帮助,让你在挑选好书不断学习的路上走的更远!
### 更新
最近爬下了豆瓣所有的图书信息(3088633本,2138386KB),并做了一个界面方面与数据库交互来搜罗好书。 注:这里的代码不是爬下所有书籍所用的代码,仅供参考。有机会的时候再公开代码和爬下的所有数据。
交互界面截图示例:
![Aaron Swartz](https://github.com/lanbing510/DouBanSpider/raw/master/screenshots/sobook.jpg)
查询结果截图示例:
![Aaron Swartz](https://github.com/lanbing510/DouBanSpider/raw/master/screenshots/result.jpg)
### 更新
最近爬书发现豆瓣的页面规则发生了变化,导致不能爬到评价人数,由此对代码进行了相应的更新,并爬了一些新的数据(并不全)。
### 实现功能
1 可以爬下豆瓣读书标签下的所有图书
2 按评分排名依次存储
3 存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet
4 采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封(更新于 2015-5-20)
### 效果截图
试着小小运行了下,爬了七八万本书,结果在book_list.xlsx中,截图如下:
![Aaron Swartz](https://github.com/lanbing510/DouBanSpider/raw/master/screenshots/douban.jpg)
代码刚写一小时,更多功能有待增加
声明:受@plough同学启发,再其代码基础上进行的创作,感谢@plough
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
豆瓣读书的爬虫.zip (20个子文件)
SJT-code
screenshots
result.jpg 1.01MB
sobook.jpg 40KB
shxk.png 4.09MB
douban.jpg 298KB
shxk1.png 3.49MB
sobook2.jpg 579KB
sobook1.png 26KB
book_list-名著.xlsx 40KB
book_list-摄影-设计-音乐-旅行-教育-成长-情感-育儿-健康-养生.xlsx 371KB
book_list-数学.xlsx 54KB
book_list-心理-判断与决策-算法-数据结构-经济-历史.xlsx 5.24MB
book_list-科普-经典-生活-心灵-文学.xlsx 184KB
book_list-思想-科技-科学-web-股票-爱情-两性.xlsx 1.75MB
book_list-科幻-思维-金融.xlsx 122KB
book_list-传记-哲学-编程-创业-理财-社会学-佛教.xlsx 3.96MB
book_list-个人管理-时间管理-投资-文化-宗教.xlsx 201KB
book_list-商业-理财-管理.xlsx 105KB
README.md 4KB
doubanSpider.py 5KB
book_list-计算机-机器学习-linux-android-数据库-互联网.xlsx 870KB
共 20 条
- 1
资源评论
JJJ69
- 粉丝: 6214
- 资源: 5783
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功