豆瓣读书的爬虫.zip资源-CSDN文库

共20个文件

xlsx：11个

jpg：4个

png：3个

版权申诉

python

爬虫

数据收集

51 浏览量 2024-03-01 13:56:32 上传评论收藏 21.66MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

豆瓣读书的爬虫.zip （20个子文件）

SJT-code

screenshots

result.jpg 1.01MB

sobook.jpg 40KB

shxk.png 4.09MB

douban.jpg 298KB

shxk1.png 3.49MB

sobook2.jpg 579KB

sobook1.png 26KB

book_list-名著.xlsx 40KB

book_list-摄影-设计-音乐-旅行-教育-成长-情感-育儿-健康-养生.xlsx 371KB

book_list-数学.xlsx 54KB

book_list-心理-判断与决策-算法-数据结构-经济-历史.xlsx 5.24MB

book_list-科普-经典-生活-心灵-文学.xlsx 184KB

book_list-思想-科技-科学-web-股票-爱情-两性.xlsx 1.75MB

book_list-科幻-思维-金融.xlsx 122KB

book_list-传记-哲学-编程-创业-理财-社会学-佛教.xlsx 3.96MB

book_list-个人管理-时间管理-投资-文化-宗教.xlsx 201KB

book_list-商业-理财-管理.xlsx 105KB

README.md 4KB

doubanSpider.py 5KB

book_list-计算机-机器学习-linux-android-数据库-互联网.xlsx 870KB

## 豆瓣读书爬虫 Python所写，豆瓣读书的爬虫，方便大家搜罗各种美美书！ ### 更新今年年初又爬了一遍豆瓣图书数据，爬下了3000000+条目，这次爬的时候特意爬取了每个图书页面中的“喜欢读XX的人也喜欢条目XX”，最近对数据进行了处理和可视化做了这个新的WebApp（随意取名书海星空），WebApp的截图如下。 ![Aaron Swartz](https://github.com/lanbing510/DouBanSpider/raw/master/screenshots/shxk.png) ![Aaron Swartz](https://github.com/lanbing510/DouBanSpider/raw/master/screenshots/shxk1.png) 书海星空WebApp中每本书作为一个节点包含评价人数、评分、被链接数（类似Google的RankPage算法根据网页被链接的数目来排网页的重要性，一般越好的书籍被链接的数目也越多）、链入的图书节点、链出的图书节点等信息。作为[好书一下](http://sobook.lanbing510.info)的补充（为了找经典好书读之前做了[好书一下](http://sobook.lanbing510.info)：自己可通过评价人数、评分等筛选寻找好书），书海星空可以根据看过的或找到的好书顺藤摸瓜来找相关的更多经典好书，书海中尽情泛舟，找到自己喜欢的宝藏。我平时可以里面泡上一整天。想获取书海星空源码及数据，移步到这里：[书海星空](https://zhuanlan.zhihu.com/p/123271223)。 ### 更新 #### 写在前面通过豆瓣评分和评价人数等规则，可非常好的探索挖掘经典图书和隐藏好书，从中更高效地汲取书中智慧。鉴于此，在16年的时候爬下了豆瓣所有的读书数据并做了个简单的WebApp接口方便自己挖掘查找和阅读好书。一直在用自己搞的这个搜书工具，觉得特别好，最近就再次爬了一遍豆瓣读书的数据，总共更新了3232088本图书信息。最近想把这个工具分享给大家，就自掏腰包租了一年的阿里云服务器，将WebApp放了上去，喜欢读书和不断学习的朋友可以访问[好书一下](http://sobook.lanbing510.info)使用(推荐使用电脑访问)。 #### 使用说明好书一下的首页如下。输入你所想查找相关书的关键字、评价分数高于的数值（一般高于8分就是不错的书，高于9分就是很好的书）、评价人数多于的数值（评价分数又高、人数又多的往往是经典之作），选定排序方法，点击好书一下就可以查找好书啦！ ![Aaron Swartz](https://github.com/lanbing510/DouBanSpider/raw/master/screenshots/sobook1.png) 查找结果截图示例如下。 ![Aaron Swartz](https://github.com/lanbing510/DouBanSpider/raw/master/screenshots/sobook2.jpg) 最后希望该工具能对你有所帮助，让你在挑选好书不断学习的路上走的更远！ ### 更新最近爬下了豆瓣所有的图书信息（3088633本，2138386KB），并做了一个界面方面与数据库交互来搜罗好书。注：这里的代码不是爬下所有书籍所用的代码，仅供参考。有机会的时候再公开代码和爬下的所有数据。交互界面截图示例： ![Aaron Swartz](https://github.com/lanbing510/DouBanSpider/raw/master/screenshots/sobook.jpg) 查询结果截图示例： ![Aaron Swartz](https://github.com/lanbing510/DouBanSpider/raw/master/screenshots/result.jpg) ### 更新最近爬书发现豆瓣的页面规则发生了变化，导致不能爬到评价人数，由此对代码进行了相应的更新，并爬了一些新的数据(并不全)。 ### 实现功能 1 可以爬下豆瓣读书标签下的所有图书 2 按评分排名依次存储 3 存储到Excel中，可方便大家筛选搜罗，比如筛选评价人数>1000的高分书籍；可依据不同的主题存储到Excel不同的Sheet 4 采用User Agent伪装为浏览器进行爬取，并加入随机延时来更好的模仿浏览器行为，避免爬虫被封（更新于 2015-5-20） ### 效果截图试着小小运行了下，爬了七八万本书，结果在book_list.xlsx中，截图如下： ![Aaron Swartz](https://github.com/lanbing510/DouBanSpider/raw/master/screenshots/douban.jpg) 代码刚写一小时，更多功能有待增加声明：受@plough同学启发，再其代码基础上进行的创作，感谢@plough

评论收藏

内容反馈

版权申诉