## 请不要用于任何商业目的,否则后果自负
# ZhihuSpider
知乎爬虫:爬取知乎某一问题下的所有回答(回答数小于800左右)
## 基本思路
- 将question id 进行遍历,存入文件,对问题进行过滤后爬取需要的回答
- 目前项目爬取的机制是将滚动条拉取到页面底端,然后一次性抓取所有的回答元素,但由于目前知乎的缓冲加载机制,当回答数量过多时(大概800左右),前面的回答信息就抓取不到了;
- 拟解决思路:边滚动边抓取(但不方便进行元素定位以避免重复抓取)
## 项目结构
```
│ config.py # 爬取链接及存储路径设置
│ README.md
│ requirements.txt
│ scanner.py # 获取有效的问题网址
| filter_links.py # 按照一定规则筛选问题
│ ZhihuSpider.py # 知乎爬虫主程序
│
├─Driver
│ chromedriver.exe # Chrome驱动
│ geckodriver.exe # gecko驱动
│
└─Results
result-2022-07-28-深度神经网络DNN是否模拟了人类大脑皮层结构.csv # 抓取结果样例
```
## 安装依赖
Python 3.7+
```
pip install -r requirements.txt
```
## 使用方法
- 运行<u>scanner.py</u>获取有效的问题id网址,具体的问题以及回答数方便过滤,写入文件
- 运行<u>filter_links.py</u>按照一定规律筛选问题,并写入文件
- 下载对应浏览器的驱动并置于[Driver](./Driver)文件夹==> 将需要爬取的问题链接置于<u>config.py</u>中 ==> 运行<u>ZhihuSpider.py</u>
## 抓取字段
| question_title | answer_url | author_name | fans_count | created_time | updated_time | comment_count | voteup_count | content |
| :------------: | :--------: | :---------: | :--------: | :----------: | :----------: | :-----------: | :----------: | :----------: |
| 问题名称 | 回答链接 | 作者昵称 | 粉丝数量 | 回答时间 | 最近修改时间 | 评论数量 | 赞同数量 | 回答文本内容 |
## 说明备注
- 参考自项目地址:https://github.com/Duguce/MyGadgets/tree/main/ZhihuSpider
Mrrunsen
- 粉丝: 4684
- 资源: 368
会员权益专享
最新资源
- STM32F103VE或航顺HK32F103VE全串口hal库驱动工程示例
- 西洋跳棋AI人机对战双人对战labview2015x32
- 整理的人工智能学习教程资料.zip
- c++反编译工具.zip
- 基于ssm框架在线小说阅读管理系统分前后台(三种用户:读者+作者+管理员)(java+ssm+jsp+mysql+maven)
- 【Android精品资源】Log分析教程及例子
- iTunes-下载历史版本+iOS旧版本应用下载软件
- Java学生学籍管理系统源码
- 基于bp神经网络中文汉字识别系统+GUI界面的matlab仿真(完整代码+说明文档+数据).rar
- 基于bp神经网络的交通标志识别系统+GUI界面的matlab仿真(完整代码+说明文档+数据).rar
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈


