# HeadlineCrawer(crawler.py) #
今日头条爬虫
## 问题描述 ##
输入关键字keyword,爬取相关内容的文章信息,并存储(excel)
## 技术背景 ##
1. **操作系统**:win10
2. **相关py库、软件**:python-v3.7、requests、selenium-3.141.0、BeautifulSoup-v4、chromedriver.exe、Google浏览器、pandas
## 解决方案 ##
### 方案一(放弃) ###
**步骤:**
1. 利用request + BeautifulSoup技术方案,首先对头条[关键字文章列表页](https://www.toutiao.com/search/?keyword=%E5%9B%BE%E7%89%87)进行爬取,
获取每个文章详情页的url
2. 爬取每个文章详情内容,利用BeautifulSoup解析文章内容
**难点:**
1. 访问爬取到的文章url时,实际在浏览器中会发生重定向(http://toutiao.com/group/6519751747085271566/ -> http://toutiao.com/a6519751747085271566/),此过程利用爬虫程序操作时会有难度
2. 即使访问文章重定向后的url,返回的实际为一串js代码,经浏览器处理后才加载真实文章内容。爬虫程序模拟此过程较繁琐。
### 方案二 ###
**步骤:**
1. 通过request + BeautifulSoup获取到相关文章的url
2. 利用selenium库直接操作Google浏览器,对文章url进行访问,并对页面的最终加载效果进行解析(以正则表达式辅助解析文本和图片)
**缺点:**
1. 慢(可利用多线程优化)
## 实施实例 ##
![展示1](./display/display1.png)
## 常见问题 ##
1. 在头条关键字搜索页里面爬取出来的文章详情url,其url不全是头条站点的,需对多个类型站点编写页面解析代码。
2. 网页结构不固定
## 参考 ##
1. [windows环境下安装selenium+python](https://www.cnblogs.com/onetheway2018/p/8568910.html)
2. [Google浏览器驱动](http://npm.taobao.org/mirrors/chromedriver/)
3. [Selenium with Python中文翻译文档](https://selenium-python-zh.readthedocs.io/en/latest/index.html)
4. [Selenium获取元素html](https://www.cnblogs.com/youngleesin/p/10449050.html)
5. [selenium库的基本使用](https://www.jianshu.com/p/3aa45532e179)
6. [python中如何使用pandas创建excel文件](https://jingyan.baidu.com/article/ca41422f79039c1eaf99ed73.html)
7. [pandas官方文档](https://pandas.pydata.org/)
8. [python正则表达式模块re](https://www.docs4dev.com/docs/zh/python/3.7.2rc1/all/library-re.html)
9. [regex101正则表达式在线测试](https://regex101.com/)
# 百家号爬虫(baijia_spider.py) #
静态页面,采用request+BeautifulSoup-v4。
今日头条爬虫.zip
版权申诉
47 浏览量
2023-12-30
18:10:56
上传
评论
收藏 1.06MB ZIP 举报
xiaoshun007~
- 粉丝: 3849
- 资源: 3131
最新资源
- keil2 + proteus + 8051.exe
- 1961ee27df03bd4595d28e24b00dde4e_744c805f7e4fb4d40fa3f695bfbab035_8(1).c
- mediapipe-0.9.0.1-cp37-cp37m-win-amd64.whl.zip
- windows注册表编辑工具
- mediapipe-0.9.0.1-cp37-cp37m-win-amd64.whl.zip
- 校园通行码预约管理系统20240522075502
- 车类型数据集6250张VOC+YOLO格式.zip
- The PyTorch implementation of STGCN.STGCN-main.zip
- 092300108.cpp
- 车类型数据集6000张VOC+YOLO格式.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈