没有合适的资源?快使用搜索试试~ 我知道了~
python 小白爬虫实战:使用 scrapy 爬取微博热搜并发送邮箱
需积分: 0 14 下载量 20 浏览量
2021-01-20
02:58:23
上传
评论
收藏 162KB PDF 举报
温馨提示
试读
3页
文章目录环境爬取内容和思路实现文件结构具体实现后记参考资料 环境 我的环境是:python3.5 + scrapy 2.0.0 爬取内容和思路 爬取内容:微博热搜的关键词,链接,以及导语,即简要概述热搜内容的一小段话 思路: 对于热搜链接:通过热搜关键词所在标签的属性再加上前缀即可(如图1) 对于关键词:进入关键词所在链接,一般会有一个如图2所示的位置,根据标签解析出内容;如果没有,存入“无” 对于导语:也是在关键词链接里边(如图3),通过解析获得;如果没有,爬取页面中的一条微博截取 对于推荐类(如图4):一般是广告之类,不在所爬取范围之内,可以在提取关键词链接时,通过标签最后位置是否为 “荐
资源推荐
资源详情
资源评论
python 小白爬虫实战:使用小白爬虫实战:使用 scrapy 爬取微博热搜并发送邮箱爬取微博热搜并发送邮箱
文章目录文章目录环境爬取内容和思路实现文件结构具体实现后记参考资料
环境环境
我的环境是:python3.5 + scrapy 2.0.0
爬取内容和思路爬取内容和思路
爬取内容:微博热搜的关键词,链接,以及导语,即简要概述热搜内容的一小段话
思路:
对于热搜链接:通过热搜关键词所在标签的属性再加上前缀即可(如图1)
对于关键词:进入关键词所在链接,一般会有一个如图2所示的位置,根据标签解析出内容;如果没有,存入“无”
对于导语:也是在关键词链接里边(如图3),通过解析获得;如果没有,爬取页面中的一条微博截取
对于推荐类(如图4):一般是广告之类,不在所爬取范围之内,可以在提取关键词链接时,通过标签最后位置是否为 “荐荐” 进行一个过滤
关于文件保存,先将所爬取内容根据 关键词,导语,链接关键词,导语,链接 的方式写入本地 txt
关于邮箱发送,在 pipelines 文件中重写 close_spider 函数,将保存在本地的 txt 文件发送给你想要发送的邮箱
关于最后一点,真滴是让我最头疼的一部分,我这次使用的 scrapy 自带的 mail 模块进行发送,踩坑无数,这部分调试占用了很大部分时间
实现实现
文件结构文件结构
具体实现具体实现
资源评论
weixin_38621624
- 粉丝: 3
- 资源: 900
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功