# weibo_spider
独立开发的关于微博信息爬虫的项目。
## 一、项目总览
1、开发环境:
- python 3.6
- mysql 5.6
- 所需依赖:re datetime requests BeautifulSoup pymysql
2、现阶段已经实现了四个基本功能:<br>
- 根据搜索的关键字和起始时间条件搜索微博,对微博的信息进行爬取。<br>
- 获取(1)中通过关键字搜索出的各个微博的用户ID,并进行去重操作,爬取各个用户的基本信息。<br>
- 获取(1)中通过关键字搜索出的各个微博的微博ID,并进行去重操作,通过微博ID获取此微博下的全部评论信息。<br>
- 仅通过某个微博用户ID爬取此ID的全部微博内容。<br>
3、接口说明: <br>
① 根据关键字和时间条件进行搜索:https://s.weibo.com/weibo?q={}&typeall=1&suball=1×cope=custom:{}:{}&Refer=g&page={} <br>
② 根据搜索出的每个微博对应的用户ID爬取用户基本信息:https://weibo.cn/{}
③ 仅根据某个用户ID爬取他的全部微博内容:https://weibo.cn/{}?page={}
<br>
<br>
## 二、项目结构介绍
search_spider - 根据关键字和时间进行爬取的模块 -<br>
----hour_fenge.py 时间分隔函数:对要搜索的时间期限进行以每小时为单位的划分,返回包含所有时间单位的列表<br>
----search_start.py 根据关键字和时间条件进行爬取的主要函数:其中包括爬取某页全部微博、微博所有页数的计算、保存数据库等功能<br>
tools - 工具模块 -<br>
----Config.cfg 数据库等配置文件
----Cookie_Process.py cookie处理函数:其中包括获取文件中存储的cookie、更新文件中存储的cookie等功能<br>
----Date_Process.py 时间处理函数:其中包括对爬取到微博的不同时间格式进行统一 <br>
----Emoji_Process.py 表情处理函数:清除掉包含的utf8bm4编码格式的表情 <br>
----Mysql_Process.py mysql数据库工具类:其中包括数据库连接、关闭、增删改查的操作等<br>
----Number_Process.py 转发、评论数处理函数:对爬取到的微博的转发、评论数进行统一<br>
user_spider - 爬取根据关键字搜索到的微博对应的微博用户的基本资料模块 -<br>
----cookie.file 存储可用的cookie信息<br>
----user_start.py 爬取用户资料的主要功能函数:包括获取所爬取微博的所有用户ID,并根据每个ID爬取其基本信息<br>
weibo_spider - 根据某个用户ID爬取其所有微博的模块 -<br>
-----cookie.file 存储可用的cookie信息
-----weibo_start.py 爬取用户全部微博的主要功能函数:其中包括爬取某页全部微博、微博所有页数的计算、保存数据库等功能<br>
comment_spider - 爬取根据关键字搜索到的微博对应的微博下的全部评论-<br>
----cookie.file 存储可用的cookie信息<br>
----comment_start.py 爬取微博评论的主要功能函数:包括获取所爬取微博的所有微博ID,并根据每个ID爬取其全部评论信息<br>
<br>
<br>
## 三、项目使用介绍
Ps:三个模块的功能相互独立,可直接运行 *_start.py 函数使用<br>
1、根据关键字和时间进行爬取的模块:<br>
- 此模块不需要登录,也不需要获取cookie,可直接运行search_start.py使用<br>
2、爬取根据关键字搜索到的微博对应的微博用户的基本资料模块:<br>
- 此模块需要获取cookie,cookie存于目录下的cookie.file中,<br>
- 手动获取cookie的操作如下:必须使用谷歌浏览器,登录https://weibo.cn/,登陆成功后将网页地址统一成https://weibo.cn/,打开谷歌浏览器开发工具,选择network,点击weibo.cn,查看Request Headers中的Cookie
- 直接运行user_start即可使用,运行时输入要爬取的评论的微博关键字,运行时会提示是否更新cookie,如不更新,输入n/N即可
3、爬取根据关键字搜索到的微博对应的全部评论:<br>
- 此模块需要获取cookie,cookie存于目录下的cookie.file中,<br>
- 获取cookie操作同上
- 直接运行commentr_start即可使用,运行时输入要爬取的评论的微博关键字,会提示是否更新cookie,如不更新,输入n/N即可
4、 根据某个用户ID爬取其所有微博的模块<br>
- 此模块需要获取cookie,cookie存于目录下的cookie.file中<br>
- 获取cookie操作同上
- 直接运行weibo_start.py即可使用<br>
JJJ69
- 粉丝: 6365
- 资源: 5917
最新资源
- 基于增量容量分析(ICA分析)和差分电压分析(DVA分析)的锂离子电池SOH和RUL预测 包括对原始数据的处理、滤波、绘制IC和DV曲线、提取特征、预测模型的构建
- 基于java的企业员工信息管理系统论文.doc
- 基于java的扫雷游戏的设计与实现论文.doc
- 毕业设计Jupyter Notebook基于深度网络的垃圾识别与分类算法研究项目源代码,用PyTorch框架中的transforms方法对数据进行预处理操作,后经过多次调参实验,对比不同模型分类效果
- 鸿蒙学习记录http网络请求
- 基于javaweb的沙发销售管理系统论文.doc
- 机器人运动学控制,simulink仿真模型,基于滑膜边结构控制,学习滑膜控制的不二法门,文件包含模型的说明和模型原理讲解
- 小红书2024新年市集合作方案解析与品牌营销策略
- 微藻检测18-YOLO(v5至v11)、COCO、CreateML、Paligemma、TFRecord、VOC数据集合集.rar
- 基于LCL滤波器的单相光伏逆变器控制设计的MATLAB-Simulink仿真
- 用于Unity使用NuGet
- 2024年全球干式变压器行业规模及市场占有率分析报告
- 基于深度学习的视频描述综述:视觉与语言的桥梁
- NE555+74LS192+74LS48电子秒表课程设计报告(纯数电实现)
- 基于滑膜观测器和MTPA的内置式永磁同步电机无位置传感器模型
- 单相全桥逆变电路MATLAB仿真,原理图设计,单相全桥逆变器设计资料,ti的参考,可用做光伏并网逆变器,400V输入,220V输出 包括硬件ad原理图设计,pcb设计,设计指南,bom表等,资料齐全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
- 1
- 2
前往页