[](https://badge.fury.io/py/weibo-spider)
[](https://badge.fury.io/py/weibo-spider)
[](https://badge.fury.io/py/weibo-spider)
# Weibo Spider
本程序可以连续爬取**一个**或**多个**新浪微博用户(如[胡歌](https://weibo.cn/u/1223178222)、[迪丽热巴](https://weibo.cn/u/1669879400)、[郭碧婷](https://weibo.cn/u/1729370543))的数据,并将结果信息写入**文件**或**数据库**。写入信息几乎包括用户微博的所有数据,包括**用户信息**和**微博信息**两大类。因为内容太多,这里不再赘述,详细内容见[获取到的字段](#获取到的字段)。如果只需要用户信息,可以通过设置实现只爬取微博用户信息的功能。本程序需设置cookie来获取微博访问权限,后面会讲解[如何获取cookie](#如何获取cookie)。如果不想设置cookie,可以使用[免cookie版](https://github.com/dataabc/weibo-crawler),二者功能类似。
爬取结果可写入文件和数据库,具体的写入文件类型如下:
- **txt文件**(默认)
- **csv文件**(默认)
- **json文件**(可选)
- **MySQL数据库**(可选)
- **MongoDB数据库**(可选)
- **SQLite数据库**(可选)
同时支持下载微博中的图片和视频,具体的可下载文件如下:
- **原创**微博中的原始**图片**(可选)
- **转发**微博中的原始**图片**(可选)
- **原创**微博中的**视频**(可选)
- **转发**微博中的**视频**(可选)
- **原创**微博**Live Photo**中的**视频**([免cookie版](https://github.com/dataabc/weibo-crawler)特有)
- **转发**微博**Live Photo**中的**视频**([免cookie版](https://github.com/dataabc/weibo-crawler)特有)
## 内容列表
[TOC]
- [Weibo Spider](#weibo-spider)
- [内容列表](#内容列表)
- [获取到的字段](#获取到的字段)
- [用户信息](#用户信息)
- [微博信息](#微博信息)
- [示例](#示例)
- [运行环境](#运行环境)
- [使用说明](#使用说明)
- [0.版本](#0版本)
- [1.安装程序](#1安装程序)
- [源码安装](#源码安装)
- [pip安装](#pip安装)
- [2.程序设置](#2程序设置)
- [3.运行程序](#3运行程序)
- [个性化定制程序(可选)](#个性化定制程序可选)
- [定期自动爬取微博(可选)](#定期自动爬取微博可选)
- [如何获取cookie](#如何获取cookie)
- [如何获取user_id](#如何获取user_id)
- [常见问题](#常见问题)
- [学术研究](#学术研究)
- [相关项目](#相关项目)
- [贡献](#贡献)
- [贡献者](#贡献者)
- [注意事项](#注意事项)
## 获取到的字段
本部分为爬取到的字段信息说明,为了与[免cookie版](https://github.com/dataabc/weibo-crawler)区分,下面将两者爬取到的信息都列出来。如果是免cookie版所特有的信息,会有免cookie标注,没有标注的为二者共有的信息。
### 用户信息
- 用户id:微博用户id,如"1669879400",其实这个字段本来就是已知字段
- 昵称:用户昵称,如"Dear-迪丽热巴"
- 性别:微博用户性别
- 生日:用户出生日期
- 所在地:用户所在地
- 学习经历:用户上学时学校的名字和时间
- 工作经历:用户所属公司名字和时间
- 阳光信用(免cookie版):用户的阳光信用
- 微博注册时间(免cookie版):用户微博注册日期
- 微博数:用户的全部微博数(转发微博+原创微博)
- 关注数:用户关注的微博数量
- 粉丝数:用户的粉丝数
- 简介:用户简介
- 主页地址(免cookie版):微博移动版主页url
- 头像url(免cookie版):用户头像url
- 高清头像url(免cookie版):用户高清头像url
- 微博等级(免cookie版):用户微博等级
- 会员等级(免cookie版):微博会员用户等级,普通用户该等级为0
- 是否认证(免cookie版):用户是否认证,为布尔类型
- 认证类型(免cookie版):用户认证类型,如个人认证、企业认证、政府认证等
- 认证信息:为认证用户特有,用户信息栏显示的认证信息
### 微博信息
- 微博id:微博唯一标志
- 微博内容:微博正文
- 头条文章url:微博中头条文章的url,若微博中不存在头条文章,则值为''
- 原始图片url:原创微博图片和转发微博转发理由中图片的url,若某条微博存在多张图片,每个url以英文逗号分隔,若没有图片则值为"无"
- 视频url: 微博中的视频url,若微博中没有视频,则值为"无"
- 微博发布位置:位置微博中的发布位置
- 微博发布时间:微博发布时的时间,精确到分
- 点赞数:微博被赞的数量
- 转发数:微博被转发的数量
- 评论数:微博被评论的数量
- 微博发布工具:微博的发布工具,如iPhone客户端、HUAWEI Mate 20 Pro等
- 结果文件:保存在当前目录weibo文件夹下以用户昵称为名的文件夹里,名字为"user_id.csv"和"user_id.txt"的形式
- 微博图片:原创微博中的图片和转发微博转发理由中的图片,保存在以用户昵称为名的文件夹下的img文件夹里
- 微博视频:原创微博中的视频,保存在以用户昵称为名的文件夹下的video文件夹里
- 微博bid(免cookie版):为[免cookie版](https://github.com/dataabc/weibo-crawler)所特有,与本程序中的微博id是同一个值
- 话题(免cookie版):微博话题,即两个#中的内容,若存在多个话题,每个url以英文逗号分隔,若没有则值为''
- @用户(免cookie版):微博@的用户,若存在多个@用户,每个url以英文逗号分隔,若没有则值为''
- 原始微博(免cookie版):为转发微博所特有,是转发微博中那条被转发的微博,存储为字典形式,包含了上述微博信息中的所有内容,如微博id、微博内容等等
## 示例
如果想要知道程序的具体运行结果,可以查看[示例文档](https://github.com/dataabc/weiboSpider/blob/master/docs/example.md),该文档介绍了爬取[迪丽热巴微博](https://weibo.cn/u/1669879400)的例子,并附有部分结果文件截图。
## 运行环境
- 开发语言:python2/python3
- 系统: Windows/Linux/macOS
## 使用说明
### 0.版本
本程序有两个版本,你现在看到的是python3版,另一个是python2版,python2版位于[python2分支](https://github.com/dataabc/weiboSpider/tree/python2)。目前主力开发python3版,包括新功能开发和bug修复;python2版仅支持bug修复。推荐python3用户使用当前版本,推荐python2用户使用[python2版](https://github.com/dataabc/weiboSpider/tree/python2),本使用说明是python3版的使用说明。
### 1.安装程序
本程序提供两种安装方式,一种是**源码安装**,另一种是**pip安装**,二者功能完全相同。如果你需要修改源码,建议使用第一种方式,否则选哪种安装方式都可以。
#### 源码安装
```bash
$ git clone https://github.com/dataabc/weiboSpider.git
$ cd weiboSpider
$ pip install -r requirements.txt
```
#### pip安装
```bash
$ python3 -m pip install weibo-spider
```
### 2.程序设置
要了解程序设置,请查看[程序设置文档](https://github.com/dataabc/weiboSpider/blob/master/docs/settings.md)。
### 3.运行程序
**源码安装**的用户可以在weiboSpider目录运行如下命令,**pip安装**的用户可以在任意有写权限的目录运行如下命令
```bash
$ python3 -m weibo_spider
```
第一次执行,会自动在当前目录创建config.json配置文件,配置好后执行同样的命令就可以获取微博了。
如果你已经有config.j
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
python爬虫新浪微博的爬虫源码.zip python爬虫新浪微博的爬虫源码.zippython爬虫新浪微博的爬虫源码.zippython爬虫新浪微博的爬虫源码.zippython爬虫新浪微博的爬虫源码.zippython爬虫新浪微博的爬虫源码.zippython爬虫新浪微博的爬虫源码.zippython爬虫新浪微博的爬虫源码.zippython爬虫新浪微博的爬虫源码.zippython爬虫新浪微博的爬虫源码.zippython爬虫新浪微博的爬虫源码.zippython爬虫新浪微博的爬虫源码.zippython爬虫新浪微博的爬虫源码.zippython爬虫新浪微博的爬虫源码.zippython爬虫新浪微博的爬虫源码.zippython爬虫新浪微博的爬虫源码.zippython爬虫新浪微博的爬虫源码.zippython爬虫新浪微博的爬虫源码.zippython爬虫新浪微博的爬虫源码.zippython爬虫新浪微博的爬虫源码.zippython爬虫新浪微博的爬虫源码.zippython爬虫新浪微博的爬虫源码.zippython爬虫新浪微博的爬虫源码.zippython爬虫新浪微博的爬
资源推荐
资源详情
资源评论
















收起资源包目录



























































































共 78 条
- 1
资源评论


盈梓的博客
- 粉丝: 1w+
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 软件实施工作总结(1).docx
- 【推荐下载】工业互联网优秀案例:智联供水设备远程数据采集与预测性维护(1).pdf
- 餐饮管理咨询公司网站建设方案(1).doc
- 现代计算机技术在医院财务管理中的应用探讨(1).docx
- 交通运输部门档案管理中的信息化建设探讨(1).docx
- IP通信的现状及发展分析简报(1).docx
- 计算机网络-第2章-物理层省名师优质课赛课获奖课件市赛课一等奖课件(1).ppt
- AUTOCAD转换流程(1).docx
- 电子商务案例分析-案例大全(1).ppt
- 网站后台维护教程(1).ppt
- 河南省贫困地区基础教育信息化建设探究(1).docx
- 软件系统开发合同(模板)讲课讲稿(1).doc
- 在线-福师《计算机应用基础》在线作业一(1).docx
- 机械设计制造与计算机辅助技术结合应用研究(1).docx
- 互联网金融信息服务协议范本(标准版)(1).docx
- “计算机系统构成.xls”选择判断(1).pdf
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
