[![Build Status](https://github.com/dataabc/weiboSpider/workflows/Python%20application/badge.svg)](https://badge.fury.io/py/weibo-spider)
[![Python](https://img.shields.io/pypi/pyversions/weibo-spider)](https://badge.fury.io/py/weibo-spider)
[![PyPI](https://badge.fury.io/py/weibo-spider.svg)](https://badge.fury.io/py/weibo-spider)
# Weibo Spider
本程序可以连续爬取**一个**或**多个**新浪微博用户(如[胡歌](https://weibo.cn/u/1223178222)、[迪丽热巴](https://weibo.cn/u/1669879400)、[郭碧婷](https://weibo.cn/u/1729370543))的数据,并将结果信息写入**文件**或**数据库**。写入信息几乎包括用户微博的所有数据,包括**用户信息**和**微博信息**两大类。因为内容太多,这里不再赘述,详细内容见[获取到的字段](#获取到的字段)。如果只需要用户信息,可以通过设置实现只爬取微博用户信息的功能。本程序需设置cookie来获取微博访问权限,后面会讲解[如何获取cookie](#如何获取cookie)。如果不想设置cookie,可以使用[免cookie版](https://github.com/dataabc/weibo-crawler),二者功能类似。
爬取结果可写入文件和数据库,具体的写入文件类型如下:
- **txt文件**(默认)
- **csv文件**(默认)
- **json文件**(可选)
- **MySQL数据库**(可选)
- **MongoDB数据库**(可选)
- **SQLite数据库**(可选)
同时支持下载微博中的图片和视频,具体的可下载文件如下:
- **原创**微博中的原始**图片**(可选)
- **转发**微博中的原始**图片**(可选)
- **原创**微博中的**视频**(可选)
- **转发**微博中的**视频**(可选)
- **原创**微博**Live Photo**中的**视频**([免cookie版](https://github.com/dataabc/weibo-crawler)特有)
- **转发**微博**Live Photo**中的**视频**([免cookie版](https://github.com/dataabc/weibo-crawler)特有)
## 内容列表
[TOC]
- [Weibo Spider](#weibo-spider)
- [内容列表](#内容列表)
- [获取到的字段](#获取到的字段)
- [用户信息](#用户信息)
- [微博信息](#微博信息)
- [示例](#示例)
- [运行环境](#运行环境)
- [使用说明](#使用说明)
- [0.版本](#0版本)
- [1.安装程序](#1安装程序)
- [源码安装](#源码安装)
- [pip安装](#pip安装)
- [2.程序设置](#2程序设置)
- [3.运行程序](#3运行程序)
- [个性化定制程序(可选)](#个性化定制程序可选)
- [定期自动爬取微博(可选)](#定期自动爬取微博可选)
- [如何获取cookie](#如何获取cookie)
- [如何获取user_id](#如何获取user_id)
- [常见问题](#常见问题)
- [学术研究](#学术研究)
- [相关项目](#相关项目)
- [贡献](#贡献)
- [贡献者](#贡献者)
- [注意事项](#注意事项)
## 获取到的字段
本部分为爬取到的字段信息说明,为了与[免cookie版](https://github.com/dataabc/weibo-crawler)区分,下面将两者爬取到的信息都列出来。如果是免cookie版所特有的信息,会有免cookie标注,没有标注的为二者共有的信息。
### 用户信息
- 用户id:微博用户id,如"1669879400",其实这个字段本来就是已知字段
- 昵称:用户昵称,如"Dear-迪丽热巴"
- 性别:微博用户性别
- 生日:用户出生日期
- 所在地:用户所在地
- 学习经历:用户上学时学校的名字和时间
- 工作经历:用户所属公司名字和时间
- 阳光信用(免cookie版):用户的阳光信用
- 微博注册时间(免cookie版):用户微博注册日期
- 微博数:用户的全部微博数(转发微博+原创微博)
- 关注数:用户关注的微博数量
- 粉丝数:用户的粉丝数
- 简介:用户简介
- 主页地址(免cookie版):微博移动版主页url
- 头像url(免cookie版):用户头像url
- 高清头像url(免cookie版):用户高清头像url
- 微博等级(免cookie版):用户微博等级
- 会员等级(免cookie版):微博会员用户等级,普通用户该等级为0
- 是否认证(免cookie版):用户是否认证,为布尔类型
- 认证类型(免cookie版):用户认证类型,如个人认证、企业认证、政府认证等
- 认证信息:为认证用户特有,用户信息栏显示的认证信息
### 微博信息
- 微博id:微博唯一标志
- 微博内容:微博正文
- 头条文章url:微博中头条文章的url,若微博中不存在头条文章,则值为''
- 原始图片url:原创微博图片和转发微博转发理由中图片的url,若某条微博存在多张图片,每个url以英文逗号分隔,若没有图片则值为"无"
- 视频url: 微博中的视频url,若微博中没有视频,则值为"无"
- 微博发布位置:位置微博中的发布位置
- 微博发布时间:微博发布时的时间,精确到分
- 点赞数:微博被赞的数量
- 转发数:微博被转发的数量
- 评论数:微博被评论的数量
- 微博发布工具:微博的发布工具,如iPhone客户端、HUAWEI Mate 20 Pro等
- 结果文件:保存在当前目录weibo文件夹下以用户昵称为名的文件夹里,名字为"user_id.csv"和"user_id.txt"的形式
- 微博图片:原创微博中的图片和转发微博转发理由中的图片,保存在以用户昵称为名的文件夹下的img文件夹里
- 微博视频:原创微博中的视频,保存在以用户昵称为名的文件夹下的video文件夹里
- 微博bid(免cookie版):为[免cookie版](https://github.com/dataabc/weibo-crawler)所特有,与本程序中的微博id是同一个值
- 话题(免cookie版):微博话题,即两个#中的内容,若存在多个话题,每个url以英文逗号分隔,若没有则值为''
- @用户(免cookie版):微博@的用户,若存在多个@用户,每个url以英文逗号分隔,若没有则值为''
- 原始微博(免cookie版):为转发微博所特有,是转发微博中那条被转发的微博,存储为字典形式,包含了上述微博信息中的所有内容,如微博id、微博内容等等
## 示例
如果想要知道程序的具体运行结果,可以查看[示例文档](https://github.com/dataabc/weiboSpider/blob/master/docs/example.md),该文档介绍了爬取[迪丽热巴微博](https://weibo.cn/u/1669879400)的例子,并附有部分结果文件截图。
## 运行环境
- 开发语言:python2/python3
- 系统: Windows/Linux/macOS
## 使用说明
### 0.版本
本程序有两个版本,你现在看到的是python3版,另一个是python2版,python2版位于[python2分支](https://github.com/dataabc/weiboSpider/tree/python2)。目前主力开发python3版,包括新功能开发和bug修复;python2版仅支持bug修复。推荐python3用户使用当前版本,推荐python2用户使用[python2版](https://github.com/dataabc/weiboSpider/tree/python2),本使用说明是python3版的使用说明。
### 1.安装程序
本程序提供两种安装方式,一种是**源码安装**,另一种是**pip安装**,二者功能完全相同。如果你需要修改源码,建议使用第一种方式,否则选哪种安装方式都可以。
#### 源码安装
```bash
$ git clone https://github.com/dataabc/weiboSpider.git
$ cd weiboSpider
$ pip install -r requirements.txt
```
#### pip安装
```bash
$ python3 -m pip install weibo-spider
```
### 2.程序设置
要了解程序设置,请查看[程序设置文档](https://github.com/dataabc/weiboSpider/blob/master/docs/settings.md)。
### 3.运行程序
**源码安装**的用户可以在weiboSpider目录运行如下命令,**pip安装**的用户可以在任意有写权限的目录运行如下命令
```bash
$ python3 -m weibo_spider
```
第一次执行,会自动在当前目录创建config.json配置文件,配置好后执行同样的命令就可以获取微博了。
如果你已经有config.j
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
weiboSpider-master.zip (77个子文件)
weiboSpider-master
setup.py 821B
.github
ISSUE_TEMPLATE
failed.md 863B
feature-request.md 282B
bug-report.md 1KB
other.md 97B
workflows
python-app.yml 1KB
stale.yml 889B
tests
__init__.py 0B
test_parser
__init__.py 0B
util.py 399B
test_mblog_picAll_parser.py 610B
test_index_parser.py 559B
test_comment_parser.py 2KB
test_info_parser.py 415B
test_album_parser.py 754B
test_photo_parser.py 436B
test_page_parser.py 1KB
testdata
a4437630f3bdfa2757bae1595186ac063fe5ec25cf2f98116ece83cb.html 20KB
ca5f2a555e8d62f728c66fa90afb2d54d19f8c898e164204a61bdf03.html 6KB
63a98849ec82b2c87ec55bca03cbf5988f7eac233a23d86b4fdf5ffd.html 9KB
e4d541ecb02253c14abc1d52605fc00d91279df9ac4c1465c85b91b3.html 6KB
url_map.json 1KB
2f62165fa3ca1e85e0d398d385c377a068b76eb95765f7020ffffd3e.html 20KB
b541fd1751117498b6d6f40d3321686ddf871651237c4ac854a5c3eb.html 6KB
d486235d4a17dd0accb0f2cc77b3648abfa03580b9e0cdb61f1e618f.html 24KB
4d5ed0a3ebd0303cb45edd544dbc0ab5e86d43e103405f0c60515884.html 14KB
4957814af5a123b82e974b5537dea736dfb34e48d8835203a45d2e67.html 20KB
e97222acd5bc7d8d1bfbd3f352f8cad3e36fdd19e40b69e1c33fb3c3.html 4KB
76233b3f90394581aac6f19cfa5d674a610e8b442b1f83de7673ab49.html 4KB
CONTRIBUTING.md 3KB
docs
userid.md 2KB
contributors.md 2KB
cookie.md 797B
automation.md 4KB
settings.md 11KB
example.md 7KB
academic.md 837B
FAQ.md 4KB
weibo_spider
__init__.py 0B
logging.conf 941B
downloader
__init__.py 352B
avatar_picture_downloader.py 724B
retweet_picture_downloader.py 290B
video_downloader.py 599B
downloader.py 2KB
origin_picture_downloader.py 290B
img_downloader.py 1KB
datetime_util.py 259B
user_id_list.txt 118B
user.py 757B
weibo.py 989B
config_util.py 7KB
__main__.py 158B
writer
__init__.py 357B
mongo_writer.py 2KB
kafka_writer.py 1KB
mysql_writer.py 5KB
json_writer.py 2KB
csv_writer.py 2KB
sqlite_writer.py 4KB
writer.py 453B
txt_writer.py 2KB
parser
comment_parser.py 2KB
__init__.py 213B
info_parser.py 2KB
util.py 4KB
page_parser.py 16KB
mblog_picAll_parser.py 389B
album_parser.py 621B
photo_parser.py 955B
parser.py 126B
index_parser.py 2KB
config_sample.json 912B
spider.py 17KB
requirements.txt 57B
.gitignore 96B
README.md 17KB
共 77 条
- 1
资源评论
常量侠
- 粉丝: 5669
- 资源: 258
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功