## 微博爬虫
### 用户信息(UserTask)
| 字段 | 示例 | 说明 |
| ------------------------ | ---------------------------------- | ---------------------------------- |
| result.uid | 1680938527 | 用户唯一标识 |
| result.screen_name | 作恶太妖精 | 用户昵称 |
| result.statuses_count | 12275 | 微博数量 |
| result.verified_type | -1 | 账号类型,见[附录](#verified_type) |
| result.verified_type_ext | -1 | 附加账号类型,-1:无 1:橙V 0:金V |
| result.description | 因为追求梦想而伟大!梦想是熬出来的 | 简介 |
| result.gender | f | 性别,f:女 m:男 |
| result.mbtype | 0 | 未知 |
| result.urank | 35 | 账号等级 |
| result.mbrank | 0 | 会员等级 |
| result.followers_count | 754 | 粉丝数量 |
| result.follow_count | 602 | 关注数量 |
| result.profile_image_id | 6431161fjw1e8qgp5bmzyj2050050aa8 | 头像图片号 |
| result.status | 0 | 账号状态,-1:不可用 0:可用 |
| result.updated_at | 2018-08-10 00:02:02 | 抓取时间 |
```python
self.result = {
'uid': 2554193671,
'screen_name': '黑镜头世界',
'statuses_count': 88,
'verified_type': -1,
'verified_type_ext': -1,
'description': '一张残旧的老照片,能给你带来灌顶的震撼~',
'gender': 'm',
'mbtype': 0,
'urank': 2,
'mbrank': 0,
'followers_count': 84,
'follow_count': 4,
'profile_image_id': '983de707jw1e8qgp5bmzyj2050050aa8',
'status': 0,
'updated_at': datetime.datetime(2018, 8, 31, 0, 38, 10, 231390)
}
```
### 原创微博(UserTask)
每个用户前10条微博中的原创微博
| 字段 | 示例 | 说明 |
| ---------------------- | ------------------------------------ | ------------ |
| result.mid | 4264355334054790 | 微博唯一标识 |
| result.uid | 1225419417 | 用户唯一标识 |
| result.text | 哇!抽到了!爱国宝 | 微博正文 |
| result.reposts_count | 14 | 转发数量 |
| result.comments_count | 114 | 评论数量 |
| result.attitudes_count | 1481 | 点赞数量 |
| result.source | iPhone X | 来源 |
| result.updated_at | 2018-08-10 00:02:09 | 抓取时间 |
| result.created_at | 2018-07-21 22:56:41 | 发表时间 |
| result.images | ["490a6a99gy1fthvjguf0gj20v91voqbr"] | 图片列表 |
| result.is_long_text | False | 是否为长微博 |
```python
self.result = [
{
'mid': 4278823505781372,
'uid': 2094949595,
'text': '杭州的绿水青山留下了许多诗句,和风熏,杨柳轻,郁郁青山江水平,笑语满香径。什么使你爱上了这座城市?{网页链接}(https://weibo.com/tv/v/Gw6iL1Q0e?fid=1034:4276507087207862) \u200b',
'reposts_count': 1,
'comments_count': 1,
'attitudes_count': 2,
'source': '微博 weibo.com',
'updated_at': datetime.datetime(2018, 8, 31, 0, 38, 11, 904636),
'created_at': datetime.datetime(2018, 8, 30, 21, 8, 3, tzinfo=datetime.timezone(datetime.timedelta(0, 28800))),
'images': [],
'is_long_text': False
},
{
'mid': 4278785248875113,
'uid': 2094949595,
'text': '你当时学的专业是什么?你现在又在做什么工作呢? \u200b',
'reposts_count': 0,
'comments_count': 12,
'attitudes_count': 1,
'source': '微博 weibo.com',
'updated_at': datetime.datetime(2018, 8, 31, 0, 38, 11, 904846),
'created_at': datetime.datetime(2018, 8, 30, 18, 36, 3, tzinfo=datetime.timezone(datetime.timedelta(0, 28800))),
'images': ['7cde64dbgy1furl2c240jj20e80cujs2'],
'is_long_text': False
},
]
```
### 转发微博(UserTask)
每个用户前10条微博中的转发微博
| 字段 | 示例 | 说明 |
| ---------------------- | ---------------------- | ------------------------------- |
| result.mid | 4269756171586532 | 微博唯一标识 |
| result.uid | 1680938527 | 用户唯一标识 |
| result.text | //@李宇春如初:转发微博 | 微博正文 |
| result.reposts_count | 0 | 转发数量 |
| result.comments_count | 0 | 评论数量 |
| result.attitudes_count | 0 | 点赞数量 |
| result.source | iPhone客户端 | 来源 |
| result.pmid | 4269752379437757 | 父级微博的mid(上层转发,可空) |
| result.smid | 4269748974496983 | 源微博的mid(原创微博) |
| result.suid | 5427461387 | 源微博的uid |
| result.updated_at | 2018-08-10 00:02:02 | 抓取时间 |
| result.created_at | 2018-08-05 20:37:42 | 发表时间 |
```python
self.result = [
{'mid': 4278871820165470,
'uid': 1802393212,
'text': '这壁纸超萌哦,喜欢就快来打call @Line壁纸酱',
'reposts_count': 0,
'comments_count': 0,
'attitudes_count': 2,
'source': '皮皮时光机',
'updated_at': datetime.datetime(2018, 8, 31, 0, 38, 12, 250057),
'created_at': datetime.datetime(2018, 8, 31, 0, 20, 2, tzinfo=datetime.timezone(datetime.timedelta(0, 28800))),
'pmid': 0,
'smid': 4278723350035431,
'suid': 6150916523
},
{
'mid': 4278866795185761,
'uid': 1802393212,
'text': '[心]',
'reposts_count': 0,
'comments_count': 0,
'attitudes_count': 2,
'source': '皮皮时光机',
'updated_at': datetime.datetime(2018, 8, 31, 0, 38, 12, 250450),
'created_at': datetime.datetime(2018, 8, 31, 0, 0, 4, tzinfo=datetime.timezone(datetime.timedelta(0, 28800))),
'pmid': 0,
'smid': 4266013078506248,
'suid': 5604000425}
]
```
### 关注列表(FollowerTask)
每个用户最后180个关注、部分大V关注
| 字段 | 示例 | 说明 |
| ------ | ------------------------ | ----------------------- |
| result | [5427461387, 1680938527] | 关注列表中所有用户的uid |
```python
self.result = [
1199430302, 5291824241, 1744583555, 1225627080, 1192504311, 1539469391, 1831216671, 1855790127,
]
```
+ 通过self.uid获取当前用户UID
### 粉丝列表(FanTask)
每个用户最后4500个粉丝、部分大V粉丝
| 字段 | 示例 | 说明 |
| ------ | -------------------------- | ----
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
python爬虫 Python爬虫框架,内置微博、自如、豆瓣图书、拉勾网、拼多多等爬虫 安装 环境要求 python 3.6.0+ redis 2.6+ 类unix系统 安装PyLoom git clone https://github.com/spencer404/PyLoom.git python3.6 -m pip install -e ./PyLoom 添加 -i https://pypi.douban.com/simple 参数,利用豆瓣镜像提速。 出现错误fatal error: Python.h: No such file or directory时, 需安装对应平台的python3.x-devel包 运行 以运行spiders/WeiBo为例, 最简参数启动爬虫 pyloom run -s PyLoom/spiders/WeiBo 在爬虫目录中执行run时,可省略-s参数。 启动代理池 pyloom proxy run 添加代理 根据命令提示,添加名为"xxx"的代理 pyloom proxy add 使用代理启动爬虫
资源推荐
资源详情
资源评论
收起资源包目录
Python爬虫框架,内置微博、自如、豆瓣图书、拉勾网、拼多多等爬虫.zip (45个子文件)
PyLoom-master
setup.py 750B
spiders
PinDuoDuoWEB
__init__.py 20B
get_anticontent.js 95KB
configs.py 671B
README.md 8KB
tasks.py 7KB
DouBan250
__init__.py 890B
configs.py 653B
README.md 86B
WeiBo
__init__.py 21B
configs.py 664B
README.md 8KB
tasks.py 8KB
PinDuoDuo
__init__.py 21B
configs.py 686B
README.md 8KB
tasks.py 7KB
Ziroom
__init__.py 21B
configs.py 657B
README.md 6KB
tasks.py 7KB
DouBanBooks
__init__.py 21B
configs.py 664B
README.md 2KB
tasks.py 3KB
LaGou
__init__.py 73B
configs.py 702B
README.md 4KB
tasks.py 8KB
pyloom
utils.py 9KB
__init__.py 24B
buckets.py 8KB
user-agent.json 23KB
scheduler.py 11KB
__main__.py 92B
lua
bloom_check.lua 3KB
bloom_cas.lua 4KB
url_pop.lua 3KB
url_add.lua 3KB
proxy.py 8KB
drivers.py 5KB
worker.py 10KB
entry.py 18KB
tasks.py 16KB
errors.py 2KB
共 45 条
- 1
资源评论
博士僧小星
- 粉丝: 2261
- 资源: 5991
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- (源码)基于Arduino和Python的实时歌曲信息液晶显示屏展示系统.zip
- (源码)基于C++和C混合模式的操作系统开发项目.zip
- (源码)基于Arduino的全球天气监控系统.zip
- OpenCVForUnity2.6.0.unitypackage
- (源码)基于SimPy和贝叶斯优化的流程仿真系统.zip
- (源码)基于Java Web的个人信息管理系统.zip
- (源码)基于C++和OTL4的PostgreSQL数据库连接系统.zip
- (源码)基于ESP32和AWS IoT Core的室内温湿度监测系统.zip
- (源码)基于Arduino的I2C协议交通灯模拟系统.zip
- coco.names 文件
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功