Python爬取微博数据并写入文件和数据库.zip_python爬取b站专栏资源-CSDN文库

共78个文件

py：44个

md：14个

html：11个

版权申诉

python

爬取微博

写入文件

源码

5星 · 超过95%的资源 112 浏览量 2023-08-31 08:14:51 上传评论 1 收藏 134KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

Python爬取微博数据并写入文件和数据库.zip （78个子文件）

Python爬取微博数据并写入文件和数据库

spider

简介.md 3KB

setup.py 821B

.github

ISSUE_TEMPLATE

failed.md 863B

feature-request.md 282B

bug-report.md 1KB

other.md 97B

workflows

python-app.yml 1KB

stale.yml 776B

LICENSE 1KB

tests

__init__.py 1024B

test_parser

__init__.py 1024B

util.py 399B

test_mblog_picAll_parser.py 610B

test_index_parser.py 559B

test_comment_parser.py 2KB

test_info_parser.py 415B

test_album_parser.py 754B

test_photo_parser.py 436B

test_page_parser.py 1KB

testdata

a4437630f3bdfa2757bae1595186ac063fe5ec25cf2f98116ece83cb.html 20KB

ca5f2a555e8d62f728c66fa90afb2d54d19f8c898e164204a61bdf03.html 6KB

63a98849ec82b2c87ec55bca03cbf5988f7eac233a23d86b4fdf5ffd.html 9KB

e4d541ecb02253c14abc1d52605fc00d91279df9ac4c1465c85b91b3.html 6KB

url_map.json 1KB

2f62165fa3ca1e85e0d398d385c377a068b76eb95765f7020ffffd3e.html 20KB

b541fd1751117498b6d6f40d3321686ddf871651237c4ac854a5c3eb.html 6KB

d486235d4a17dd0accb0f2cc77b3648abfa03580b9e0cdb61f1e618f.html 24KB

4d5ed0a3ebd0303cb45edd544dbc0ab5e86d43e103405f0c60515884.html 14KB

4957814af5a123b82e974b5537dea736dfb34e48d8835203a45d2e67.html 20KB

e97222acd5bc7d8d1bfbd3f352f8cad3e36fdd19e40b69e1c33fb3c3.html 4KB

76233b3f90394581aac6f19cfa5d674a610e8b442b1f83de7673ab49.html 4KB

docs

userid.md 2KB

contributors.md 2KB

cookie.md 797B

automation.md 4KB

settings.md 11KB

example.md 7KB

academic.md 837B

FAQ.md 4KB

weibo_spider

__init__.py 1024B

logging.conf 941B

downloader

__init__.py 352B

avatar_picture_downloader.py 724B

retweet_picture_downloader.py 290B

video_downloader.py 599B

downloader.py 2KB

origin_picture_downloader.py 290B

img_downloader.py 1KB

datetime_util.py 259B

user_id_list.txt 118B

user.py 757B

weibo.py 989B

config_util.py 7KB

__main__.py 158B

writer

__init__.py 357B

mongo_writer.py 2KB

kafka_writer.py 1KB

mysql_writer.py 5KB

json_writer.py 2KB

csv_writer.py 2KB

sqlite_writer.py 4KB

writer.py 453B

txt_writer.py 2KB

parser

comment_parser.py 2KB

__init__.py 213B

info_parser.py 2KB

util.py 4KB

page_parser.py 16KB

mblog_picAll_parser.py 389B

album_parser.py 621B

photo_parser.py 955B

parser.py 126B

index_parser.py 2KB

config_sample.json 912B

spider.py 17KB

requirements.txt 56B

.gitignore 96B

README.md 14KB

# 基于Python爬取微博数据 # Weibo Spider 本程序可以连续爬取**一个**或**多个**新浪微博用户（如[胡歌](https://weibo.cn/u/1223178222)、[迪丽热巴](https://weibo.cn/u/1669879400)、[郭碧婷](https://weibo.cn/u/1729370543)）的数据，并将结果信息写入**文件**或**数据库**。写入信息几乎包括用户微博的所有数据，包括**用户信息**和**微博信息**两大类。因为内容太多，这里不再赘述，详细内容见[获取到的字段](#获取到的字段)。如果只需要用户信息，可以通过设置实现只爬取微博用户信息的功能。本程序需设置cookie来获取微博访问权限，后面会讲解[如何获取cookie](#如何获取cookie)。如果不想设置cookie，可以使用[免cookie版](https://github.com/dataabc/weibo-crawler)，二者功能类似。爬取结果可写入文件和数据库，具体的写入文件类型如下： - **txt文件**（默认） - **csv文件**（默认） - **json文件**（可选） - **MySQL数据库**（可选） - **MongoDB数据库**（可选） - **SQLite数据库**（可选）同时支持下载微博中的图片和视频，具体的可下载文件如下： - **原创**微博中的原始**图片**（可选） - **转发**微博中的原始**图片**（可选） - **原创**微博中的**视频**（可选） - **转发**微博中的**视频**（可选） - **原创**微博**Live Photo**中的**视频**（[免cookie版](https://github.com/dataabc/weibo-crawler)特有） - **转发**微博**Live Photo**中的**视频**（[免cookie版](https://github.com/dataabc/weibo-crawler)特有） ## 获取到的字段本部分为爬取到的字段信息说明，为了与[免cookie版](https://github.com/dataabc/weibo-crawler)区分，下面将两者爬取到的信息都列出来。如果是免cookie版所特有的信息，会有免cookie标注，没有标注的为二者共有的信息。 ### 用户信息 - 用户id：微博用户id，如"1669879400"，其实这个字段本来就是已知字段 - 昵称：用户昵称，如"Dear-迪丽热巴" - 性别：微博用户性别 - 生日：用户出生日期 - 所在地：用户所在地 - 学习经历：用户上学时学校的名字和时间 - 工作经历：用户所属公司名字和时间 - 阳光信用（免cookie版）：用户的阳光信用 - 微博注册时间（免cookie版）：用户微博注册日期 - 微博数：用户的全部微博数（转发微博+原创微博） - 关注数：用户关注的微博数量 - 粉丝数：用户的粉丝数 - 简介：用户简介 - 主页地址（免cookie版）：微博移动版主页url - 头像url（免cookie版）：用户头像url - 高清头像url（免cookie版）：用户高清头像url - 微博等级（免cookie版）：用户微博等级 - 会员等级（免cookie版）：微博会员用户等级，普通用户该等级为0 - 是否认证（免cookie版）：用户是否认证，为布尔类型 - 认证类型（免cookie版）：用户认证类型，如个人认证、企业认证、政府认证等 - 认证信息：为认证用户特有，用户信息栏显示的认证信息 ### 微博信息 - 微博id：微博唯一标志 - 微博内容：微博正文 - 头条文章url：微博中头条文章的url，若微博中不存在头条文章，则值为'' - 原始图片url：原创微博图片和转发微博转发理由中图片的url，若某条微博存在多张图片，每个url以英文逗号分隔，若没有图片则值为"无" - 视频url: 微博中的视频url，若微博中没有视频，则值为"无" - 微博发布位置：位置微博中的发布位置 - 微博发布时间：微博发布时的时间，精确到分 - 点赞数：微博被赞的数量 - 转发数：微博被转发的数量 - 评论数：微博被评论的数量 - 微博发布工具：微博的发布工具，如iPhone客户端、HUAWEI Mate 20 Pro等 - 结果文件：保存在当前目录weibo文件夹下以用户昵称为名的文件夹里，名字为"user_id.csv"和"user_id.txt"的形式 - 微博图片：原创微博中的图片和转发微博转发理由中的图片，保存在以用户昵称为名的文件夹下的img文件夹里 - 微博视频：原创微博中的视频，保存在以用户昵称为名的文件夹下的video文件夹里 - 微博bid（免cookie版）：为[免cookie版](https://github.com/dataabc/weibo-crawler)所特有，与本程序中的微博id是同一个值 - 话题（免cookie版）：微博话题，即两个#中的内容，若存在多个话题，每个url以英文逗号分隔，若没有则值为'' - @用户（免cookie版）：微博@的用户，若存在多个@用户，每个url以英文逗号分隔，若没有则值为'' - 原始微博（免cookie版）：为转发微博所特有，是转发微博中那条被转发的微博，存储为字典形式，包含了上述微博信息中的所有内容，如微博id、微博内容等等 ## 示例如果想要知道程序的具体运行结果，可以查看[示例文档](https://github.com/dataabc/weiboSpider/blob/master/docs/example.md)，该文档介绍了爬取[迪丽热巴微博](https://weibo.cn/u/1669879400)的例子，并附有部分结果文件截图。 ## 运行环境 - 开发语言：python2/python3 - 系统： Windows/Linux/macOS ## 使用说明 ### 0.版本本程序有两个版本，你现在看到的是python3版，另一个是python2版，python2版位于[python2分支](https://github.com/dataabc/weiboSpider/tree/python2)。目前主力开发python3版，包括新功能开发和bug修复；python2版仅支持bug修复。推荐python3用户使用当前版本，推荐python2用户使用[python2版](https://github.com/dataabc/weiboSpider/tree/python2)，本使用说明是python3版的使用说明。 ### 1.安装程序本程序提供两种安装方式，一种是**源码安装**，另一种是**pip安装**，二者功能完全相同。如果你需要修改源码，建议使用第一种方式，否则选哪种安装方式都可以。 #### 源码安装 ```bash $ git clone https://github.com/dataabc/weiboSpider.git $ cd weiboSpider $ pip install -r requirements.txt ``` #### pip安装 ```bash $ python3 -m pip install weibo-spider ``` ### 2.程序设置要了解程序设置，请查看[程序设置文档](https://github.com/dataabc/weiboSpider/blob/master/docs/settings.md)。 ### 3.运行程序 **源码安装**的用户可以在weiboSpider目录运行如下命令，**pip安装**的用户可以在任意有写权限的目录运行如下命令 ```bash $ python3 -m weibo_spider ``` 第一次执行，会自动在当前目录创建config.json配置文件，配置好后执行同样的命令就可以获取微博了。如果你已经有config.json文件了，也可以通过config_path参数配置config.json路径，运行程序，命令行如下： ```bash $ python3 -m weibo_spider --config_path="config.json" ``` 如果你想指定文件（csv、txt、json、图片、视频）保存路径，可以通过output_dir参数设定。假如你想把文件保存到/home/weibo/目录，可以运行如下命令： ```bash $ python3 -m weibo_spider --output_dir="/home/weibo/" ``` 如果你想通过命令行输入user_id，可以使用参数u，可以输入一个或多个user_id，每个user_id以英文逗号分开，如果这些user_id中有重复的user_id，程序会自动去重。命令行如下： ```bash $ python3 -m weibo_spider --u="1669879400,1223178222" ``` 程序会获取user_id分别为1669879400和1223178222的微博用户的微博，后面会讲[如何获取user_id](#如何获取user_id)。该方式的所有user_id使用config.json中的since_date和end_date设置，通过修改它们的值可以控制爬取的时间范围。若config.json中的user_id_list是文件路径，每个命令行中的user_id都会自动保存到该文件内，且自动更新since_date；若不是路径，user_id会保存在当前目录的user_id_list.txt内，且自动更新

评论收藏

内容反馈

版权申诉