新浪微博python爬虫程序.zip资源-CSDN文库

共53个文件

py：46个

cfg：3个

txt：1个

需积分: 1 40 浏览量 2024-03-24 19:41:24 上传评论收藏 55KB ZIP 举报

：“新浪微博python爬虫程序.zip”是一个包含Python编程语言编写的爬虫程序，用于抓取新浪微博上的数据。这个压缩包可能包含了实现这一功能的所有必要文件和代码，旨在帮助用户自动化地收集和分析微博平台上的信息。：“python爬虫程序”指的是使用Python语言开发的网络爬虫，其目的是从互联网上抓取特定网站的数据。在本例中，该程序专注于抓取新浪微博的数据，这可能包括用户发布的文本、图片、视频、话题、点赞、评论等信息。Python因其丰富的库和简洁的语法而成为编写爬虫程序的首选语言，其中BeautifulSoup、Scrapy、Requests等库常用于网页解析和数据获取。：“pthon”可能是“python”的拼写错误，但可以理解为对Python编程语言的提及。Python是广泛应用于数据分析、机器学习、网络爬虫等多个领域的高级编程语言，拥有强大的社区支持和丰富的第三方库。【压缩包子文件的文件名称列表】： - "ignore.txt"：此文件通常用于指示在某些操作（如版本控制）中应忽略的文件或文件夹。在爬虫项目中，可能包含不应被跟踪或抓取的文件或路径。 - "SinaSpider-master"：这是一个目录名，很可能包含了爬虫项目的主代码。"SinaSpider"表明是针对新浪微博的爬虫，"master"可能是Git仓库中的主分支，通常包含项目的最新稳定版本。从这个目录结构可以推测，"SinaSpider-master"下可能有以下文件和目录： 1. "spider.py"：这是爬虫的主文件，包含爬虫的逻辑和设置，如定义URL、解析HTML、提取数据等。 2. "settings.py"：配置文件，可能包含爬虫的全局设置，如请求头、延迟时间、存储路径等。 3. "items.py"：定义要抓取数据的结构，比如微博的作者、内容、发布时间等字段。 4. "pipelines.py"：处理和存储抓取到的数据，可能包括清洗、去重、保存到数据库或文件等操作。 5. "middlewares.py"：中间件文件，可以添加自定义的功能，如处理反爬机制、代理设置等。 6. "models.py"（如果涉及数据库）：定义与数据库交互的数据模型。 7. "requirements.txt"：列出项目依赖的Python库及其版本。通过运行这个爬虫程序，用户可以自动化获取并分析新浪微博的数据，可能用于社交媒体分析、市场研究、舆情监控等多种用途。然而，使用网络爬虫时必须遵守网站的robots.txt协议和相关法律法规，尊重数据隐私，并确保合理合法地使用抓取到的信息。

资源推荐

资源详情

资源评论

收起资源包目录

新浪微博python爬虫程序.zip （53个子文件）

ignore.txt 18B

SinaSpider-master

pipelines.py 7KB

readme.md 6KB

Sina_spider2

scrapy.cfg 268B

Begin.py 71B

Sina_spider2

__init__.py 0B

pipelines.py 841B

middleware.py 465B

user_agents.py 7KB

cookies.py 2KB

spiders

__init__.py 161B

informationSpider.py 4KB

tweetsSpider.py 4KB

items.py 964B

weiboID.py 3KB

settings.py 758B

commands

__init__.py 0B

crawlall.py 1KB

Sina_spider3

scrapy.cfg 268B

Sina_spider3

__init__.py 0B

pipelines.py 7KB

middleware.py 3KB

user_agents.py 7KB

yumdama.py 6KB

cookies.py 7KB

cleanRedis 1KB

spiders

__init__.py 161B

sinaSpider.py 9KB

items.py 1KB

weiboID.py 3KB

scrapy_redis

__init__.py 0B

pipelines.py 986B

tests.py 8KB

dupefilter.py 1KB

connection.py 869B

scheduler.py 3KB

spiders.py 2KB

queue.py 5KB

settings.py 1KB

launch.py 79B

.gitignore 1KB

Sina_spider1

scrapy.cfg 268B

Begin.py 79B

Sina_spider1

__init__.py 0B

pipelines.py 1KB

middleware.py 465B

user_agents.py 7KB

yumdama.py 6KB

cookies.py 5KB

spiders

__init__.py 161B

spiders.py 8KB

items.py 1KB

settings.py 660B

**Sina_Spider1: 《[新浪微博爬虫分享（一天可抓取 1300 万条数据）](http://blog.csdn.net/bone_ace/article/details/50903178)》** **Sina_Spider2: 《[新浪微博分布式爬虫分享](http://blog.csdn.net/bone_ace/article/details/50904718)》** **Sina_Spider3: 《[新浪微博爬虫分享（2016年12月01日更新）](http://blog.csdn.net/bone_ace/article/details/53379904)》** Sina_Spider1为单机版本。 Sina_Spider2在Sina_Spider1的基础上基于scrapy_redis模块实现分布式。 Sina_Spider3增加了Cookie池的维护，优化了种子队列和去重队列。 三个版本的详细介绍请看各自的博客。遇到什么问题请尽量留言，方便后来遇到同样问题的同学查看。也可加一下QQ交流群：<a target="_blank" href="//shang.qq.com/wpa/qunwpa?idkey=a3e1d79f8c7e12b9db5ac680375d7174a91384f288d3ba16e1781c2587872560"><img border="0" src="http://pub.idqqimg.com/wpa/images/group.png" alt="微博爬虫交流群" title="微博爬虫交流群"></a>。 -------------------------------------------------------------------------- 20161215更新： 有人反映说爬虫一直显示爬了0页，没有抓到数据。 1、把settings.py里面的LOG_LEVEL = 'INFO'一行注释掉，使用默认的"DEBUG"日志模式，运行程序可查看是否正常请求网页。 2、注意程序是有去重功能的，所以要清空数据重新跑的话一定要把redis的去重队列删掉，否则起始ID被记录为已爬的话也会出现抓取为空的现象。清空redis数据运行cleanRedis.py即可。 3、另外，微博开始对IP有限制了，如果爬的快可能会出现403，大规模抓取的话需要加上代理池。 --------------------------------------------------------------------------- 20170323更新： 微博从昨天下午三点多开始做了一些改动，原本免验证码获取Cookie的途径已经不能用了。以前为了免验证码登录，到处找途径，可能最近爬的人多了，给封了。 那么就直面验证码吧，走正常流程登录，才没那么容易被封。此次更新主要在于Cookie的获取途径，其他地方和往常一样（修改了cookies.py，新增了yumdama.py）。 加了验证码，难度和复杂程度都提高了一点，对于没有编程经验的同学可能会有一些难度。 验证码处理主要有两种：手动输入和打码平台自动填写（手动输入配置简单，打码平台输入适合大规模抓取）。 手动方式流程： 1、下载PhantomJS.exe，放在python的安装路径（适合Windows系统，Linux请找百度）。 2、运行launch.py启动爬虫，中途会要求输入验证码，查看项目路径下新生成的aa.png，输入验证码回车，即可。 打码方式流程： 1、下载PhantomJS.exe，放在python的安装路径。 2、安装Python模块PIL（请自行百度，可能道路比较坎坷） 3、验证码打码：我使用的是 http://www.yundama.com/ （真的不是打广告..），将username、password、appkey填入yumdama.py（正确率挺高，weibo.cn正常的验证码是4位字符，1元可以识别200个）。 （如果一直出现302，调试发现yumdama.py一直返回空字符串，可将yumdama.py中的apiurl改成 'http://api.yundama.net:5678/api.php' 试试，在第38行前后，原值是 'http://api.yundama.com/api.php' 。） 4、cookies.py中设置IDENTIFY=2，运行launch.py启动爬虫即可。 --------------------------------------------------------------------------- 20170405更新： 微博从4月1日开始对IP限制更严了，很容易就403 Forbidden了，解决的办法是加代理。从16年12月更新代码后爬微博的人多了许多，可能对weibo.cn造成了挺多无效访问。所以此次代码就不更新了，过滤一些爬虫新手，如果仍需大量抓取的，在middleware.py中加几行代码，带上代理就行了，难度也不大。没加代理的同学将爬虫速度再降低一点，还是能跑的。 可能有挺多同学需要微博数据写论文，在群里找一下已有数据的同学吧，购买代理也不便宜。 （我也没怎么跑微博，手上也没什么数据） --------------------------------------------------------------------------- 20170407更新： 有些同学还用着SinaSpider1，现将SinaSpider1中获取Cookie的代码也作了更新，使用方法和SinaSpider3的一样，见上面的更新说明。 --------------------------------------------------------------------------- 20170410更新： 许多同学问微博帐号哪里买，淘宝上禁的有一点严，所以直接搜可能没搜到。需要的同学可以搜店铺名称：账号素材生产基地或互联网账号营销中心，看店铺里的商品，有老客户链接。偶尔会断货，购买多少自行斟酌。非广告，不需要的请忽略。 --------------------------------------------------------------------------- 20170426更新： 从昨天下午开始，weibo.cn的登录方式又变了，关闭了原来的登录页面，采用m.weibo.com的登录途径，登录过程中可能会出现图形解锁的验证码。隐约感觉有几个微博官方反爬虫的人正在暗处默默地盯着我，说不定什么时候就要请我去喝茶了。。唉，图形解锁应该也是可以破解的，但是最近事多，要过两个星期才有空研究，有需要的可以等等，或者大伙自己可以研究一下，按像素识别。 --------------------------------------------------------------------------- 20170509更新： 1、http://weibo.cn改成了https://weibo.cn。 2、图形解锁验证码的破解见博客 [《图形解锁破解（附Python代码）》](http://blog.csdn.net/bone_ace/article/details/71056741) 。微博爬虫的Cookie获取模块请自行更新。

评论收藏

内容反馈