Python大作业微信爬虫
程序功能:爬取指定公众号的微信文章标题、作者、链接、图标文件,暂不支持保存成pdf(时间有限,保存完整网页为pdf难度有点高)
接口说明:
仅提供一个对外接口spider(self,count=10,offset=-10),调用接口便会通过交互操作读取所需信息,需要输入fiddler抓取的请求头
接口第一个参数是步进,代表每次请求的推送的条数,offset代表偏移量(第一条数据的偏移量)
接口返回四个数据,依次为:采集的数据(以包含字典的列表形式),当前offset,当前count,采集是否成功
程序说明:
程序会自动生成CSV文件并转换格式以免中文在Excel中出现乱码,同时会在./image下保存所有的文章图标,命名为$id.png,ID为程序内部使用的ID,对应CSV表格中第一列的ID
如果被封IP或服务器返回任何异常,则程序会自动保存当前进度,然后记录当前偏移量和步进,过一段时间后可以重新打开程序并选择加载配置,继续抓取
程序的输出是 输出.csv,_result.csv是用于内部加载的文件(我不会说是因为懒得写ansi到utf-8的转换函数才保留的==),这两个文件前者ansi编码,后者utf-8编码,后者在Excel中打开会乱码
程序还会在工作目录生成ext.ini,里面包含保存的配置,与_result.csv配套使用,不建议修改,更不能更改顺序
作者的话:
这个程序设计的时候加入了一些可变接口,但是大多数都是直接封装使用,被写成固定值或者功能没完全使用,还是有提升的潜力的
第一次用github,好难用……
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
Python大作业--爬虫(完美应付大作业),Python大作业--爬虫(完美应付大作业)。 Python大作业:微信爬虫 程序功能:爬取指定公众号的微信文章标题、作者、链接、图标文件,暂不支持保存成pdf(时间有限,保存完整网页为pdf难度有点高) 接口说明: 仅提供一个对外接口spider(self,count=10,offset=-10),调用接口便会通过交互操作读取所需信息,需要输入fiddler抓取的请求头 接口第一个参数是步进,代表每次请求的推送的条数,offset代表偏移量(第一条数据的偏移量) 接口返回四个数据,依次为:采集的数据(以包含字典的列表形式),当前offset,当前count,采集是否成功 程序说明: 程序会自动生成CSV文件并转换格式以免中文在Excel中出现乱码,同时会在./image下保存所有的文章图标,命名为$id.png,ID为程序内部使用的ID,对应CSV表格中第一列的ID 如果被封IP或服务器返回任何异常,则程序会自动保存当前进度,然后记录当前偏移量和步进,过一段时间后可以重新打开程序并选择加载配置,继续抓取 程序的输出是 输出.csv
资源推荐
资源详情
资源评论

















收起资源包目录













共 8 条
- 1

「已注销」
- 粉丝: 704
- 资源: 3644
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


安全验证
文档复制为VIP权益,开通VIP直接复制

- 1
- 2
- 3
- 4
- 5
- 6
前往页