Github主页 | [官网](https://www.wcplus.cn/?s=weixin_crawler) | [更新记录](https://www.wcplus.cn/update_notes?s=weixin_crawler) | [4K视频介绍](https://www.youtube.com/watch?v=nAtqSTgVRw0) | [源代码结构](struct.md)
![1](./img/wcplusPro7.5.svg) ![2](./img/build.svg) ![3](./img/Python.svg) ![4](./img/vue.svg) ![5](./img/tornado6.1.svg) <a href="http://www.wcplus.cn/?s=weixin_crawler">![6](./img/website.svg)</a>
<br>
<div align="center" style="margin: 100px 0px">
<img src="http://cdn2.wcplus.cn/wcplusProLogo.png"/>
</div>
<br>
![7](./img/cover.png)
weixin_crawler 已于2019年更名为 wcplusPro,不再免费提供源代码。更名之前的最新的源代码(最后更新于2019年3月),仍然开源,位于项目的 weixin_crawler/ 路径下,可能已经无法直接运行,仅供学习之用,使用方法见[文档](http://www.wcplus.cn/weixin_crawler?s=weixin_crawler)。本文仅介绍 wcplusPro 的技术和功能特性。
wcplusPro 提供了:
- 稳定的公众号数据采集服务
- 面向公众号的分析报告
- 公众号全文检索
你可以按照使用时长购买订阅版,也可以直接购买源代码。wcplusPro 提供了试用版,足够采集、导出、分析 1~2 个公众号的全部历史文章。
- [官网](https://www.wcplus.cn/?s=weixin_crawler)
- [详细功能介绍](https://www.wcplus.cn/about?s=weixin_crawler)
- [产品形式](https://www.wcplus.cn/product?s=weixin_crawler)
- [视频演示](https://www.bilibili.com/video/BV1ec411X7cd)
### 功能特性
1. 采集任意公众号的全部历史文章数据,这些数据包括:
- 公众号的名称
- 标题、封面链接、作者、摘要、发布时间(精确到秒)、版权标志、发文IP属地
- 文章位置(头条、次1条等)
- 永久文章链接
- 图文内容(包括文章开头的原创标识和文末的原文链接,用户可进一步提取图文中的文字和图片)
- 阅读数量、点赞数量、在看数量、评论数量、打赏数量 在内的数据。
2. 提供面向公众号的分析报告
- 阅读数据全景图,包括阅读量、点赞量、阅读量、赞赏量、在看量、评论量
- 全部历史文章列表,可以筛选、排序
- 数据报告卡片:文章数据报告卡片、时间数据报告卡片、影响力数据报告卡片、发文IP属地数据报告卡片
- 发文周历统计报告
3. 公众号全文检索
- 所有已经采集公众号的标题、作者、摘要全文检索
- 单个公众号的标题、作者、摘要、正文全文检索
详细功能介绍请查看[wcplusPro详细介绍](https://www.wcplus.cn/about?s=weixin_crawler)
<img style="margin:0px auto;display:block;border:1px green solid;border-radius:5px;color:green;font-size:16px;" src="http://cdn2.wcplus.cn/7509.gif">
### 技术特性
- 自带安装脚本、运行脚本,点击鼠标就能完成所有的安装和运行工作,零技术要求。
- 提供详细在线使用文档、QA手册。
- 前后端分离,使用 socketio 做前后端实时通信
#### 前端
- 前端框架 vue2,打包 webpack
- 图表 ECharts
- 部分 UI 组件 Element
- http 请求 axios
- 图标 Font Awesome
#### 后端
- 经典 MVC 架构
- 纯 Python 编写,支持 Python3.7 及其更高版本
- web 框架 tornado
- 异步网络请求 tornado
- 数据库 sqlite
- 爬虫加速 Python 协程
- 前后端实时通信 socketio
### 申请试用
试用版,足够完成对1个公众号,全部历史文章的采集。无论是几十篇文,还是数万篇文章
[申请wcplusPro试用版](https://www.wcplus.cn/download?s=weixin_crawler)
### 版本更新
##### 8.1 / 2023年7月20日 订阅版
- 修复无正常解析目标公众号昵称的问题
##### 8.08 / 2023年3月27日 订阅版
- 修复重复采集文章的问题
##### 8.07 / 2023年3月8日 订阅版
- 修复某些情况下获取文章阅读数据,程序卡住的问题
##### 8.06 / 2023年2月8日 订阅版
- 修复中国大陆以外地区,授权验证不准确的问题
##### 8.05 / 2023年2月2日 订阅版
- 优化安装ID生成算法,修复某些情况下授权证书突然失效的问题
##### 8.04 / 2023年1月17日 订阅版
- 支持创建 Docker 容器运行,Linux 系统安装 wcplusPro 更简单
- 优化导出 html 文章内容的图片显示方式
##### 8.03 / 2023年1月8日 订阅版
- 优化授权验证算法,非中国北京市 (GMT+8)时间地区,授权识别更准确
##### 8.02 / 2022年12月24日 订阅版
- 优化macos下安装脚本,安装运行wcplusPro更简单
##### 8.01 / 2022年12月05日 订阅版
- 在帮助页面可以直接下载最新版本的wcplusPro,更新软件更简单
##### 8.0 / 2022年11月25日 订阅版
- 支持通过点击文章链接获取所有参数,无需再点击 qq.com,参数获取速度更快
- 帮助页面可直接看到 IP 地址,简化代理设置过程
- 增加手机远程通知,可第一时间了解任务进度和状态
##### 7.57 / 2022年11月18日
- macOS 下支持通过桌面版微信获取参数(Beta)
- 支持自动代理模式,简化获取参数前的代理设置工作
##### 7.56 / 2022年10月31日
- 导出的 CSV 文件增加原文 html 文件名,方便找到原文
##### 7.55 / 2022年10月26日
- 左边菜单栏更改为默认不显示,通过左上角按钮可弹出菜单。增加了屏幕利用率的同时,也让界面更加简洁
- 去除了所有表格的边框
##### 7.54 / 2022年10月16日
- 对已采集的数据 增加百分比显示 每个公众号的数据状态一目了然
- 百分比搭配进度条、颜色标签 更加直观展示数据状态
- 重新设计了多彩文章列表UI
##### 7.53 / 2022年10月13日
- 修复已知的UI逻辑错误
##### 7.52 / 2022年9月6日
- 新增导出 Excel 完成后 自动打开导出的文件
- 修复 Windows 下直接使用 Excel 查看导出文件乱码的问题
##### 7.51 / 2022年8月20日
- 搜索结果增加文章封面显示
- 修复全文检索遇到无发文日期文章时,无法显示搜索结果的错误
##### 7.5 / 2022年7月25日
- 新增公众号报告全文精确检索
- 新增公众号报告统计数据卡片,统计数量、时间、影响力、发文地区信息
- 优化公众号报告文周历
- 优化UI视觉
##### 7.43 / 2022年7月15日
- 新增复制微信历史文章主页链接到剪切板
##### 7.42 / 2022年7月2日
- 修复按时段区间采集阅读数据的bug
- 修复微信读书参数背景颜色显示的错误
##### 7.41 / 2022年6月9日
- 源码版支持 Python3.7.7 及更高版本,更低版本未做严格测试
##### 7.4 / 2022年6月8日
- 新增订阅版,可按时长购买 wcplusPro
##### 7.31 / 2022年6月3日
- 修复搜集文章内容偶尔提示 Netowrk error 的 bug
##### 7.3 / 2022年5月31日
- 新增搜集发文地区, 可在全部历史文章列表日期和地区栏查看
##### 7.2 / 2022年4月17日
- 新增历史任务日历热点图
- 阅读数据全景图增加在看数据
- 公众号报告增加发文日历热点图
##### 7.1 / 2022年4月13日
- 新增搜索功能,可按照标题、摘要、作者 关键词精确搜索
- 新增搜索结果多种排序方式
- 新增搜索结果月份指数
##### 7.05 / 2022年4月4日
- 添加导出到 Excel 的功能
- 修复运行 windows_install_package.bat 闪退的 bug
- 修复搜集阅读量为 0 文章的阅读数据时,提示 out of date 的错误
##### 7.04 / 2022年3月27日
- 增加更新检查功能
##### 7.03 / 2022年3月25日
- 修复已知 bug
##### 7.02 / 2022年3月24日
- 修复 windows 下保存文章原文失败的错误
##### 7.01 / 2022年3月22日
- 简化安装和使用步骤,双击鼠标即可完成所有工作
- 增加 window 系统双击安装Python依赖脚本
- 增加 window 系统双击安装运行wcplusPro脚本
- 增加 macos 双击安装Python依赖脚本
- 增加 macos 双击安装运行wcplusPro脚本
##### 7.
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
Based on python and vuejs 微信公众号采集 Python爬虫 公众号采集 公众号爬虫 公众号备份 爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
稳定工作4年的微信公众号爬虫.zip (147个子文件)
chunk-elementUI.ce0831ef.css 202KB
chunk-libs.5c5ced32.css 55KB
app.29400c88.css 6KB
chunk-aefa.07d7875f.css 5KB
chunk-4f1e.50184cdd.css 2KB
chunk-39ee.94639138.css 2KB
chunk-4572.9df3ddc3.css 1KB
chunk-140d.69b0d3e9.css 1KB
chunk-09bb.e29bb8ca.css 1KB
chunk-66f8.9b609602.css 1KB
chunk-cf99.6eb9e974.css 225B
chunk-1bc1.32c4c9b3.css 203B
chunk-1ba6.55d6b1a1.css 70B
chunk-72e8.6fe5d179.css 38B
fontawesome-webfont.674f50d.eot 162KB
data1.gif 2.06MB
crawler.gif 1.62MB
.gitignore 9B
index.html 4KB
aii.ico 59KB
mobile.jpg 668KB
search2.jpg 652KB
all_gzh.jpg 604KB
data.jpg 578KB
all_article.jpg 573KB
report1.jpg 564KB
Post1.jpg 537KB
task.jpg 529KB
search1.jpg 522KB
report2.jpg 508KB
report.jpg 489KB
click.jpg 403KB
excel.jpg 355KB
excel2.jpg 315KB
export.jpg 257KB
reading_data.jpg 230KB
main.jpg 192KB
gzh_num.jpg 77KB
chunk-libs.b9ad1332.js 1.06MB
chunk-elementUI.c4372eb5.js 561KB
app.7f5f1e24.js 26KB
chunk-66f8.f99bfc5c.js 23KB
chunk-4f1e.25bf3d97.js 16KB
chunk-4572.a700730b.js 14KB
chunk-0e20.3d7336d6.js 12KB
chunk-39ee.a3745f3f.js 10KB
chunk-140d.9565ebca.js 10KB
chunk-09bb.f2f0ea69.js 8KB
chunk-aefa.287e411a.js 8KB
chunk-cf99.21129fad.js 5KB
chunk-72e8.c4d34b83.js 2KB
chunk-1bc1.9c108003.js 2KB
chunk-1ba6.c684be6a.js 1KB
crawl.bat - 快捷方式.lnk 1KB
service.bat - 快捷方式.lnk 1KB
app.bat - 快捷方式.lnk 1KB
readme.md 10KB
struct.md 5KB
README.md 462B
7507.png 908KB
cover.png 613KB
luntan.1e96134.png 300KB
logo.png 129KB
404.a57b6f3.png 96KB
wcplusProLogo.png 90KB
__init__.py 24KB
crawler.py 7KB
crawler.py 6KB
__init__.py 6KB
addons.py 5KB
__init__.py 5KB
search.py 5KB
crawler.py 5KB
index.py 5KB
__init__.py 4KB
__init__.py 4KB
__init__.py 4KB
__init__.py 4KB
index.py 4KB
data_schema.py 4KB
data_schema.py 3KB
process.py 3KB
like.py 3KB
gzh.py 3KB
excel.py 2KB
__init__.py 2KB
__init__.py 2KB
__init__.py 2KB
__init__.py 2KB
data_process.py 2KB
search.py 2KB
search.py 2KB
config.py 2KB
__init__.py 1KB
settings.py 1KB
__init__.py 1KB
index_all_gzh.py 1KB
delete.py 1KB
data.py 1KB
front.py 1KB
共 147 条
- 1
- 2
资源评论
JJJ69
- 粉丝: 6222
- 资源: 5780
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功