## 简单的 小红书📕 关键词 搜索笔记 Python爬虫小程序
##### ✨爬取过程
**微信小程序版小红书接口查询 笔记id列表 --> 通过笔记id列表 web 爬取笔记内容(可获取标题、内容、图片视频地址、点赞、转发评论数、笔记所属用户信息等)-->选择保存 笔记链接 ,标题,内容到CSV文件**
##### ✨使用须知
1. 需要对电脑微信 小红书小程序抓包 获取 Authorization 值,微信3.6.018 版本比较适合抓包可以直接抓到,新版本微信不太容易抓建议使用我提供的 微信版本 抓包。也可以使用IOS 系统的 微信小程序抓包目前测试8.0.32 抓到的 Authorization 可以正常使用。
2. 支持关键词检索 并 保存到当前 目录 的csv文件,文件名默认检索名。
3. 在Windows 环境测试下 发现小红书会对短期 请求页面 做限制,所以程序不保证爬取到所有检索到笔记的内容,但能保证获取所有检索到的笔记id号,可自行配置 ip池或更换设备或时间爬取。
4. 需要引入的Python 包
```python
import csv
import hashlib
from urllib import parse
import requests
from bs4 import BeautifulSoup
import json
from lxml import etree
```
5. 运行数据说明
```
if __name__ == "__main__":
# 参数
# 检索关键字
keyName = "Python爬虫"
# 微信小程序 小红书header 认证头 小程序自行 抓包Authorization ,是一串 wxmp.xxxxxxxx的数据
authorization = ""
# 排序方式可选 general:综合排序 (默认),或hot_desc:热度排序
sortedWay = "general"
# 执行函数
idList = getlistByName(keyName, authorization, sortedWay)
toCsv(getInfo(idList), keyName)
```
##### ✨效果
![image-20230413173426590](https://yilin-1307688338.cos.ap-nanjing.myqcloud.com/blog/image-20230413173426590.png)
![image-20230413173525235](https://yilin-1307688338.cos.ap-nanjing.myqcloud.com/blog/image-20230413173525235.png)
##### ✨参考
[lighthookyu/xhs-mini-spider: 小红书小程序版本爬虫 (github.com)](https://github.com/lighthookyu/xhs-mini-spider)
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
小红书关键词笔记搜索Python 爬虫 (csv保存).zip (3个子文件)
SJT-code
Python.csv 48KB
README.md 2KB
xhs.py 5KB
共 3 条
- 1
资源评论
- woisking22024-04-11资源使用价值高,内容详实,给了我很多新想法,感谢大佬分享~
- sinat_349973082024-03-28感谢大佬,让我及时解决了当下的问题,解燃眉之急,必须支持!
- Newmoney3472024-04-19怎么能有这么好的资源!只能用感激涕零来形容TAT...
JJJ69
- 粉丝: 5940
- 资源: 5586
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功