没有合适的资源？快使用搜索试试~ 我知道了~

文库首页后端Pythontieba crawler 百度贴吧爬虫.zip

tieba crawler 百度贴吧爬虫.zip

共39个文件

jpg：30个

py：5个

ipynb：2个

爬虫

python

数据收集

需积分: 5 0 下载量 64 浏览量 2024-01-19 16:34:08 上传评论收藏 5.03MB ZIP 举报

温馨提示

爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的HTML内容。这通常通过HTTP请求库实现，如Python中的Requests库。解析内容：爬虫对获取的HTML进行解析，提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据，如文本、图片、链接等。数据存储：爬虫将提取的数据存储到数据库、文件或其他存储介质中，以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫需要遵守网站的robots.txt协议，限制访问频率和深度，并模拟人类访问行为，如设置User-Agent。反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施，如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。爬虫在各个领域都有广泛的应用，包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而，使用爬虫需要遵守法律和伦理规范，尊重网站的使用政策，并确保对被访问网站的服务器负责。

资源推荐

资源详情

资源评论

收起资源包目录

tieba crawler 百度贴吧爬虫.zip （39个子文件）

SJT-code

best_crawl.ipynb 58KB

dataset.py 2KB

run.ipynb 5.54MB

model.py 10KB

download.sh 507B

testdata

1615096451.jpg 27KB

1615096446.jpg 21KB

1615096414.jpg 28KB

1615096443.jpg 29KB

1615096439.jpg 26KB

1615096422.jpg 32KB

1.jpg 16KB

1615096441.jpg 30KB

1615096424.jpg 32KB

1615096432.jpg 22KB

1615096421.jpg 34KB

1615096416.jpg 33KB

1615096430.jpg 20KB

1615096434.jpg 28KB

1615096436.jpg 26KB

1615096437.jpg 37KB

1615096458.jpg 22KB

1615096429.jpg 39KB

1615096426.jpg 17KB

1615096444.jpg 35KB

1615096427.jpg 33KB

1615096417.jpg 22KB

1615096455.jpg 21KB

1615096461.jpg 30KB

1615096448.jpg 29KB

1615096456.jpg 26KB

1615096453.jpg 29KB

1615096419.jpg 21KB

1615096459.jpg 35KB

1615096449.jpg 28KB

train.py 3KB

test.py 1KB

train_reg.py 3KB

README.md 370B

共 39 条

# tieba crawler 百度贴吧爬虫 This project is designed to crawled the 弱智吧. This project contains two part: - rot: This part is used to solve the baidu's rotation captcha - best_crawl: crawl the title, context, date of the first 10k posts The crawled results are uploaded to huggingface [wisdomBar dataset](https://huggingface.co/datasets/kirp/wisdomBar).

评论收藏

内容反馈

资源评论