没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
1页
今天练习了抓取多页天涯帖子,重点复习的知识包括 soup.find_all和soup.selcet两个筛选方式对应不同的参数; 希望将获取到的多个内容组合在一起返回的时候,要用’zip()’的代码来实现; 两层代码结构之间的关系如何构造; 这里有一个疑问:有时候一个标签可以有多个属性,不知道soup.find_all()能不能接受不止一个属性以缩小查找的范围。 # 引入库和请求头文件 import requests from bs4 import BeautifulSoup headers = { 'User-Agent':'Mozilla/5.0 (Macintosh; I
资源详情
资源评论
资源推荐
python爬虫获取多页天涯帖子爬虫获取多页天涯帖子
今天练习了抓取多页天涯帖子,重点复习的知识包括
soup.find_all和soup.selcet两个筛选方式对应不同的参数;
希望将获取到的多个内容组合在一起返回的时候,要用’zip()’的代码来实现;
两层代码结构之间的关系如何构造;
这里有一个疑问:有时候一个标签可以有多个属性,不知道soup.find_all()能不能接受不止一个属性以缩小查找的范围。
# 引入库和请求头文件
import requests
from bs4 import BeautifulSoup
headers = {
'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'
}
# 定义主体函数。函数主体由四部分组成:
#1.请求网址
#2.解析网页,形成可查找的html格式
#3.通过soup.select或者sopu.find_all查找需要的标签
#4.通过zip()代码将多个内容合并在一起
def get_content(url):
res = requests.get(url,headers = headers)
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text,'html.parser')
contents = soup.find_all('div','bbs-content')
authors = soup.find_all('a','js-vip-check')
for author,content in zip(authors,contents):
data = {
'author':author.get_text().strip(),
'content': content.get_text().strip()
}
print(data)
# 在这里构造一个两层链接结构:帖子的1、2、3、4页和帖子的详情页的关系在这里实现
if __name__ == '__main__':
urls = ['http://bbs.tianya.cn/post-develop-2271894-{}.shtml'.format(str(i)) for i in range (1,5)] # 要注意,这里的‘5'是不包括在范
围里的
for url in urls:
get_content(url)
您可能感兴趣的文章您可能感兴趣的文章:python爬虫爬取淘宝商品信息Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容Python
即时网络爬虫项目启动说明详解浅谈python爬虫使用Selenium模拟浏览器行为python中数据爬虫requests库使用方法详解
python爬虫中get和post方法介绍以及cookie作用浅析Python3爬虫登录模拟python爬虫爬取某站上海租房图片Python爬虫实现
百度图片自动下载python爬虫获取淘宝天猫商品详细参数
weixin_38613173
- 粉丝: 3
- 资源: 929
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- React项目基于JavaScript实现的全球新闻发布管理系统源码.zip
- 基于keras+fasterRCNN,在VOC格式的口罩数据集上训练,检测人群中有无戴口罩python源码+模型
- 基于opencv+qt5机器视觉的传统缺陷检测, 即采用标准图片和待测图片进行pixel to pixel的XOR操作源码+文档
- 管道内检测缺陷数据库管理系统源码+文档说明+sln
- 毕业设计-低功耗STM32F411开发板(原理图+PCB源文件+官方例程+驱动等)源码+文档说明+截图
- 基于yolov5-tensorRT检测+发动机缸体内壁缺陷检测系统源码+文档说明
- 基于C++实现的锂电池缺陷检测源码+文档说明
- push_version
- 软件自制图像批量压缩工具
- 经典缺陷检测算法源码整理包含PaDiM(2020ICPR)、PatchCore(2022CVPR)、SimpleNet+文档说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0