Python爬虫实例_城市公交网络站点数据的爬取方法_python爬取8684中青岛市公交数据资源-CSDN文库

147 浏览量 2020-09-20 21:59:38 上传评论 5 收藏 207KB PDF 举报

资源推荐

资源详情

资源评论

Python爬虫实例爬虫实例_城市公交网络站点数据的爬取方法城市公交网络站点数据的爬取方法

下面小编就为大家分享一篇Python爬虫实例_城市公交网络站点数据的爬取方法，具有很好的参考价值，希望对大家有所

帮助。一起跟随小编过来看看吧

爬取的站点：爬取的站点：http://beijing.8684.cn/

（（1）环境配置，直接上代码：）环境配置，直接上代码：

# -*- coding: utf-8 -*-

import requests ##导入requests

from bs4 import BeautifulSoup ##导入bs4中的BeautifulSoup

import os

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'}

all_url = 'http://beijing.8684.cn' ##开始的URL地址

start_html = requests.get(all_url, headers=headers)

#print (start_html.text)

Soup = BeautifulSoup(start_html.text, 'lxml') # 以lxml的方式解析html文档

（（2）爬取站点分析）爬取站点分析

1、北京市公交线路分类方式有3种：

本文通过数字开头来进行爬取，“F12”启动开发者工具，点击“Elements”,点击“1”，可以发现链接保存在<div class="bus_kt_r1">里面，

故只需要提取出div里的href即可：

代码代码：

all_a = Soup.find(‘div',class_='bus_kt_r1').find_all(‘a')

2、接着往下，发现每1路的链接都在<div id="con_site_1" class="site_list"> 的<a>里面，取出里面的herf即为线路网址，其内容即为线

路名称，代码代码：

href = a['href'] #取出a标签的href 属性

html = all_url + href

second_html = requests.get(html,headers=headers)

#print (second_html.text)

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余2页未读，立即下载

内容反馈

weixin_38737283

粉丝: 3
资源: 905

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip