没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
Python爬虫实例爬虫实例_城市公交网络站点数据的爬取方法城市公交网络站点数据的爬取方法
下面小编就为大家分享一篇Python爬虫实例_城市公交网络站点数据的爬取方法,具有很好的参考价值,希望对大家有所
帮助。一起跟随小编过来看看吧
爬取的站点:爬取的站点:http://beijing.8684.cn/
((1)环境配置,直接上代码:)环境配置,直接上代码:
# -*- coding: utf-8 -*-
import requests ##导入requests
from bs4 import BeautifulSoup ##导入bs4中的BeautifulSoup
import os
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'}
all_url = 'http://beijing.8684.cn' ##开始的URL地址
start_html = requests.get(all_url, headers=headers)
#print (start_html.text)
Soup = BeautifulSoup(start_html.text, 'lxml') # 以lxml的方式解析html文档
((2)爬取站点分析)爬取站点分析
1、北京市公交线路分类方式有3种:
本文通过数字开头来进行爬取,“F12”启动开发者工具,点击“Elements”,点击“1”,可以发现链接保存在<div class="bus_kt_r1">里面,
故只需要提取出div里的href即可:
代码代码:
all_a = Soup.find(‘div',class_='bus_kt_r1').find_all(‘a')
2、接着往下,发现每1路的链接都在<div id="con_site_1" class="site_list"> 的<a>里面,取出里面的herf即为线路网址,其内容即为线
路名称,代码代码:
href = a['href'] #取出a标签的href 属性
html = all_url + href
second_html = requests.get(html,headers=headers)
#print (second_html.text)
资源评论
weixin_38737283
- 粉丝: 3
- 资源: 905
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功