没有合适的资源?快使用搜索试试~ 我知道了~
Python爬虫包BeautifulSoup实例(三)
1 下载量 200 浏览量
2021-01-20
04:39:55
上传
评论
收藏 55KB PDF 举报
温馨提示
一步一步构建一个爬虫实例,抓取糗事百科的段子 先不用beautifulsoup包来进行解析 第一步,访问网址并抓取源码 # -*- coding: utf-8 -*- # @Author: HaonanWu # @Date: 2016-12-22 16:16:08 # @Last Modified by: HaonanWu # @Last Modified time: 2016-12-22 20:17:13 import urllib import urllib2 import re import os if __name__ == '__main__': # 访问网址并抓取源码
资源推荐
资源详情
资源评论
Python爬虫包爬虫包BeautifulSoup实例(三)实例(三)
一步一步构建一个爬虫实例,抓取糗事百科的段子
先不用beautifulsoup包来进行解析
第一步第一步,访问网址并抓取源码
# -*- coding: utf-8 -*-
# @Author: HaonanWu
# @Date: 2016-12-22 16:16:08
# @Last Modified by: HaonanWu
# @Last Modified time: 2016-12-22 20:17:13
import urllib
import urllib2
import re
import os
if __name__ == '__main__':
# 访问网址并抓取源码
url = 'http://www.qiushibaike.com/textnew/page/1/?s=4941357'
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99
Safari/537.36'
headers = {'User-Agent':user_agent}
try:
request = urllib2.Request(url = url, headers = headers)
response = urllib2.urlopen(request)
content = response.read()
except urllib2.HTTPError as e:
print e
exit()
except urllib2.URLError as e:
print e
exit()
print content.decode('utf-8')
第二步第二步,利用正则表达式提取信息
首先先观察源码中,你需要的内容的位置以及如何识别
然后用正则表达式去识别读取
注意正则表达式中的 . 是不能匹配的,所以需要设置一下匹配模式。
# -*- coding: utf-8 -*-
# @Author: HaonanWu
# @Date: 2016-12-22 16:16:08
# @Last Modified by: HaonanWu
# @Last Modified time: 2016-12-22 20:17:13
import urllib
import urllib2
import re
import os
if __name__ == '__main__':
# 访问网址并抓取源码
url = 'http://www.qiushibaike.com/textnew/page/1/?s=4941357'
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99
Safari/537.36'
headers = {'User-Agent':user_agent}
try:
request = urllib2.Request(url = url, headers = headers)
response = urllib2.urlopen(request)
content = response.read()
except urllib2.HTTPError as e:
print e
exit()
except urllib2.URLError as e:
print e
资源评论
weixin_38707356
- 粉丝: 17
- 资源: 958
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 幻影刷q币软件充值真实到账
- 基于Java语言的SuperCar拼车系统设计源码
- 用Python在控制台绘制爱心形状的技术实例
- 用Python编程实现控制台爱心形状绘制技术教程
- 这是 YOLOv4 的 pytorch 存储库,可以使用自定义数据集进行训练 .zip
- 这是 HIC-Yolov5 的存储库.zip
- 这只是另一个 YOLO V2 实现 在 jupyter 笔记本中训练您自己的数据集!.zip
- PicGo 是一个用于快速上传图片并获取图片 URL 链接的工具
- uniapp vue3 自定义下拉刷新组件pullRefresh,带释放刷新状态、更新时间、加载动画
- WINDOWS 2003邮箱服务器搭建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功