没有合适的资源?快使用搜索试试~ 我知道了~
HTMLParser模块简介 我们使用urllib模块进行HTTP请求获取到的是整个网页的HTML,但是我们往往只需要其中一部分对我们有用的内容。这时我们就可以使用HTMLParser模块来帮助我们处理HTML。 HTMLParser是Python内置的专门用来解析HTML的模块。利用HTMLParser,我们可以分析出一段HTML里面的标签、数据等,是一种处理HTML的简便途径。 基于BS库的网页源码整理 假设我们在网上爬取了下列源码 html_doc = """ The Dormouse's story The Dormouse's story Once upon a time there
资源详情
资源评论
资源推荐
基于基于python中中BS库的库的Html源码整理源码整理
HTMLParser模块简介模块简介
我们使用urllib模块进行HTTP请求获取到的是整个网页的HTML,但是我们往往只需要其中一部分对我们有用的内容。这时我
们就可以使用HTMLParser模块来帮助我们处理HTML。
HTMLParser是Python内置的专门用来解析HTML的模块。利用HTMLParser,我们可以分析出一段HTML里面的标签、数据
等,是一种处理HTML的简便途径。
基于基于BS库的网页源码整理库的网页源码整理
假设我们在网上爬取了下列源码
html_doc = """
The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...
"""
我们想要继续对其中的数据进行分析,但爬取后的html代码段格式较为混乱,那么我们可以使用BeautifulSoup中的 preettitf()
函数进行 对所爬取的代码进行初步的分行整理。
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify())
整理后的结果为:
The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie
,
Lacie
and
Tillie
;
and they lived at the bottom of a well.
...
整理后可以更清楚的看到源码的每层结构和片段归属。
WitherC
原创文章 7获赞 12访问量 735
weixin_38705723
- 粉丝: 5
- 资源: 917
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0