Python爬虫数据抽取爬虫数据抽取(二二):解析库:解析库Beautiful Soup 4
目录目录1. 简介2. 安装2.1 库本身的安装2.2 解析器的安装3. 常用API3.1 BeautifulSoup常用操作3.2 Tag常用操作3.3 PageElement常用操作
1. 简介简介
Beautiful Soup(美丽汤)是一个Python第三方库,用于从HTML和XML文件中提取数据。它与您最喜欢的解析器一起使用,提供了导航,搜索和修改解析树的惯用方式,点击此处进入官网。最
新版本Beautiful Soup 4 简称bs4。优势:相比于ET库, 功能更全,可以选择解析器来解析文档,既支持html, 也支持xml,容错度(简单理解为文档格式自动补全功能)也更高,API也很好
用。
2. 安装安装
2.1 库本身的安装库本身的安装
命令安装格式如下:
pip install --user -i http://pypi.douban.com/simple --trusted-host pypi.douban.com beautifulsoup4
使用Pycharm图形化界面安装如下:
xxxx
“””
# 1.使用lxml解析器
soup1 = BeautifulSoup(str1, features=”lxml”)
div = soup1.div
a = soup1.a
# 索引
print(div.index(a)) # 0
# 判定是否是一个空节点 自关闭
print(soup1.find(“img”).is_empty_element) # True
# 清空:不清空属性
soup1.find(“h1”).clear()
print(soup1.find(“h1”)) #
soup1.find(“h2”).decompose() # 把自己全部给干掉了
print(soup1)
上述代码执行结果如下:
xxxx
评论0
最新资源