没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论















当我们在需要大量的信息时,例如商品信息,新闻信息等,手动一个个复制是相当繁琐的过
程。这时候用 Python 编写爬虫程序就显得尤为重要。Python 是一种功能强大的编程语言,
它的易读性和多种标准库以及相关的第三方库都使得它成为一种很好的选择用来构建小型、
中型的爬虫程序。
在讲述如何使用 Python 爬虫爬取信息之前,我们首先需要了解一些基本的 HTML 内容,这
将帮助你理解如何从 HTML 页面中找到你需要的信息。
### HTML 概述
HTML(Hyper Text Markup Language)是一种用编程语言编写的标记语言, 用来创将网页制
成 web 文件并显示文件的各项内容,此文件等于一篇文章,由许多的段落来阐述这篇文章,
大多数情况下由 P 标签完成,有时候我们还需要图片、超链接等其它的网页元素来辅助文章
内容的描述,HTML 不提供样式控制,这就是 CSS 的作用。
### 准备爬取
1. 寻找爬取目标
在想要爬取信息之前,需要先明确你想要爬取哪些页面的哪些信息,例如豆瓣电影的网站,
你可能想要爬取一些它的分类映射表和每个类别的所有电影的信息。在这种情况下,爬取目
标为豆瓣电影网站,想要获取的信息为分类映射表和每个类别的所有电影信息。
2. 确定要用的库
Python 爬虫中最常用的库是 Requests, Beautiful Soup, Selenium, Scrapy 等。Requests 用于
发起 HTTP 请求,Beautiful Soup 用于解析 HTML 文档,Selenium 用于自动化浏览器操作,
Scrapy 是一种高效的爬虫框架,它整合了发起请求、解析 HTML、存储数据等多个步骤,
功能全面。
在本文中,我们选择使用 Requests 和 Beautiful Soup 来构建我们的爬虫程序。
3. 分析网页结构
找到自己需要爬取的网站,用浏览器打开它,通过浏览器开发者工具,查看该网页的结构,
找到需要提取的信息的所在的地方的 HTML 标签或样式类名,通常还需要查看该网页的源
代码,获取更加详细的信息,所有的 DOM 都有对应的层级结构。
考虑到不同的网站分享不同的 HTML 结构,所以在爬虫过程中分析 HTML 是一个必须的
步骤。这里以豆瓣电影为例,首先我们需要查找豆瓣电影中的分类映射表所在位置的 HTML
结构。进入豆瓣电影网站,点击排行榜,找到分类映射表。
![豆瓣电影分类映射表][1]
右键点击经观察后,我们可以看到该网页的 URL 为 `https://movie.douban.com/chart`,并
且在网页的左侧有一个分类映射表。

孤风侠尘
- 粉丝: 20
- 资源: 40
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


安全验证
文档复制为VIP权益,开通VIP直接复制

- 1
- 2
前往页