python网络应用开发-静态网页爬取.docx_静态网页爬取代码资源-CSDN文库

版权申诉

150 浏览量 2021-11-06 15:56:14 上传评论 2 收藏 418KB DOCX 举报

Python 网络应用开发 - 静态网页爬取概述：本文档详细介绍了 Python 网络应用开发中静态网页爬取的实验过程和经验总结。实验中，我们使用了多种 Python 库和模块，包括 urllib3、Requests、 Beautiful Soup 4、etree、re、JSON、PyMySQL 等，来爬取和解析网页信息，并将其存储到 MySQL 数据库中。知识点： 1. urllib3 库的使用：urllib3 库是一个 Python 库，用于生成 HTTP 请求和处理请求头、超时和请求重试。我们可以使用 urllib3 库来发送 HTTP 请求，并处理请求头和超时。 2. Requests 库的使用：Requests 库是一个 Python 库，用于生成 HTTP 请求和查看状态码与编码。我们可以使用 Requests 库来发送 HTTP 请求，并查看状态码和编码。 3.Beautiful Soup 4 库的使用：Beautiful Soup 4 库是一个 Python 库，用于解析 HTML 和 XML 文档。我们可以使用 Beautiful Soup 4 库来解析网页源代码，并提取信息。 4. etree 库的使用：etree 库是一个 Python 库，用于使用 Xpath 语法解析 XML 文档。我们可以使用 etree 库来解析网页源代码，并提取信息。 5. re 库的使用：re 库是一个 Python 库，用于使用正则表达式匹配字符串。我们可以使用 re 库来匹配网页中的字符串，并提取信息。 6. JSON 库的使用：JSON 库是一个 Python 库，用于将数据存储为 JSON 文件。我们可以使用 JSON 库来将数据存储为 JSON 文件。 7. PyMySQL 库的使用：PyMySQL 库是一个 Python 库，用于将数据存储到 MySQL 数据库中。我们可以使用 PyMySQL 库来将数据存储到 MySQL 数据库中。 8. 网页爬取的实验过程：在实验中，我们使用了多种 Python 库和模块来爬取和解析网页信息，并将其存储到 MySQL 数据库中。 9. Requests 和 re 组合的使用：我们可以使用 Requests 库和 re 库来爬取和解析网页信息，并将其存储到 MySQL 数据库中。 10. urllib3 和 Xpath 组合的使用：我们可以使用 urllib3 库和 etree 库来爬取和解析网页信息，并将其存储到 MySQL 数据库中。 11. Requests 和 Beautiful Soup 4 组合的使用：我们可以使用 Requests 库和 Beautiful Soup 4 库来爬取和解析网页信息，并将其存储到 MySQL 数据库中。 12. 数据写入 MySQL 数据库：我们可以使用 PyMySQL 库将数据写入到 MySQL 数据库中。难点总结：在实验中，我们遇到了以下难点： * Requests 库无法编码部分字符，需要在输出结果前设置编码内容。 * 在使用 PyMySQL 库将数据写入到 MySQL 数据库中时，如果提示模块缺失，需要导入对应缺失的模块。结论：本文档详细介绍了 Python 网络应用开发中静态网页爬取的实验过程和经验总结。我们可以使用多种 Python 库和模块来爬取和解析网页信息，并将其存储到 MySQL 数据库中。

资源推荐

资源详情

资源评论