Python网络爬虫资源-CSDN文库

需积分: 10 97 浏览量 2018-01-27 11:19:23 上传评论收藏 440KB PDF 举报

### Python网络爬虫知识点 #### 一、Python网络爬虫简介网络爬虫是一种自动从互联网上抓取信息的程序，常用于数据收集与分析。Python作为一种强大的编程语言，提供了丰富的库来支持网络爬虫的开发，使得爬虫编写变得更加简单高效。 #### 二、Python网络爬虫的核心组件 - **内容提取器**：负责从网页中提取所需的数据。通常使用XPath、CSS选择器或者正则表达式来定位和提取特定的数据。 - **请求处理**：包括发起HTTP请求和处理响应结果。 - **数据存储**：将提取的数据保存至文件、数据库或其他形式。 #### 三、Python网络爬虫技术路线在进行网络爬虫开发时，可能会遇到不同类型的数据加载机制。例如，静态内容可以通过简单的HTTP请求获取；而动态内容（尤其是那些通过JavaScript动态生成的内容）则需要额外的技术手段才能捕获。常见的技术方案有： 1. **Selenium**：是一个自动化测试工具，支持多种浏览器，能够模拟真实用户的操作行为。对于需要交互操作才能加载的数据非常有效。 2. **PhantomJS**：是一个无头浏览器，可以在服务器环境下运行，特别适合用来抓取需要JavaScript渲染的页面内容。 #### 四、Selenium+PhantomJS抓取动态内容在本文档中，作者使用了Selenium和PhantomJS的组合来抓取京东网站上的动态内容，具体步骤如下： 1. **引言**：作者在前一篇文章中介绍了使用XSLT提取静态网页内容的方法，并提出了一个待解决问题——如何提取JavaScript动态加载的内容。本篇文章正是为了解决这一问题而作。 2. **技术选型**：由于目标网站上的价格等信息是通过JavaScript动态生成的，在页面的原始HTML源码中无法直接找到。因此，选择了Selenium+PhantomJS的技术组合。Selenium可以模拟用户操作，PhantomJS作为无头浏览器可以实现动态页面的加载。 3. **源代码及实验过程** - **抓取目标**：京东网站上的手机商品页面，目标数据包括商品名称和价格。 - **步骤1**：利用集搜客谋数台自动生成抓取规则（XSLT程序），用于后续的数据提取。 - **步骤2**：编写Python脚本，使用Selenium+PhantomJS加载页面，再利用预定义的XSLT进行数据提取。示例代码如下所示： ```python from urllib import request from lxml import etree from selenium import webdriver import time # 定义目标URL url = "http://item.jd.com/1312640.html" # 下面的XSLT程序是通过集搜客谋数台自动生成的 xslt_root = etree.XML("""...XSLT代码...""") # 使用PhantomJS启动webdriver driver = webdriver.PhantomJS() driver.get(url) time.sleep(3) # 等待页面完全加载 html = driver.page_source # 解析HTML并应用XSLT transform = etree.XSLT(xslt_root) dom = etree.HTML(html) result = transform(dom) # 输出结果 print(result) ``` #### 五、总结本案例详细展示了如何使用Selenium和PhantomJS结合XSLT来抓取包含JavaScript动态加载内容的网页。这种技术路线不仅适用于京东这样的电商平台，也适用于其他任何依赖于动态加载数据的网站。通过这种方式，可以有效地解决网络爬虫开发中的常见难题之一——动态内容的抓取。

资源推荐

资源详情

资源评论