如何使用Node.js爬取任意网页资源并输出PDF文件到本地资源-CSDN文库

183 浏览量 2020-10-16 20:14:50 上传评论收藏 89KB PDF 举报

在本文中，我们将探讨如何使用Node.js和Puppeteer库来爬取网页资源并将其转换为PDF文件。我们需要了解Puppeteer是什么。Puppeteer是由Google开发的一个Node库，它允许我们通过DevTools协议远程控制无头Chrome或Chromium浏览器，从而实现自动化测试、页面截图、网页PDF生成等功能。要开始使用Puppeteer，首先确保你的Node.js版本在7.6以上，因为Puppeteer需要支持async/await语法。同时，由于Puppeteer依赖于Chrome或Chromium，你需要在系统中安装对应版本的浏览器。Puppeteer会自动下载与之兼容的浏览器版本，但你也可以手动指定。下面是一个简单的Puppeteer示例，展示如何爬取京东首页的图片URL： ```javascript const puppeteer = require('puppeteer'); (async () => { const browser = await puppeteer.launch(); const page = await browser.newPage(); await page.goto('https://www.jd.com/'); const imgUrls = await page.evaluate(() => { const imgs = document.querySelectorAll('img'); return Array.from(imgs).map(img => img.src); }); console.log(imgUrls); await browser.close(); })(); ``` 在这个例子中，我们首先引入Puppeteer库，然后启动一个新的浏览器实例。接着，我们打开京东首页，并使用`page.evaluate()`执行JavaScript代码在浏览器上下文中，获取所有图片的`src`属性。我们关闭浏览器实例。如果你想要爬取页面中的其他元素，比如`<a>`标签，你可以修改`page.evaluate()`中的代码，像这样获取所有类别链接的`title`属性： ```javascript const hrefTitles = await page.evaluate(() => { const aNodes = document.querySelectorAll('.cate_menu_lk'); return Array.from(aNodes).map(node => node.title); }); console.log(hrefTitles); ``` 现在，我们讨论如何将爬取的网页内容转换为PDF文件。Puppeteer提供了`page.pdf()`方法，可以方便地将当前页面导出为PDF： ```javascript await page.pdf({ path: 'output.pdf', // 输出的PDF文件路径 format: 'A4', // 页面大小，可以是'A3', 'A4', 'A5', 'Legal', 'Letter', 'Tabloid'等 margin: { top: '1cm', bottom: '1cm', left: '1cm', right: '1cm' }, // 边距设置 printBackground: true, // 是否打印背景颜色和图像 landscape: false, // 是否使用横向布局 }); ``` 将这段代码添加到你的Puppeteer脚本中，就可以将爬取的页面保存为PDF文件了。记得根据实际需求调整PDF的设置参数。总结一下，使用Node.js和Puppeteer可以轻松实现网页爬取和PDF生成。Puppeteer的强大之处在于它可以模拟用户交互，执行复杂的页面操作，如点击按钮、填写表单等。通过熟练掌握Puppeteer的API，你可以创建一个功能强大的Web抓取和自动化工具。同时，确保遵循网站的robots.txt规则和法律法规，以保持良好的网络爬虫实践。

资源推荐

资源详情

资源评论

如何使用如何使用Node.js爬取任意网页资源并输出爬取任意网页资源并输出PDF文件到本地文件到本地

主要介绍了使用Node.js爬取任意网页资源并输出高质量PDF文件到本地，文中通过示例代码介绍的非常详细，

对大家的学习或者工作具有一定的参考学习价值，下面小编就来和大家一起学习吧

需求：需求：

使用Node.js爬取网页资源，开箱即用的配置

将爬取到的网页内容以PDF格式输出

如果你是一名技术人员，那么可以看我接下来的文章，否则，请直接移步到我的github仓库，直接看文档使用即可

仓库地址仓库地址:附带文档和源码

本需求使用到的技术本需求使用到的技术：Node.js和puppeteer

puppeteer 官网地址: puppeteer地址

Node.js官网地址:链接描述

Puppeteer是谷歌官方出品的一个通过DevTools协议控制headless Chrome的Node库。可以通过Puppeteer的提供的api

直接控制Chrome模拟大部分用户操作来进行UI Test或者作为爬虫访问页面来收集数据。

环境和安装

Puppeteer本身依赖6.4以上的Node，但是为了异步超级好用的async/await，推荐使用7.6版本以上的Node。另外

headless Chrome本身对服务器依赖的库的版本要求比较高，centos服务器依赖偏稳定，v6很难使用headless

Chrome，提升依赖版本可能出现各种服务器问题（包括且不限于无法使用ssh），最好使用高版本服务器。（建议使用

最新版本的Node.js）

小试牛刀，爬取京东资源小试牛刀，爬取京东资源

const puppeteer = require('puppeteer'); // 引入依赖

(async () => { //使用async函数完美异步

const browser = await puppeteer.launch(); //打开新的浏览器

const page = await browser.newPage(); // 打开新的网页

await page.goto('https://www.jd.com/'); //前往里面 'url' 的网页

const result = await page.evaluate(() => { //这个result数组包含所有的图片src地址

let arr = []; //这个箭头函数内部写处理的逻辑

const imgs = document.querySelectorAll('img');

imgs.forEach(function (item) {

arr.push(item.src)

})

return arr

});

// '此时的result就是得到的爬虫数据，可以通过'fs'模块保存'

})()

复制过去使用命令行命令 ` node 文件名 ` 就可以运行获取爬虫数据了这个 puppeteer 的包，其实是替我们开启了另一个浏览

器，重新去开启网页，获取它们的数据。

上面只爬取了京东首页的图片内容，假设我的需求进一步扩大，需要爬取京东首页中的所有<a> 标签对应的跳转网页中

的所有 title的文字内容，最后放到一个数组中。

我们的async函数上面一共分了五步，只有 puppeteer.launch() ,browser.newPage(), browser.close() 是固定的写法。

page.goto 指定我们去哪个网页爬取数据，可以更换内部url地址，也可以多次调用这个方法。

page.evaluate 这个函数，内部是处理我们进入想要爬取网页的数据逻辑

page.goto和page.evaluate两个方法，可以在async内部调用多次，那意味着我们可以先进入京东网页，处理逻辑后，再

次调用page.goto这个函数

注意，上面这一切逻辑，都是puppeteer这个包帮我们在看不见的地方开启了另外一个浏览器，然后处理逻辑，所以最终要调

用browser.close()方法关闭那个浏览器。

这时候我们对上一篇的代码进行优化，爬取对应的资源。

const puppeteer = require('puppeteer');

(async () => {

const browser = await puppeteer.launch();

const page = await browser.newPage();

await page.goto('https://www.jd.com/');

const hrefArr = await page.evaluate(() => {

let arr = [];

const aNodes = document.querySelectorAll('.cate_menu_lk');

aNodes.forEach(function (item) {

arr.push(item.href)

})

return arr

});

let arr = [];

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余1页未读，立即下载

评论收藏

内容反馈

weixin_38508821

粉丝: 6
资源: 951

如何使用Node.js爬取任意网页资源并输出PDF文件到本地

Node.js-node.js学习代码一个是爬取图片到本地

Node.js-爬取掘金小册并将html文件转为markdown格式文件

linux安装node.js.pdf

Node.js-用node爬取网站图片

Node.js-一个RESTAPI用于使用Node.jsheadlessChrome和Cheerio来爬取动态网站

Node.js-node.js爬取招聘信息

Node.js开发-Node.js入门.pdf

Node.js-爬取拉勾职位信息分析

Node.js爬取新闻数据

node.js14.18.3版本下载

node.js(v16.16.0) 安装包

Node.js高级编程.pdf

Node.js硬实战 115个核心技巧.pdf

Node.js（node-v16.15.1.tar.gz 源码）

Node.js入门教程.pdf

Node.js（node-v16.15.1-win-x86.zip）

Node.js 6.x Blueprints(pdf+epub+mobi+code)

网页转为PDF输出

Node.js从入门到精通

Node.js英文书籍2015出版共9本(一次下载)

《Node入门一本全面地Node.js教程》PDF

node.js官方v14.17.3-x64版本msi安装包【集成npm】

Node.js-nodejsspider抓取知乎头像信息

将html页面导出pdf

从网页下载PDF到本地

最新资源