网页抓取(也称为屏幕抓取、网页数据提取、网页收集等)是一种用于从网站中提取大量数据的技术,其中数据被提取并保存到您计算机中的本地文件或表中的数据库中(电子表格)格式。
先决条件
此 repo 主要面向具有一定 Javascript 经验的开发人员。 如果您对 Web Scraping 有深入的了解但没有使用 Javascript 的经验,那么这个 repo 仍然可以证明是有用的。
:check_mark_button: Javascript 背景
:check_mark_button: 使用 DevTools 提取元素选择器的经验
:check_mark_button: 一些使用 ES6 Javascript 的经验(可选)
结果
通过遵循此 repo,您将能够:
利用多个现代图书馆来抓取网络
用于抓取的库
Cheerio:用于遍历 DOM 的核心 JQuery
Cheerio 解析标记并提供用于遍历/操作结果数据结构的 API。 它不会像 Web 浏览器那样解释结果。 具体来说,
评论0
最新资源