pdf-extract：节点PDF提取

共34个文件

js：16个

pdf：4个

json：2个

JavaScript

需积分: 9 0 下载量 2 浏览量 2021-03-03 16:41:54 上传评论收藏 2.56MB ZIP 举报

温馨提示

节点PDF Node PDF是一组工具，可接收PDF文件并将其转换为可用格式以进行数据处理。该库既支持从可搜索的pdf文件中提取文本，也支持对pdf进行OCR，而pdf只是文本的扫描图像安装要开始安装模块。 npm install pdf-extract 安装库后，您将需要在路径上访问以下二进制文件以处理pdf。 pdf文件pdftk将多页pdf拆分为单页。 PDF文本pdftotext用于从可搜索的pdf文档中提取文本幽灵脚本ghostscript是ocr预处理程序，可将pdf转换为tif文件以输入到tesseract中特塞斯特 tesseract在扫描的图像上执行实际的ocr OSX 要在OSX上开始，首先请确保已安装自制程序包管理器。 pdftk在Homebrew中不可用。但是，这里可以进行gui安装。 pdftotext包含在poppler实用程序库中

资源详情

资源评论

资源推荐

收起资源包目录