# ocr-table
This project aims to extract tables from scanned image PDFs using Optical Character Recognition.
# Install Requirements
1. Tesseract OCR
```sh
sudo apt-get install tesseract-ocr
```
2. Imagemagick
```sh
sudo apt-get install imagemagick
```
3. PDF Utilities
```sh
sudo apt-get install poppler-utils
```
4. Python packages
```sh
sudo pip install -r requirements.txt
```
# Usage
1. Clear the [pdf/](pdf) folder and copy all your pdf files to be scanned in it.
2. Run the OCR:
```sh
python3 shellocr.py
```
3. The scanned text files shall be available in the [txt/](txt) folder once the process completes.
# Alternate
1. If the above doesn't work for you, try the alternate method.
2. Save your file as input.pdf in the root directory.
3. Run
```sh
python3 pdf_miner.py
```
没有合适的资源?快使用搜索试试~ 我知道了~
使用光学字符识别从扫描图像 PDF 中提取表格
共19个文件
pdf:10个
txt:3个
py:3个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 196 浏览量
2023-06-17
12:29:30
上传
评论
收藏 5.29MB ZIP 举报
温馨提示
在现实世界中,有很多文档和文件以表格的形式存储着重要的信息。然而,对于这些表格的数据提取却是一个具有挑战性的任务。 该项目使用Python编程语言和一些开源的图像处理和OCR库来实现表格数据提取。它结合了图像处理技术和OCR算法,通过对输入图像进行预处理、文本检测和识别的步骤,将表格中的文本信息转换为结构化的数据。 项目的主要功能包括图像预处理、文本检测、字符识别和表格数据提取。首先,对输入图像进行预处理,包括灰度化、二值化、去噪等操作,以提高后续步骤的准确性。然后,使用文本检测算法来定位和提取图像中的文本区域。接下来,应用OCR算法对提取的文本区域进行字符识别,将其转换为可读的文本信息。最后,根据表格的结构和规则,将识别到的文本信息组织成表格数据。 该项目的优点在于其简单易用的界面和可配置的参数,使用户能够根据不同的需求进行自定义设置。同时,提供了一些示例图像和测试数据,以便用户能够快速上手并验证算法的性能。
资源推荐
资源详情
资源评论
收起资源包目录
使用光学字符识别从扫描图像 PDF 中提取表格.zip (19个子文件)
extract_text.sh 2KB
py_ocr.py 484B
input.pdf 189KB
pdf
sample2.pdf 69KB
sample.pdf 21KB
output.txt 7KB
pdf_miner.py 1KB
test_cases
allahabad.pdf 1.14MB
pdf6.pdf 367KB
delhi.pdf 639KB
chennai.pdf 2.45MB
hyderabad.pdf 840KB
pdf1.pdf 402KB
kolkata.pdf 291KB
requirements.txt 28B
.gitignore 1KB
txt
info.txt 42B
shellocr.py 291B
README.md 814B
共 19 条
- 1
资源评论
Meta.Qing
- 粉丝: 2w+
- 资源: 121
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功