基于paddleocr识别图片里面的表格数据导出成csv的文件streamlit进行部署和展示源码.zip资源-CSDN文库

共11个文件

png：5个

py：4个

txt：1个

版权申诉

源码

5星 · 超过95%的资源 129 浏览量 2024-05-03 06:56:29 上传评论收藏 725KB ZIP 举报

在这个项目中，我们主要涉及到的是图像处理、OCR（Optical Character Recognition）技术、CSV文件操作以及Streamlit的应用。以下是对这些关键知识点的详细说明： 1. **OCR技术**：OCR是一种将图像中的文本转换为机器编码文本的技术。PaddleOCR是百度开发的一个开源OCR系统，它具有轻量级、高精度的特点，支持多种语言的识别，尤其适用于中文识别。在本项目中，PaddleOCR被用来解析图片中的表格数据，将其转化为可编辑的文本格式。 2. **PaddleOCR**：PaddleOCR是基于PaddlePaddle深度学习框架构建的，提供了训练、预测等全套工具。其主要包括两个部分：基础检测模型（如DB、YOLO等）和OCR识别模型（如CRNN、SPM等）。在表格识别场景中，可能使用了特定的表格检测模型，如TableOCR，它能准确地定位和识别表格结构。 3. **CSV文件操作**：CSV（Comma Separated Values）是一种常见的数据存储格式，易于读写和分析。在本项目中，识别出的表格数据会被导出到CSV文件中，这样可以方便后续的数据处理和分析。Python的内置模块`csv`可以用于读写CSV文件，实现数据的导入和导出。 4. **Streamlit**：Streamlit是一个用于创建和共享数据应用的开源Python库。它允许开发者通过简单的Python脚本快速构建交互式的数据可视化应用。在本项目中，使用Streamlit部署识别结果，用户可以通过Web界面查看和交互这些表格数据，提供了直观的展示方式。 5. **代码结构**：压缩包中的"code"文件可能包含了整个项目的源代码，包括PaddleOCR的配置文件、数据处理脚本、Streamlit应用的Python文件等。这些代码通常会按照模块化的方式组织，如数据预处理、模型预测、结果后处理和Web应用接口等。 6. **部署与展示**：在完成图像处理和数据导出后，使用Streamlit将结果部署成一个Web应用。这涉及到设置Streamlit的运行环境，编写用于展示数据的Python脚本，以及可能的服务器配置。部署完成后，用户可以通过浏览器访问这个应用，查看并交互由OCR识别出来的表格数据。这个项目是一个集成的解决方案，涵盖了图像处理、OCR识别、数据导出、以及Web应用的开发和部署，展示了深度学习技术在实际问题中的应用，尤其是在处理和展示表格数据方面的高效性和实用性。

资源推荐

资源详情

资源评论

收起资源包目录

基于paddleocr识别图片里面的表格数据导出成csv的文件streamlit进行部署和展示源码.zip （11个子文件）

code

img

img_3.png 145KB

img_4.png 209KB

img.png 17KB

img_1.png 78KB

img_2.png 314KB

requirements.txt 107B

ocr_utils.py 9KB

README.md 745B

ocr

utils.py 1KB

__init__.py 138B

ocr.py 1KB

## 医学图片的ocr识别 ### 背景该项目主要使用百度的paddleocr对医学图片进行识别。利用PPStructure对识别的内容进行结构化，最终将结构化的内容保存成csv文件。整个项目通过streamlit进行前端的展示。 ### 数据形式 ![](img/img_1.png) ### 代码结构 ``` ├── AI-医学图片OCR.py # 前端展示 ├── ocr │ ├── __init__.py # 初始化 │ ├── ocr.py # ocr识别 │ └── utils.py # 一些工具函数 ├── ocr_utils.py # 一些工具函数 ``` ### 项目启动 ``` streamlit run AI-医学图片OCR.py ``` ### 前端展示 * 前端展示地址：http://ip:8501 ![](img/img_4.png)

评论收藏

内容反馈

版权申诉