### 本目录为PDF解析器相关
目前实现了scipdf_parser和chatpaper_parser的批处理,通过传入pdf文件夹目录,自动解析pdf文件并存储json结果。
### 环境配置
#### scipdf_parser环境配置
#### SciPDF Parser(需求Linux系统,本例为x86_64架构)
1. 配置JAVA环境
1. 查看系统是否已存在JAVA环境,若存在JAVA环境则会返回相应的版本,此时可跳过“配置JAVA环境”步骤
```shell
java -version
```
2. 若不存在则需要进行安装配置
1. 查看本机架构
```shell
sudo uname --m
```
2. 由[此处](https://pan.baidu.com/s/1uaGWirDxCW-w99hdCB3x7g?pwd=w05a)下载jdk文件
3. 将jdk文件存放至适当的位置(如/usr/local等),并解压jdk文件
```shell
tar -zxvf jdk-8u221-linux-x64.tar.gz
```
4. 为jdk配置环境变量
1. 打开系统全局环境变量配置文件
```shell
vi /etc/profile
```
2. 按i键进入编辑模式
3. 在配置文件尾部写入如下代码块,其中JAVA_HOME为解压后的jdk文件所在的位置
```
JAVA_HOME=/usr/local/jdk-20.0.2
CLASSPATH=%JAVA_HOME%/lib:%JAVA_HOME%/jre/lib
PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin
export PATH CLASSPATH JAVA_HOME
```
4. 按ESC退出编辑模式
5. 输入`:wq`保存此次编辑并退出文件
6. 命令行输入如下命令,重新载入环境变量
```
source /etc/profile
```
7. 验证是否成功配置JAVA环境,若返回版本信息则表示配置成功
```
java -version
```
2. 配置SciPDF Parser(参考自其readme)
1. 获取SciPDF Parser源码文件
```shell
git clone https://github.com/titipata/scipdf_parser.git
```
2. 安装配置相应环境
```shell
cd scipdf_parser
/* 第1种方式(推荐) */
pip install git+https://github.com/titipata/scipdf_parser
/* 第2种方式 */
pip install -e .
```
3. 第2步的操作仍会遗漏bs4库的安装,因此还需要进一步通过`requirements.txt`安装可能遗漏的库
```shell
pip install -r requirements.txt
```
4. 安装SciPDF解析所需使用的模型`en_core_web_sm`
```shell
python -m spacy download en_core_web_sm
```
5. 以端口8070启动后端服务(初次启动时需花费较长时间进行自动配置)
```shell
bash serve_grobid.sh
```
6. 启动后端服务后,可参考如下示例对相应PDF文件进行解析
```python
import scipdf
# 本地 PDF文件解析
article_dict = scipdf.parse_pdf_to_dict('example_data/futoma2017improved.pdf') # return dictionary
# URL PDF文件解析
# option to parse directly from URL to PDF, if as_list is set to True, output 'text' of parsed section will be in a list of paragraphs instead
article_dict = scipdf.parse_pdf_to_dict('https://www.biorxiv.org/content/biorxiv/early/2018/11/20/463760.full.pdf', as_list=False)
# 输出样例
# output example
>> {
'title': 'Proceedings of Machine Learning for Healthcare',
'abstract': '...',
'sections': [
{'heading': '...', 'text': '...'},
{'heading': '...', 'text': '...'},
...
],
'references': [
{'title': '...', 'year': '...', 'journal': '...', 'author': '...'},
...
],
'figures': [
{'figure_label': '...', 'figure_type': '...', 'figure_id': '...', 'figure_caption': '...', 'figure_data': '...'},
...
],
'doi': '...'
}
# 传入参数`soup=True`进行更加全面的XML解析
# option to parse full XML from GROBID
xml = scipdf.parse_pdf('example_data/futoma2017improved.pdf', soup=True)
```
#### chatpaper_parser环境配置
```shell
pip install -r requirements.txt
```
### 使用方法
#### scipdf_parser
```shell
# 运行后端
bash serve_grobid.sh
# 启动时会额外花费数十秒
python scipdf_parser.py --dir_path {pdf所在文件夹}
```
#### chatpaper_parser
```shell
python chatpaper_parser.py --dir_path {pdf所在文件夹}
```
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
第三阶段9-12.zip (29个子文件)
第11课 第2版对paper和review数据的处理
第11课-对review数据的进一步处理.pdf 3.16MB
第11课参考代码.zip 8.05MB
第10课:第2版对论文PDF数据的解析
paper数据解析处理.ipynb 61KB
第10课:第2版对论文PDF数据的解析.pdf 2.77MB
第12课:对review数据的进一步处理:规范Review的格式且多聚一
第12课:对review数据的进一步处理:规范Review的格式且多聚一.pdf 3.11MB
第9课 论文审稿的项目背景与数据处理
第9课 论文审稿的项目背景与数据处理
结果_Screenshot_20231224_233144.png 23KB
3-读取并整理审稿数据:openreview_processor.py 3KB
2-论文PDF的爬取download_pdfs.pdf 153KB
0-七月论文审稿GPT第一版:数据的爬取与处理.pdf 10.81MB
1-爬取审稿数据:openreview_crawler.py 5KB
6-训练数据处理-主要针对paper、review - sub版本.ipynb 184KB
4-论文PDF的解析(安装见readme)
chatpaper_parser.py 14KB
pdf_case
case1.pdf 1.89MB
case2.pdf 7.84MB
nohup.out 846KB
error_log_scipdf.json 2B
scipdf_parser.py 1KB
requirements.txt 22B
result_case
chatpaper_parser_result_case1.json 52KB
scipdf_parser_result_case1.json 46KB
chatpaper_parser_result_case2.json 111KB
scipdf_parser_result_case2.json 86KB
scipdf_parser_results
NIPS-2017-attention-is-all-you-need-Paper.json 34KB
pdfs_for_test
NIPS-2017-attention-is-all-you-need-Paper.pdf 556KB
instructgpt.pdf 1.71MB
README.md 4KB
error_log.json 2B
5-已解析但待处理的数据(5000篇).zip 99.42MB
第9课 论文审稿的项目背景与数据处理.zip 118.32MB
共 29 条
- 1
资源评论
goodfate_and_fortune
- 粉丝: 5
- 资源: 44
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 10、安徽省大学生学科和技能竞赛A、B类项目列表(2019年版).xlsx
- 9、教育主管部门公布学科竞赛(2015版)-方喻飞
- C语言-leetcode题解之83-remove-duplicates-from-sorted-list.c
- C语言-leetcode题解之79-word-search.c
- C语言-leetcode题解之78-subsets.c
- C语言-leetcode题解之75-sort-colors.c
- C语言-leetcode题解之74-search-a-2d-matrix.c
- C语言-leetcode题解之73-set-matrix-zeroes.c
- 树莓派物联网智能家居基础教程
- YOLOv5深度学习目标检测基础教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功