如何将中国知网CAJ、NH、KDH、PDF格式文件转换成WORD
如何将中国知网CAJ、NH、KDH、PDF格式文件转换成WORD 本文将介绍如何将中国知网CAJ、NH、KDH、PDF格式文件转换成WORD文档的方法。这种转换方法使用微软提供的OCR识别技术,从CAJ、PDF等文件中提取全部文本,简便快捷,效率很高。 一、CAJ文件的识别 在将CAJ文件转换成WORD文档之前,需要安装CAJViewer5.5浏览器软件和acrobat 5专业版浏览器软件,并安装Office2003和Microsoft OfficeDocument Imaging。接着,可以按照以下步骤进行CAJ文件的识别: 1.下载CAJ格式的资料文件保存到本地硬盘上。 2.启动CAJViewer浏览器程序,并在该程序中打开刚才保存的CAJ格式的文件。 3.在CAJ浏览器程序窗口中,选择“文件”→“打印”,并选择打印机为Microsoft OfficeDocument Image Writer打印机,勾选打印到文件选项和确定打印页数。 4.保存打印文件(*.prn)到适当位置。 5.等待打印完成后,Microsoft Office Document Image自动打开刚才保存的打印文件。 6.在Microsoft Office Document Image窗口中,选择“页面”菜单中的“选择所有页面”菜单项,然后选择“工具”菜单中的“使用OCR识别文本”提取文本。 7.选择“工具”下的“将文本发送到word”,最后将把整个CAJ文件识别输出到word文件中。 二、PDF文件的识别 PDF文件可以根据其保存形式选择不同的识别方法。对于以文本形式保存的PDF文件,可以使用acrobat 5专业版,直接打开从网上下载的PDF格式文件另存为RTF文件,或者选择工具栏上的文字选择按钮,然后选择文字区域,然后复制到Word中即可。 对于以图片形式保存的PDF文件,将PDF文件打印到Microsoft Office Document Image Writer打印机,选择打印形成的文件的保存位置,然后会自动形成一个MDI文件,并且自动用Microsoft OfficeDocument Image打开此文件。然后,在Microsoft Office Document Image中选择“工具”菜单中的“使用OCR识别文本”,识别完成后,在选择“工具”下的,“将文本发送到word”,最后将把整个PDF文件识别输出到word文件中。 对于加密的PDF文件,需要先下载解密软件,解密后参照上述步骤进行识别。对于繁体PDF文件,用上述步骤识别到word后,用word中的“工具”→“语言”→“中文繁简转换”。 三、超星文件的识别 对于超星文件,可以按照以下步骤进行识别: 1.全文文件识别打印到Microsoft Office Document Image Writer打印机。 2.然后,按照上述PDF文件的识别步骤中第二点操作,需要注意的是,超星打印功能有点区别,因为超星是目录和全文分开的,所以打印时,需要分别把目录和正文识别到Word中,再合并到一起。 3.打印时要填入打印页码从1到最后一页,不要选择打印全部。在打印选项中,要将页面比例设成真实大小,而不是整宽。 四、后记 在试验中,发现Microsoft Office Document Image存在一些不稳定的问题,如在用CAJ打印到Microsoft Office DocumentImage Writer时,发现用CAJ5.5版本比较快,而CAJ5.0有时出现假死机。页面显示大时,转化的识别率较高。如果页数多的文件,包括超星,可以分多次转化。 由于虚拟打印到Microsoft OfficeDocument Image Writer比较慢,并且形成的虚拟文件很大,1本200多页的书大约是60M,因此会严重影响机器的运行速度。
- 粉丝: 0
- 资源: 2
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
- 1
- 2
- 3
- 4
- 5
前往页