可将Word和PDF文件转换为检索文本的工具
共1页
这个包可以同时支持word和pdf这两种格式,可将这两种格式的文件中的文本转换为可以用于全文检索的文本。
Code:
FileInputStream in = new FileInputStream ("test.doc");
WordExtractor extractor = new WordExtractor();
String str = extractor.extractText();
由于该组件读取doc和pdf的方法没有差异,所以可以不用考虑格式的不同 ,至于目录下读取通过 文件输入流 实现,重点实现子目录的递归。
可将Word和PDF文件转换为检索文本的工具
3星 · 超过75%的资源 需积分: 33 165 浏览量
2011-08-09
09:52:33
上传
评论
收藏 69KB RAR 举报
zhizong
- 粉丝: 3
- 资源: 38