.NET平台上的文件抽取框架toxy.zip

所需积分/C币:10 2019-07-19 03:18:01 45.30MB ZIP
28
收藏 收藏
举报

toxy是.NET平台上的文件抽取框架,主要解决各种格式的内容抽取问题,比如pdf, doc, docx, xls, xlsx等,尽管听上去支持了很多格式,但它的使用却是极其方便的,因为Toxy把复杂的抽取流程透明化,Toxy的用户根本不用知道内容是怎么抽出来的,这就是Toxy的重要意义。     另外Toxy的一大目标是取代IFilter成为跨平台.NET数据抽取解决方案,即支持Linux上的Mono。目前所有的测试用例都可以跑在Mono上,但是有少数没有过,正在逐步改进。从另一个层面讲,Toxy能将文件数据变成统一的结构化数据。目前Toxy支持的结构有string – 文本结构ToxyDom – Dom结构ToxySpreadsheet – 类似Excel的表单结构ToxyDocument – 类似Word的描述性文本结构ToxyEmail – 邮件结构,包括收件人、发件人、邮件内容、附件等ToxyBusinessCard – 名片结构ToxyMetadata – 元数据结构,主要包含文件的属性信息,比如作者、标题、照片大小、分辨率等。Toxy目前主要支持的文件格式及能抽取的内容此表更新至Toxy 1.4版本。文件格式支持抽取的结构化对象(抽取结果的类型)txtstringxmlToxyDomcsvstring, ToxySpreadsheetrtfstringpdfstring, ToxyDocumenthtm, htmlstring, ToxyDomvcfstring, ToxyBusinessCardzipstringmp3, ape, wav, flac, aifToxyMetadatajpeg, jpg, gif, tiff, pngToxyMetadataemlstring, ToxyEmailcnmToxyEmailxls, xlsxstring, ToxySpreadsheet, ToxyMetadatappt, pptxToxyMetadatadoc, docxstring, ToxyDocument, ToxyMetadata.vsd, .pub, .shw, .sldprt, pubx, vsdxToxyMetadata如何使用ToxyToxy的使用真的是极其简单,这里一点都不夸张,请看下面的例子:1234ParserContext context = new ParserContext("test.xlsx");ISpreadsheetParser parser = ParserFactory.CreateSpreadsheet(context);ToxySpreadsheet ss = parser.Parse();//处理抽取出来的数据这里的ToxySpreadsheet实例ss就是抽取出来的Excel数据,你可以直接用。ParserContext负责描述抽取上下文,告知Toxy要抽取的文件的路径,以及相关参数。ParserFactory是工厂模式类,负责所有解析器的实例化工作,它会根据传入文件的扩展名自动寻找合适的解析器。下面展示一下PDF文档的抽取代码,一样极其简单:123string path = TestDataSample.GetPdfPath("Sample1.PDF");var parser = new PDFTextParser(new ParserContext(path));string result = parser.Parse();这里返回的是string,也就是把PDF文档的内容直接抽取到string中,通常这种代码lucene.NET这样的搜索引擎用的比较多。再来个ToxyMetadata的抽取例子:1234string path = Path.GetFullPath(TestDataSample.GetOLE2Path("TestEditTime.doc"));ParserContext context = new ParserContext(path);IMetadataParser parser = ParserFactory.CreateMetadata(context);ToxyMetadata x = parser.Parse();这里抽取的是doc文件的元数据信息,比如文件由什么应用程序创建(并非一定是Word),作者、标题、公司等信息。只要是文件属性中详细信息列出来的东西,理论上都可以抽取出来。Toxy解析器的抽取参数Toxy的解析器不仅提供基本的抽取功能,同时也支持对抽取内容进行选择,这是通过ParserContext的Properties实现的。下面举一个Excel的抽取参数的例子:12345678ParserContext context = n

...展开详情
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
关注 私信
上传资源赚钱or赚积分
最新推荐
.NET平台上的文件抽取框架toxy.zip 10积分/C币 立即下载
1/0