.NET平台上的文件抽取框架toxy.zip资源-CSDN文库

需积分: 14 167 浏览量 2019-07-19 03:18:01 上传评论收藏 45.3MB NONE 举报

共396个文件

cs：108个

jpg：43个

dll：43个

toxy是.NET平台上的文件抽取框架，主要解决各种格式的内容抽取问题，比如pdf, doc, docx, xls, xlsx等，尽管听上去支持了很多格式，但它的使用却是极其方便的，因为Toxy把复杂的抽取流程透明化，Toxy的用户根本不用知道内容是怎么抽出来的，这就是Toxy的重要意义。另外Toxy的一大目标是取代IFilter成为跨平台.NET数据抽取解决方案，即支持Linux上的Mono。目前所有的测试用例都可以跑在Mono上，但是有少数没有过，正在逐步改进。从另一个层面讲，Toxy能将文件数据变成统一的结构化数据。目前Toxy支持的结构有string – 文本结构ToxyDom – Dom结构ToxySpreadsheet – 类似Excel的表单结构ToxyDocument – 类似Word的描述性文本结构ToxyEmail – 邮件结构，包括收件人、发件人、邮件内容、附件等ToxyBusinessCard – 名片结构ToxyMetadata – 元数据结构，主要包含文件的属性信息，比如作者、标题、照片大小、分辨率等。Toxy目前主要支持的文件格式及能抽取的内容此表更新至Toxy 1.4版本。文件格式支持抽取的结构化对象（抽取结果的类型）txtstringxmlToxyDomcsvstring, ToxySpreadsheetrtfstringpdfstring, ToxyDocumenthtm, htmlstring, ToxyDomvcfstring, ToxyBusinessCardzipstringmp3, ape, wav, flac, aifToxyMetadatajpeg, jpg, gif, tiff, pngToxyMetadataemlstring, ToxyEmailcnmToxyEmailxls, xlsxstring, ToxySpreadsheet, ToxyMetadatappt, pptxToxyMetadatadoc, docxstring, ToxyDocument, ToxyMetadata.vsd, .pub, .shw, .sldprt, pubx, vsdxToxyMetadata如何使用ToxyToxy的使用真的是极其简单，这里一点都不夸张，请看下面的例子：1234ParserContext context = new ParserContext("test.xlsx");ISpreadsheetParser parser = ParserFactory.CreateSpreadsheet(context);ToxySpreadsheet ss = parser.Parse();//处理抽取出来的数据这里的ToxySpreadsheet实例ss就是抽取出来的Excel数据，你可以直接用。ParserContext负责描述抽取上下文，告知Toxy要抽取的文件的路径，以及相关参数。ParserFactory是工厂模式类，负责所有解析器的实例化工作，它会根据传入文件的扩展名自动寻找合适的解析器。下面展示一下PDF文档的抽取代码，一样极其简单：123string path = TestDataSample.GetPdfPath("Sample1.PDF");var parser = new PDFTextParser(new ParserContext(path));string result = parser.Parse();这里返回的是string，也就是把PDF文档的内容直接抽取到string中，通常这种代码lucene.NET这样的搜索引擎用的比较多。再来个ToxyMetadata的抽取例子：1234string path = Path.GetFullPath(TestDataSample.GetOLE2Path("TestEditTime.doc"));ParserContext context = new ParserContext(path);IMetadataParser parser = ParserFactory.CreateMetadata(context);ToxyMetadata x = parser.Parse();这里抽取的是doc文件的元数据信息，比如文件由什么应用程序创建（并非一定是Word），作者、标题、公司等信息。只要是文件属性中详细信息列出来的东西，理论上都可以抽取出来。Toxy解析器的抽取参数Toxy的解析器不仅提供基本的抽取功能，同时也支持对抽取内容进行选择，这是通过ParserContext的Properties实现的。下面举一个Excel的抽取参数的例子：12345678ParserContext context = new ParserContext(TestDataSample.GetExcelPath(filename));ISpreadsheetParser parser = ParserFactory.CreateSpreadsheet(context);ToxySpreadsheet ss = parser.Parse();//抽取表的页头parser.Context.Properties.Add("ExtractSheetHeader", "1");//抽取表的页脚parser.Context.Properties.Add("ExtractSheetFooter", "1");ToxySpreadsheet ss2 = parser.Parse();这里的ExtractSheetHeader和ExtractSheetFooter是抽取器指定的参数，拼写不要出错，否则无效，后面的1表示开启，当然如果你喜欢，你也可以用on或者true，解析器能自动识别出这3种表示true的方式，如果想表示false，你可以用0, off或者false表示。另外SpreadsheetParser还支持是否填充空白单元格（FillBlankCells）、显示公式结果（ShowCalculatedResult）、包含批注（IncludesComments）等操作，有兴趣的可以玩玩。当然每个抽取器能够使用的参数是不一样的，本文就不详细一一列举了，在以后的文章中，我们会详细列举每个抽取器的参数及对应抽取内容。Toxy高级扩展功能Toxy除了提供基础的抽取功能，也提供一些高级的对象转换服务，比如ToxySpreadsheet转DataSet，可以直接把Excel的数据转换成DataSet，方便调用和处理。代码超级简单，如下所示：1234ParserContext c=new ParserContext(@"c:employee.xls");var parser=ParserFactory.CreateSpreadsheet(c);var spreadsheet= parser.Parse();DataSet ds = spreadsheet.ToDataSet();就这么4行代码，是不是超级爽呀！另外，ToxySpreadsheet的子结构ToxyTable支持ToDataTable操作，用法也是类似的，直接调用即可。Toxy功能展望Toxy 1.x的目标是支持足够多的文件格式，并转换成统一的结构进行抽取。而Toxy 2.x-3.x的目标是支持相似文件的互操作（相互转换），例如Excel转csv， Excel转html, Word转PDF等，当然这个路有点长，慢慢来。标签：文件抽取框架

资源推荐

资源详情

资源评论

收起资源包目录

.NET平台上的文件抽取框架toxy.zip （396个子文件）

_._ 0B

sample.aac 146KB

sample.aif 174KB

sample.ape 386KB

sample.avi 70KB

build.bat 1KB

release.bat 736B

vector.bin 236KB

Y0KKH0IF.CNM 66KB

Y0EDJNVS.CNM 56KB

Y0JEFJ9A.CNM 56KB

Y03R29ZN.CNM 54KB

Y0GOE0P3.CNM 52KB

Y03KX4H1.CNM 49KB

Y0B6E8H2.CNM 44KB

Y0FKQ86O.CNM 44KB

Y0E4M029.CNM 44KB

App.config 610B

packages.config 514B

repositories.config 182B

packages.config 129B

app.config 75B

Form1.Designer.cs 17KB

Form1.cs 15KB

EMLReader.cs 12KB

AboutBox1.Designer.cs 10KB

Form1.Designer.cs 10KB

ExcelParserBaseTest.cs 9KB

ParserFactory.cs 8KB

DateTimeParser.cs 8KB

ExcelSpreadsheetParser.cs 8KB

TestToxySpreadsheet.cs 6KB

OLE2MetadataParser.cs 6KB

CnmFile.cs 5KB

OOXMLMetadataParser.cs 5KB

VCardTextParser.cs 5KB

Form1.cs 5KB

CSVSpreadsheetParser.cs 4KB

ToxyTable.cs 4KB

VCardParserTest.cs 4KB

ImageParserTest.cs 4KB

Powerpoint2007SlideshowParser.cs 4KB

MsgTextParser.cs 4KB

ImageMetadataParser.cs 4KB

AudioMetadataParser.cs 3KB

AboutBox1.cs 3KB

Word2007DocumentParser.cs 3KB

PowerPoint2007TextParser.cs 3KB

ToxyNode.cs 3KB

VCardDocumentParser.cs 3KB

OLE2MetadataParserTest.cs 3KB

TreeViewPanel.Designer.cs 3KB

Word2007ParserTest.cs 3KB

PropertyListPanel.Designer.cs 3KB

ToxyBusinessCards.cs 3KB

ExcelTextParserTest.cs 3KB

Resources.Designer.cs 3KB

PDFParserTest.cs 3KB

AudioParserTest.cs 3KB

ExcelTextParser.cs 3KB

TestDataSample.cs 2KB

MsgEmailParser.cs 2KB

Word2007TextParser.cs 2KB

Word2003DocumentParser.cs 2KB

GridPanel.Designer.cs 2KB

SpreadsheetPanel.Designer.cs 2KB

ToxyBusinessCard.cs 2KB

MsgEmailParserTest.cs 2KB

Powerpoint2007SlideshowParserTest.cs 2KB

Word2003ParserTest.cs 2KB

ToxyMetadata.cs 2KB

RichTextBoxPanel.Designer.cs 2KB

HtmlDomParser.cs 2KB

PlainTextParser.cs 2KB

CsvParserTest.cs 2KB

OOXMLParserTest.cs 2KB

Excel2007ParserTest.cs 2KB

XMLDomParser.cs 2KB

HtmlParserTest.cs 2KB

PlainTextParserTest.cs 2KB

AssemblyInfo.cs 2KB

ToxySpreadsheet.cs 1KB

AssemblyInfo.cs 1KB

EMLTextParser.cs 1KB

ToxyAddress.cs 1KB

PDFDocumentParser.cs 1KB

AssemblyInfo.cs 1KB

Excel2003ParserTest.cs 1KB

ToxyDocument.cs 1KB

EMLEmailParser.cs 1KB

RTFParserTest.cs 1KB

PDFTextParser.cs 1KB

CnmEmailParser.cs 1KB

Settings.Designer.cs 1KB

ToxyContact.cs 1KB

EmlEmailParserTest.cs 1KB

CnmEmailParserTest.cs 1015B

共 396 条

评论收藏

内容反馈

weixin_39840515

粉丝: 448
资源: 1万+

.NET平台上的文件抽取框架toxy.zip

CSV文件数据抽取

模拟故障场景的HTTP代理toxy_h2non.zip

Toxy, Windows的[UNMAINTAINED] 测试客户端.zip

toxy, 破坏用于弹性测试和模拟网络条件的HTTP代理.zip

toxy-ip:毒性规则，可轻松按IP地址进行过滤（支持CIDR，子网，IP范围...）

wgs84toxy坐标转换

toxy:微小的TCP代理

awesome-dotnet-cn:优秀开源项目聚合

C语言管理系统.doc

#includes.docx

污染物藻类生物测试法的研究

Qt 5实现串口调试助手 （源工程文件、0积分下载）

【SystemVerilog】路科验证V2学习笔记（全600页）.pdf

AutoSAR标准协议4.2.2

光伏-储能并网系统仿真.rar

XCP协议的规范文档

GD32替换STM32注意事项.pdf

NPPJSONViewer.zip

蓝牙BLE协议中文版.pdf

CANoe通过CAPL脚本实现自动测试

AD20官方中文教程.pdf

完整版 Microsoft.ACE.OLEDB.12.0 驱动下载.rar

电路分析基础第二版PDF电子书免费下载

Tangent免费.rar

qt样式表一键生成（花狗Fdog）

CMSIS-DAP使用说明及驱动.rar

Matlab安装MinGW-w64 C/C++ 编译器

VS2015安装证书，JavaScript_ProjectSystem.msi，JavaScript_LanguageService.msi

七参数坐标转换工具（可在WGS84、北京54、西安80、CGCS2000坐标系中任意两个转换）

BaiduOCR.zip

最新资源

Qt 5实现串口调试助手（源工程文件、0积分下载）