ADRDemo
使用文本标记化,n元语法,TF-IDF加权,CSV解析和文本分类等技术对自动文档识别进行简单的F#演示。
该代码假定存在一些训练数据,形式为明文文件,按类别组织到文件夹中:
\ TrainingData
\ CategoryA
\ Sample1.txt
\ Sample2.txt
\ CategoryB \ SampleA.txt
...以及要分类的纯文本文件:“ unknown.txt”。
它还假定存在单词白名单CSV文件,但是可以轻松将其更改为黑名单(“停用词”)或完全删除。