流语料库分区 streamcorpus-zoner 是一种流语料库管道转换,它提供了一个可训练的文本文档分割器,可以自动识别文档的区域。 这个 python 包提供了一个称为zoner的转换阶段,可以配置为在 NER 标记之前StreamItem.body.clean_{html,visible}不需要的部分。
评论0
最新资源