KSQL 文本处理语句
1、文本处理 KSQL 概述
文本处理是服务器端的智能文本挖掘扩展组件。它主要用来完成对文本信息中知识的
挖掘。
而文本处理 KSQL 则是驱动这些具体功能的 KSQL 语句。
由于文本处理属于扩展组件,所以在使用 KSQL 语句的时候必须要加上使用扩展组件
的信息。使用扩展组件的语句是:Use ext <扩展组件名称>。
这里我们使用:Use ext KExt_STM。
文本处理 KSQL 语句是在现有的 KSQL 语句上扩展的一组用来调用 KExt_STM 功能
的 KSQL 语句。
按照文本处理 KSQL 的形式,我们可以把其分成两类。
第一类文本处理 KSQL 主要用来用于学习指令或者预处理指令,该系列语句一般是对
数据做一个预先的处理,对后续的处理做一个准备。该系列语句以 CREATE 关键字开头,
并且不携带返回数据,通过语句执行的返回值来判断语句是否执行成功。
此类文本处理 KSQL 语句会有一个 From 关键字用来指定输入的数据。输入数据源可
以从表,文件夹或者由其两者同时输入。当数据从表中输入中,可以在输入表的字段上设
置相应的输入权值。权值越大,表示相对的信息越重要。当信息从文件夹输入时,程序会
递归遍历文件夹下所有的文件,即包括子文件夹下所有的文件。
第二类文本处理 KSQL 语句多用于处理数据,这类指令不仅处理数据,同时在处理的
过程中还会生成处理结果。所以在语句中需要指定保存输出结果的表和字段。指令执行完
毕之后,用户可以使用查看相应表信息来获取结果信息。
此类语句也有一个 From 关键字用来指定输入的数据。输入数据源可以是表或者文件
夹。当输入源从表输入时,除了可以指定字段的权值,用户还可以指定一个表输入的范
围,对于输入的范围的起始和结束都是闭区间,同时起始行的位置是从 0 开始。当信息从
文件夹输入时,程序会递归遍历文件夹下所有的文件。
譬如指定数据从表中输入,
From Table = CJFD1999 with (篇名,10)(摘要,25)(全文,1)
表示从表 CJFD1999 中取出“篇名”“摘要”“全文”这三个字段作为输入。后面的数
字代表该字段在输入中所占的权重值。该值越大,表示相对的信息越重要。通常的取值在
1~100 之间。在上例中,“篇名”“摘要”“全文”的权重分别是 10,25,1。这表示在所有
的输入中,摘要字段的信息最重要,最能代表输入文本的特征。全文的信息相对则不太重
要。
支持表中指定范围输入的语句:
From Table = CJFD1999 with (篇名,10)(摘要,25)(全文,1)
StartRec = 0 EndRec = 99
表示处理 CJFD1999 的前 100 条语句。