没有合适的资源?快使用搜索试试~ 我知道了~
Stemmer Gujarati:古吉拉特语的离线词干分析器,古吉拉特语是22种印度语言之一。-开源
共36个文件
txt:10个
class:7个
java:7个
需积分: 9 0 下载量 186 浏览量
2021-04-30
18:24:59
上传
评论
收藏 85KB ZIP 举报
温馨提示
这是Java中的古吉拉特语词干。 词干处理是从词根(词根)中删除词缀的过程。 它将形态学变体词与相应的共同词根相关联。 例如,“પ્રતિઉપયોગી”是词干为“ઉપયોગ”的单词。 词干是特定于语言的工具。 词干算法的设计需要大量的语言专业知识。 非印度语言的词干分析器的开发和评估方面有很多重要的工作,但是在印度方面,尤其是古吉拉特语的研究很少或没有任何重要的工作。该词干的代码基于在指导下设计的算法印度Nikita Desai教授它使用.txt类型的输入文件,其中包含编码为UTF-8的古吉拉特语文本,然后删除了不必要的停用词。 处理完其余词后,它将输出包含所有词干以及其他详细信息的对应文件。
资源推荐
资源详情
资源评论
收起资源包目录
stemmer.zip (36个子文件)
stemmer
gujarati_stop_words_daiict.txt 1KB
gujarati_stop_words_daiict11.txt 1KB
suffix-list-lengthnew.txt 2KB
build.xml 4KB
applet.policy 54B
substitutionlist.txt 688B
manifest.mf 85B
src
CheckDictionary.java 909B
Checkstopword.java 947B
Readme.txt 573B
CheckPrefix.java 1KB
substitution.java 2KB
Stemming.java 5KB
CheckSuffix.java 1KB
stemmer.java 2KB
123.txt 148B
nbproject
build-impl.xml 77KB
private
private.xml 553B
config.properties 0B
private.properties 179B
project.xml 515B
genfiles.properties 475B
project.properties 2KB
prefix-list.txt 158B
dictionarylist.txt 218KB
tokenfile.txt 686B
build
classes
CheckSuffix.class 2KB
substitution.class 3KB
CheckPrefix.class 2KB
.netbeans_automatic_build 0B
Readme.txt 573B
.netbeans_update_resources 0B
Stemming.class 5KB
Checkstopword.class 1KB
CheckDictionary.class 1KB
stemmer.class 3KB
共 36 条
- 1
资源评论
dahiod
- 粉丝: 28
- 资源: 4664
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功