没有合适的资源?快使用搜索试试~ 我知道了~
greek_training_set_sentence_cltk:用于古典希腊语的训练集和分词器,与 CLTK 一起使用
共6个文件
py:1个
md:1个
gitignore:1个
需积分: 8 0 下载量 6 浏览量
2021-06-15
22:48:18
上传
评论
收藏 352KB ZIP 举报
温馨提示
CLTK 希腊语句子分词器 关于 该存储库包含一个训练集和规则集,用于对古典希腊语的句子进行标记,以与。 除非你想为希腊语句子创建一个新的训练集,否则你不需要这个存储库中的任何东西。 要使用 CLTK 标记希腊语句子,首先,然后查看 。 training_sentences.txt包含整个色诺芬的Anabasis ,长度为 57,173 个单词。 用 要创建新的训练集,请手动将标记化的句子(每个句子开始一个新行)添加到training_sentences.txt并运行train_sentence_tokenizer.py 。 该脚本输出greek.pickle 。 要使用这个新文件,请将其复制到您本地的 CLTK 数据目录~/cltk_data/compiled/sentence_tokens_greek/ 。 $ python train_sentence_tokenizer.py
资源推荐
资源详情
资源评论
收起资源包目录
greek_training_set_sentence_cltk-master.zip (6个子文件)
greek_training_set_sentence_cltk-master
.gitignore 551B
README.md 2KB
LICENSE 1KB
train_sentence_tokenizer.py 1009B
training_sentences.txt 690KB
greek.pickle 473KB
共 6 条
- 1
资源评论
林海靖
- 粉丝: 61
- 资源: 4728
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功