没有合适的资源?快使用搜索试试~ 我知道了~
corpora-tools:语料库工具
共57个文件
py:35个
cpp:7个
perl:5个
需积分: 10 1 下载量 108 浏览量
2021-04-14
09:04:49
上传
评论
收藏 92KB ZIP 举报
温馨提示
语料库工具 分词器,清理器,分析器,模糊匹配器,TfIdf,Eval,POS-tagger 令牌器(OpenNMT): pip install pyonmttok echo "Hello World!" | onmt-tokenize-text --tokenizer OpenNMTTokenizer --tokenizer_config tokconfig Hello World ■! tokconfig指示标记化选项。 前任: mode: conservative joiner_annotate: true 要建立词汇表,请使用: onmt-build-vocab 或者 git clone https://github.com/OpenNMT/Tokenizer.git cd Tokenizer mkdir build cd build cmake -DCMAKE_BUILD_T
资源推荐
资源详情
资源评论
收起资源包目录
corpora-tools-master.zip (57个子文件)
corpora-tools-master
include
LCS.h 243B
Align.h 621B
Tools.h 280B
w2vec
dataset.py 14KB
w2vec.py 17KB
model.py 12KB
src
LCS.cpp 1KB
augmentInputMatches_cli.cpp 11KB
lcs_cli.cpp 2KB
unfold_cli.cpp 3KB
Align.cpp 6KB
Tools.cpp 2KB
phrases_cli.cpp 4KB
CMakeLists.txt 637B
matching
BilUnits.py 6KB
integrateEmbeddingMatches.py 3KB
fuzzyMatching.py 14KB
integrateNgramMatches.py 7KB
integrateFuzzyMatches.py 13KB
ngramMatching.py 8KB
NgramMatch.py 1KB
SpacCy
display.py 264B
SpaCy.py 6KB
Eval
chrF.py 4KB
multi-bleu.perl 4KB
diff2html.perl 4KB
ali2links_html.perl 2KB
ud2html.py 4KB
ali2matrix_html.perl 2KB
RIBES.py 20KB
requirements.txt 15B
corpus
idf.py 4KB
corpus-clean-bitext.py 7KB
tokenizer.py 662B
corpus-sets-data.py 2KB
train-phrases.py 9KB
corpus-analyse.py 3KB
lexical_score.perl 3KB
sim2prime.py 15KB
sim2src_tgt_sim_pre.py 7KB
matchs.py 10KB
tfidf.py 7KB
corpus-split-sets.py 3KB
faiss_cli.py 8KB
print_line_n.py 797B
corpus-divide-data.py 3KB
CMakeLists.txt 175B
README.md 4KB
download.sh 6KB
tokenise
treetagger.py 2KB
japanTok.py 7KB
subword_learn.py 3KB
tokenizer.py 3KB
tokenize.py 3KB
splitFeatsJoiner.py 4KB
__pycache__
tokenizer.cpython-36.pyc 692B
HOWTO.download_install_treetagger.sh 1KB
共 57 条
- 1
资源评论
小小鹊
- 粉丝: 34
- 资源: 4534
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功