corpora-tools:语料库工具_语料库工具资源-CSDN文库

共57个文件

py：35个

cpp：7个

perl：5个

需积分: 10 108 浏览量 2021-04-14 09:04:49 上传评论收藏 92KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

corpora-tools-master.zip （57个子文件）

folder

corpora-tools-master

folder

include

LCS.h 243B

Align.h 621B

Tools.h 280B

folder

w2vec

dataset.py 14KB

w2vec.py 17KB

model.py 12KB

folder

src

LCS.cpp 1KB

augmentInputMatches_cli.cpp 11KB

lcs_cli.cpp 2KB

unfold_cli.cpp 3KB

Align.cpp 6KB

Tools.cpp 2KB

phrases_cli.cpp 4KB

CMakeLists.txt 637B

folder

matching

BilUnits.py 6KB

integrateEmbeddingMatches.py 3KB

fuzzyMatching.py 14KB

integrateNgramMatches.py 7KB

integrateFuzzyMatches.py 13KB

ngramMatching.py 8KB

NgramMatch.py 1KB

folder

SpacCy

display.py 264B

SpaCy.py 6KB

folder

Eval

chrF.py 4KB

multi-bleu.perl 4KB

diff2html.perl 4KB

ali2links_html.perl 2KB

ud2html.py 4KB

ali2matrix_html.perl 2KB

RIBES.py 20KB

requirements.txt 15B

folder

corpus

idf.py 4KB

corpus-clean-bitext.py 7KB

tokenizer.py 662B

corpus-sets-data.py 2KB

train-phrases.py 9KB

corpus-analyse.py 3KB

lexical_score.perl 3KB

sim2prime.py 15KB

sim2src_tgt_sim_pre.py 7KB

matchs.py 10KB

tfidf.py 7KB

corpus-split-sets.py 3KB

faiss_cli.py 8KB

print_line_n.py 797B

corpus-divide-data.py 3KB

CMakeLists.txt 175B

README.md 4KB

download.sh 6KB

folder

tokenise

treetagger.py 2KB

japanTok.py 7KB

subword_learn.py 3KB

tokenizer.py 3KB

tokenize.py 3KB

splitFeatsJoiner.py 4KB

folder

__pycache__

tokenizer.cpython-36.pyc 692B

HOWTO.download_install_treetagger.sh 1KB

内容反馈

小小鹊

粉丝: 34
资源: 4534

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip