没有合适的资源?快使用搜索试试~ 我知道了~
令牌生成器:具有BPE和SentencePiece支持的快速且可自定义的文本令牌生成库
共62个文件
cc:18个
h:15个
md:5个
需积分: 48 0 下载量 5 浏览量
2021-01-30
20:40:45
上传
评论
收藏 958KB ZIP 举报
温馨提示
分词器 Tokenizer是针对C ++和Python的快速,通用且可自定义的文本标记化库,具有最小的依赖性。 总览 默认情况下,令牌生成器基于Unicode类型应用简单的令牌化。 可以通过几种方式自定义: 可逆令牌化通过注释标记或注入修饰符来标记关节或空间。 子词标记化支持培训和使用BPE和SentencePiece模型。 高级文本分割分割数字,区分大小写或更改字母,分割所选字母的每个字符等。 案例管理小写的文本和返回的大小写信息作为单独的功能或插入大小写修饰符标记。 保护序列可以使用特殊字符⦅和protected防止序列进行分词。 请参阅以了解受支持功能的概述。 使用 令牌生成器可以在Python,C ++或命令行中使用。 每种模式都公开相同的选项集。 Python API pip install pyonmttok >> > import pyonmttok >> > tokenizer = pyonmttok . Tokenizer ( "conservative" , joiner_annotate = True ) >> > tokens , _ = tok
资源推荐
资源详情
资源评论
收起资源包目录
Tokenizer-master.zip (62个子文件)
Tokenizer-master
.gitignore 11B
bindings
python
setup.py 2KB
tools
prepare_build_environment.sh 513B
pyonmttok
__init__.py 20B
Python.cc 22KB
README.md 7KB
test
test.py 14KB
third_party
sentencepiece
googletest
cxxopts
src
Tokenizer.cc 33KB
BPELearner.cc 13KB
SpaceTokenizer.cc 2KB
ITokenizer.cc 6KB
SubwordLearner.cc 2KB
BPE.cc 13KB
SubwordEncoder.cc 3KB
Casing.cc 8KB
Casing.h 1KB
unicode
Unicode.cc 9KB
SentencePieceLearner.cc 4KB
Utils.h 551B
Token.cc 440B
SentencePiece.cc 4KB
Utils.cc 2KB
LICENSE.md 1KB
cli
learn.cc 5KB
tokenize.cc 4KB
detokenize.cc 1KB
tokenization_args.h 4KB
CMakeLists.txt 674B
CHANGELOG.md 18KB
.gitmodules 351B
.github
workflows
ci.yml 3KB
README.md 3KB
cmake
FindICU.cmake 38KB
include
onmt
Token.h 2KB
SPMLearner.h 166B
SpaceTokenizer.h 685B
Tokenizer.h 7KB
BPELearner.h 782B
unicode
Unicode.h 4KB
SubwordLearner.h 1KB
SentencePiece.h 1KB
ITokenizer.h 2KB
SubwordEncoder.h 1KB
SentencePieceLearner.h 2KB
BPE.h 2KB
docs
options.md 10KB
test
test.cc 41KB
data
bpe-models
testcode.v0.1 55B
codes_suffix_case_insensitive.fr 4KB
codes_nofix.fr 3KB
vocab.en.tab 7KB
codes_bothfix.fr 6KB
fr500 3KB
issue-147.txt 328KB
bpe_code.v0.2 6KB
codes_prefix.fr 4KB
vocab.en 7KB
sp-models
sp_regularization.model 247KB
sp.model 361KB
wmtende.model 759KB
CMakeLists.txt 436B
CMakeLists.txt 3KB
共 62 条
- 1
资源评论
张A裕
- 粉丝: 23
- 资源: 4759
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- (源码)基于C++的直接稀疏里程计系统.zip
- 搜索引擎-毕业论文PDF
- 计算机能力挑战赛 c++试题
- MongoDB-4.2.18(Windows)
- (源码)基于Qt框架的图形界面管理系统DeepinGraphics.zip
- mmexport1f86dd24828d1f641efb691d208468d9_1731805247221.png
- (源码)基于Arduino和MQTT协议的无线开关控制系统.zip
- mmexportf40413a965bda00645a925f2719aef69_1731805204282.jpeg
- (源码)基于SSM框架的教务查询系统.zip
- Python的正则表达式PDF
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功