没有合适的资源?快使用搜索试试~ 我知道了~
令牌生成器:具有BPE和SentencePiece支持的快速且可自定义的文本令牌生成库
共62个文件
cc:18个
h:15个
md:5个
需积分: 48 0 下载量 155 浏览量
2021-01-30
20:40:45
上传
评论
收藏 958KB ZIP 举报
温馨提示
分词器 Tokenizer是针对C ++和Python的快速,通用且可自定义的文本标记化库,具有最小的依赖性。 总览 默认情况下,令牌生成器基于Unicode类型应用简单的令牌化。 可以通过几种方式自定义: 可逆令牌化通过注释标记或注入修饰符来标记关节或空间。 子词标记化支持培训和使用BPE和SentencePiece模型。 高级文本分割分割数字,区分大小写或更改字母,分割所选字母的每个字符等。 案例管理小写的文本和返回的大小写信息作为单独的功能或插入大小写修饰符标记。 保护序列可以使用特殊字符⦅和protected防止序列进行分词。 请参阅以了解受支持功能的概述。 使用 令牌生成器可以在Python,C ++或命令行中使用。 每种模式都公开相同的选项集。 Python API pip install pyonmttok >> > import pyonmttok >> > tokenizer = pyonmttok . Tokenizer ( "conservative" , joiner_annotate = True ) >> > tokens , _ = tok
资源推荐
资源详情
资源评论
收起资源包目录
Tokenizer-master.zip (62个子文件)
Tokenizer-master
.gitignore 11B
bindings
python
setup.py 2KB
tools
prepare_build_environment.sh 513B
pyonmttok
__init__.py 20B
Python.cc 22KB
README.md 7KB
test
test.py 14KB
third_party
sentencepiece
googletest
cxxopts
src
Tokenizer.cc 33KB
BPELearner.cc 13KB
SpaceTokenizer.cc 2KB
ITokenizer.cc 6KB
SubwordLearner.cc 2KB
BPE.cc 13KB
SubwordEncoder.cc 3KB
Casing.cc 8KB
Casing.h 1KB
unicode
Unicode.cc 9KB
SentencePieceLearner.cc 4KB
Utils.h 551B
Token.cc 440B
SentencePiece.cc 4KB
Utils.cc 2KB
LICENSE.md 1KB
cli
learn.cc 5KB
tokenize.cc 4KB
detokenize.cc 1KB
tokenization_args.h 4KB
CMakeLists.txt 674B
CHANGELOG.md 18KB
.gitmodules 351B
.github
workflows
ci.yml 3KB
README.md 3KB
cmake
FindICU.cmake 38KB
include
onmt
Token.h 2KB
SPMLearner.h 166B
SpaceTokenizer.h 685B
Tokenizer.h 7KB
BPELearner.h 782B
unicode
Unicode.h 4KB
SubwordLearner.h 1KB
SentencePiece.h 1KB
ITokenizer.h 2KB
SubwordEncoder.h 1KB
SentencePieceLearner.h 2KB
BPE.h 2KB
docs
options.md 10KB
test
test.cc 41KB
data
bpe-models
testcode.v0.1 55B
codes_suffix_case_insensitive.fr 4KB
codes_nofix.fr 3KB
vocab.en.tab 7KB
codes_bothfix.fr 6KB
fr500 3KB
issue-147.txt 328KB
bpe_code.v0.2 6KB
codes_prefix.fr 4KB
vocab.en 7KB
sp-models
sp_regularization.model 247KB
sp.model 361KB
wmtende.model 759KB
CMakeLists.txt 436B
CMakeLists.txt 3KB
共 62 条
- 1
资源评论
张A裕
- 粉丝: 24
- 资源: 4759
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 大学课设基于QT的数据结构链表操作演示系统(含源码+设计报告及资料).zip
- 基于深度强化学习的A股股票自动交易智能体开发(python源码+设计报告).zip
- 电力系统同步相量测量系统-最近开发(含全新源码+完整资料+设计文档).zip
- 基于TensorFlow、Keras和pyQT的实时人脸识别系统(含项目说明+设计报告).zip
- 双相障碍检测-睿抗机器人开发者大赛任务应用赛2023(含全部参赛资料).zip
- 比赛项目-青岛国际水下机器人大赛之油管捡漏(含全新源码+设计报告).zip
- 基于传统机器学习与深度学习的Flavia叶片数据集分类项目源码+全部资料.zip
- 基于深度学习的垃圾分类小程序(“某某垃圾通”,含项目说明与源码).zip
- 大麦回流票监测与抢票脚本程序开发项目(含多种通知方式及脚本资源).zip
- 基于Chinese-Alapaca-Plus的Linux大型中文对话模型(ChatGPT)快速部署方案.zip
- 全国大学生冰壶人工智能挑战赛参赛成果与技术创新完整源码+资料文档.zip
- 基于C++面向对象的餐厅自助点餐系统设计与实现(课程设计源码+报告).zip
- 课程设计-OpenMeeting视频会议系统源码(仿QQ群视频,含多种语音模式).zip
- 汉明码纠错传输+交织编码matlab仿真-最新开发(含全新源码+设计报告).zip
- Java大作业基于SSM+SpringBoot的网络游戏推荐后台管理系统源码+作业报告.zip
- 全国人工智能大赛昇思杯AI+遥感影像方案详解与应用拓展(获奖项目).zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功