没有合适的资源?快使用搜索试试~ 我知道了~
WordTokenizers.jl:高性能分词器,用于自然语言处理和其他相关任务
共34个文件
jl:20个
yml:4个
md:3个
需积分: 22 0 下载量 20 浏览量
2021-04-30
19:38:07
上传
评论
收藏 72KB ZIP 举报
温馨提示
WordTokenizers 一些用于自然语言处理的基本标记器。 安装: 按照标准的: pkg> add WordTokenizers 用法 使用此包的通常方法是调用tokenize(str)将字符串拆分为单词,或者split_sentences(str)将字符串拆分为句子。 甚至可以tokenize.(split_sentences(str))来完成这两个任务。 tokenize和split_sentences是可配置的函数,它们调用下面定义的标记器或句子分割器之一。 它们具有明智的默认设置,但是您可以覆盖通过调用set_tokenizer(func)或set_sentence_splitter(func)从下面的列表(或其他位置)传入首选函数func使用的方法,以这种方式配置它们将抛出方法被覆盖的警告,并触发使用它们的所有方法的重新编译。 这意味着,如果使用的软件包使用Wor
资源推荐
资源详情
资源评论
收起资源包目录
WordTokenizers_jl-master.zip (34个子文件)
WordTokenizers.jl-master
paper
paper.bib 3KB
paper.md 5KB
speed_compare.png 20KB
.github
workflows
TagBot.yml 204B
src
set_method_api.jl 979B
WordTokenizers.jl 726B
split_api.jl 618B
sentences
sentence_splitting.jl 6KB
words
sedbased.jl 3KB
improved_penn.sed 2KB
TokTok.jl 9KB
simple.jl 562B
reversible_tokenize.jl 3KB
penn.sed 2KB
tweet_tokenizer.jl 27KB
fast.jl 6KB
nltk_word.jl 2KB
REQUIRE 34B
Project.toml 391B
.travis.yml 1KB
test
set_method_api.jl 672B
sedbased.jl 4KB
runtests.jl 279B
split_api.jl 653B
sentence_splitting.jl 5KB
reversible_tok.jl 1KB
tweet_tokenize.jl 5KB
toktok.jl 23KB
simple.jl 479B
LICENSE.md 10KB
README.md 13KB
appveyor.yml 1KB
.codecov.yml 15B
.gitignore 29B
共 34 条
- 1
资源评论
AR新视野
- 粉丝: 675
- 资源: 4651
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C语言-leetcode题解之83-remove-duplicates-from-sorted-list.c
- C语言-leetcode题解之79-word-search.c
- C语言-leetcode题解之78-subsets.c
- C语言-leetcode题解之75-sort-colors.c
- C语言-leetcode题解之74-search-a-2d-matrix.c
- C语言-leetcode题解之73-set-matrix-zeroes.c
- 树莓派物联网智能家居基础教程
- YOLOv5深度学习目标检测基础教程
- (源码)基于Arduino和Nextion的HMI人机界面系统.zip
- (源码)基于 JavaFX 和 MySQL 的影院管理系统.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功