没有合适的资源?快使用搜索试试~ 我知道了~
带有 Python 绑定的 Rust 中的简单 NLP
共77个文件
py:22个
rs:17个
rst:6个
需积分: 5 0 下载量 105 浏览量
2021-06-28
18:56:23
上传
评论
收藏 74KB ZIP 举报
温馨提示
虚拟文本Rust 中的 NLP 与 Python 绑定该软件包旨在提供一个高性能工具包,用于为机器学习应用程序摄取文本数据。特征标记化:Regexp 标记器、Unicode 分段 + 语言特定规则Stemming:Snowball(在 Python 中比 NLTK 快 15-20 倍)标记计数:将标记计数转换为稀疏矩阵以用于机器学习库。类似于 scikit-learn 中的CountVectorizer和HashingVectorizer ,但功能不那么广泛。Levenshtein 编辑距离;Sørensen-Dice、Jaro、Jaro Winkler 字符串的相似性用法在 Python 中的使用vtext 需要 Python 3.6+ 并且可以安装,pip install vtext下面是一个简单的标记化示例,>>>fromvtext .tokenizeimportVTextTokenizer>>>VTextTokenizer ("en" ).tokenize ("Flights can't depart after 2:00 pm." ) ["Flights" ,"ca" ,"n
资源推荐
资源详情
资源评论
收起资源包目录
rth-vtext-rust-text-processing.zip (77个子文件)
vtext-main
Cargo.toml 1KB
ci
requirements-build.txt 60B
azure
install.cmd 1KB
test_rust.sh 49B
test_rust.cmd 55B
posix.yml 1KB
install.sh 682B
test_python.sh 200B
upload_wheels.sh 126B
test_python.cmd 156B
windows.yml 1KB
upload_wheels.cmd 127B
benchmarks
bench_string_similarity.py 2KB
bench_sentence_tokenizers.py 1KB
requirements.txt 12B
bench_vectorizers.py 3KB
bench_stemmers.py 1KB
README.md 626B
bench_tokenizers.py 2KB
src
tokenize_sentence
mod.rs 9KB
tests.rs 34KB
vectorize
mod.rs 14KB
tests.rs 6KB
metrics
mod.rs 362B
string.rs 9KB
tokenize
mod.rs 13KB
tests.rs 4KB
errors.rs 501B
lib.rs 1KB
math.rs 347B
evaluation
eval_tokenization.py 3KB
README.md 401B
.circleci
config.yml 5KB
doc
make.bat 787B
contributing.rst 666B
install.rst 405B
rust-api.rst 103B
conf.py 5KB
python-api.rst 940B
index.rst 926B
Makefile 580B
benchmarks.rst 2KB
requirements-doc.txt 33B
LICENSE 11KB
README.md 3KB
azure-pipelines.yml 588B
.gitignore 532B
python
MANIFEST.in 43B
Cargo.toml 579B
src
utils.rs 844B
tokenize_sentence.rs 5KB
stem.rs 3KB
vectorize.rs 4KB
lib.rs 5KB
tokenize.rs 8KB
Dockerfile 559B
requirements.txt 62B
run_docker_env.sh 104B
setup.cfg 449B
setup.py 831B
README.md 944B
vtext
vectorize.py 11KB
stem.py 285B
metrics
string.py 443B
__init__.py 263B
__init__.py 467B
tokenize.py 531B
tests
test_tokenize_sentence.py 2KB
__init__.py 219B
test_stem.py 621B
test_tokenize.py 3KB
test_metrics.py 873B
test_common.py 1KB
test_vectorize.py 2KB
tokenize_sentence.py 350B
pyproject.toml 216B
CHANGELOG.md 1KB
共 77 条
- 1
资源评论
weixin_38726255
- 粉丝: 3
- 资源: 882
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Screenshot_20240427_031602.jpg
- 网页PDF_2024年04月26日 23-46-14_QQ浏览器网页保存_QQ浏览器转格式(6).docx
- 直接插入排序,冒泡排序,直接选择排序.zip
- 在排序2的基础上,再次对快排进行优化,其次增加快排非递归,归并排序,归并排序非递归版.zip
- 实现了7种排序算法.三种复杂度排序.三种nlogn复杂度排序(堆排序,归并排序,快速排序)一种线性复杂度的排序.zip
- 冒泡排序 直接选择排序 直接插入排序 随机快速排序 归并排序 堆排序.zip
- 课设-内部排序算法比较 包括冒泡排序、直接插入排序、简单选择排序、快速排序、希尔排序、归并排序和堆排序.zip
- Python排序算法.zip
- C语言实现直接插入排序、希尔排序、选择排序、冒泡排序、堆排序、快速排序、归并排序、计数排序,并带图详解.zip
- 常用工具集参考用于图像等数据处理
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功