没有合适的资源?快使用搜索试试~ 我知道了~
DaAnonymization:简单的可自定义管道工具,用于匿名化丹麦文字
共32个文件
rst:11个
py:7个
makefile:2个
需积分: 8 0 下载量 165 浏览量
2021-03-08
20:06:02
上传
评论
收藏 87KB ZIP 举报
温馨提示
丹麦文字的匿名化工具 描述 围绕SpaCy,DaNLP和DaCy的简单管道,用于匿名化丹麦语语料库。 流水线允许自定义功能的实现,并与自定义功能结合使用管道。 免费软件:Apache-2.0许可证 免责声明:由于管道利用预测模型和正则表达式功能来识别实体,因此无法保证已删除所有敏感信息。 特征 CPR,电话号码,电子邮件的正则表达式 将定制功能集成为管道的一部分 已实现丹麦语的命名实体模型(PER,LOC,ORG): 达西(DaCy): : DaCy基于多语言RoBERTa构建,从而支持其他语言以及丹麦语。 DaNLP: : DaCy的批处理模式,如果预测大量文档,则强烈建议使用该模式,并且由于可以从多语言模型中进行微调,因此它对语言更改具有鲁棒性 安装 要从源代码安装: git clone https://github.com/martincjespersen/DaAno
资源推荐
资源详情
资源评论
收起资源包目录
DaAnonymization-main.zip (32个子文件)
DaAnonymization-main
MANIFEST.in 262B
.travis.yml 298B
README.rst 6KB
textanonymization
cli.py 429B
__init__.py 155B
textanonymization.py 7KB
docs
history.rst 28B
conf.py 5KB
usage.rst 89B
make.bat 779B
installation.rst 1KB
imgs
header.png 69KB
authors.rst 28B
readme.rst 27B
Makefile 618B
index.rst 314B
contributing.rst 33B
AUTHORS.rst 176B
requirements_dev.txt 300B
.github
ISSUE_TEMPLATE.md 328B
CONTRIBUTING.rst 4KB
tests
test_textanonymization.py 6KB
__init__.py 47B
tox.ini 568B
LICENSE 11KB
HISTORY.rst 89B
setup.cfg 460B
setup.py 2KB
.gitignore 1KB
Makefile 2KB
.editorconfig 292B
.pre-commit-config.yaml 1KB
共 32 条
- 1
资源评论
雪地女王
- 粉丝: 96
- 资源: 4601
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功