没有合适的资源?快使用搜索试试~ 我知道了~
nlpcda_argument:nlpcda用于NLP数据参数
共40个文件
py:18个
txt:13个
sh:2个
需积分: 13 1 下载量 57 浏览量
2021-05-08
16:00:46
上传
评论
收藏 532KB ZIP 举报
温馨提示
NLP Chinese Data Augmentation 一键中文数据增强工具 使用:pip install nlpcda 开源不易,欢迎 star:glowing_star: pypi: 介绍 一键中文数据增强工具,支持: 经过细节特殊处理,比如不改变年月日数字,尽量保证不改变原文语义。即使改变也能被猜出来、能被猜出来、能被踩出来、能被菜粗来、被菜粗、能菜粗来 计划中的未来内容 增加多线程操作,一键操作 随机噪声注入?随机插入一些字符,太简单实现了。 利用pingyin? 基于Word2Vec、BERT等词向量的词语近距离的替换、MASK猜测置换 ??但是无法控制它生成,以及缺点MASK位置。 引入TF-IDF、TextRank、关键词字典等,可以选择:替换/不替换关键词 ?? 意义 在不改变原文语义的情况下,生成指定数量的训练语料文本 对NLP模型的泛化性能、对抗攻击、干扰波动,有很好的提升作用 参考比赛(本
资源推荐
资源详情
资源评论
收起资源包目录
nlpcda_argument-main.zip (40个子文件)
nlpcda_argument-main
nlpcda.egg-info
dependency_links.txt 1B
PKG-INFO 18KB
requires.txt 33B
SOURCES.txt 760B
top_level.txt 7B
MANIFEST.in 64B
run_SimBERT.sh 360B
requirements.txt 62B
nlpcda
config.py 446B
__init__.py 639B
tools
Homophone.py 2KB
Random_word.py 2KB
Char_position_exchange.py 3KB
Similar_word.py 2KB
Random_delete_char.py 2KB
__init__.py 45B
simbert
__init__.py 109B
generator.py 3KB
Simbert.py 2KB
Ner.py 5KB
Basetool.py 1KB
Translate.py 1KB
Equivalent_char.py 2KB
data
同音意字.txt 83KB
company.txt 63KB
同义词.txt 872KB
等价字.txt 135B
example.py 3KB
update.sh 41B
LICENSE 11KB
nlpts.egg-info
dependency_links.txt 1B
PKG-INFO 301B
requires.txt 6B
SOURCES.txt 195B
top_level.txt 6B
setup.py 793B
README.md 15KB
.ignore 28B
.gitignore 387B
run_SimBERT.py 6KB
共 40 条
- 1
资源评论
两只妖精同上树
- 粉丝: 30
- 资源: 4747
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功