没有合适的资源？快使用搜索试试~ 我知道了~

文库首页开发技术其它nlpcda_argument:nlpcda用于NLP数据参数

nlpcda_argument:nlpcda用于NLP数据参数

共40个文件

py：18个

txt：13个

sh：2个

Python

需积分: 13 1 下载量 57 浏览量 2021-05-08 16:00:46 上传评论收藏 532KB ZIP 举报

温馨提示

NLP Chinese Data Augmentation 一键中文数据增强工具使用：pip install nlpcda 开源不易，欢迎 star:glowing_star: pypi: 介绍一键中文数据增强工具，支持：经过细节特殊处理，比如不改变年月日数字，尽量保证不改变原文语义。即使改变也能被猜出来、能被猜出来、能被踩出来、能被菜粗来、被菜粗、能菜粗来计划中的未来内容增加多线程操作，一键操作随机噪声注入？随机插入一些字符，太简单实现了。利用pingyin？基于Word2Vec、BERT等词向量的词语近距离的替换、MASK猜测置换？？但是无法控制它生成，以及缺点MASK位置。引入TF-IDF、TextRank、关键词字典等，可以选择：替换/不替换关键词？？意义在不改变原文语义的情况下，生成指定数量的训练语料文本对NLP模型的泛化性能、对抗攻击、干扰波动，有很好的提升作用参考比赛(本

资源推荐

资源详情

资源评论

收起资源包目录

nlpcda_argument-main.zip （40个子文件）

nlpcda_argument-main

nlpcda.egg-info

dependency_links.txt 1B

PKG-INFO 18KB

requires.txt 33B

SOURCES.txt 760B

top_level.txt 7B

MANIFEST.in 64B

run_SimBERT.sh 360B

requirements.txt 62B

nlpcda

config.py 446B

__init__.py 639B

tools

Homophone.py 2KB

Random_word.py 2KB

Char_position_exchange.py 3KB

Similar_word.py 2KB

Random_delete_char.py 2KB

__init__.py 45B

simbert

__init__.py 109B

generator.py 3KB

Simbert.py 2KB

Ner.py 5KB

Basetool.py 1KB

Translate.py 1KB

Equivalent_char.py 2KB

data

同音意字.txt 83KB

company.txt 63KB

同义词.txt 872KB

等价字.txt 135B

example.py 3KB

update.sh 41B

LICENSE 11KB

nlpts.egg-info

dependency_links.txt 1B

PKG-INFO 301B

requires.txt 6B

SOURCES.txt 195B

top_level.txt 6B

setup.py 793B

README.md 15KB

.ignore 28B

.gitignore 387B

run_SimBERT.py 6KB

共 40 条

评论收藏

内容反馈

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

两只妖精同上树

粉丝: 30
资源: 4747

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

nlpcda_argument:nlpcda用于NLP数据参数

nlpcda：一键中文数据增强包； NLP数据增强，bert数据增强，EDA：pip install nlpcda

simcse SIMCSE pytorch 源码 文本分类 文本匹配 直接运行

chinese_L-12_H-768_A-12.rar

chinese_L-12_H-768_A-12_2.7z.001

chinese_L-12_H-768_A-12.zip

用于模式分析，战略建模等的数据资源，NLP，自然语言处理

nlp-data-augmentation：用于NLP的数据增强。 NLP数据增强

Insight_NLPBasics_Workshop:纽约州18B Insight数据科学联谊会的文件回购，该文件用于NLP基础研讨会上

opus-dataset-parser：解析OPUS并行数据集以创建准备用于NLP的多语言并行语料库

ezzy-argument：一个轻量级的库，用于从环境或节点参数中获取参数

chinese_L-12_H-768_A-12_2.7z.002

Arch-Data-Science：用于数据科学，机器学习，深度学习，NLP和计算机视觉的Archlinux PKGBUILD

urduhack:用于乌尔都语的NLP库。 它带有很多电池内置功能，可帮助您以最简单的方式处理乌尔都语数据

java笔试题算法-Syntactic:用于大型数据集的词法分类引擎。适用于NLP和数据挖掘

TextAttack：TextAttack:octopus:是一个Python框架，用于NLP中的对抗性攻击，数据增强和模型训练

ML:Web Scraping，用于收集数据，ML注释，NLP，深度学习

katago:一键跑谱

NLP-Vietnamese-progress：用于跟踪越南自然语言处理进度的存储库，其中包括最常见的越南NLP任务的数据集和最新技术

chat-data:用于NLP用途的Python脚本下载和处理电影脚本数据

NLP进度：用于跟踪自然语言处理（NLP）进度的存储库，包括最常见的NLP任务的数据集和最新技术

适用于 Mirai 的用于收集NLP语言训练数据的插件。.zip

nlp-datasets：用于自然语言处理（NLP）的带有文本数据的自由公共领域数据集的字母顺序列表

用于跟踪自然语言处理（NLP）进度的存储库，包括最常用的NLP任务的数据集和最新技术。-Python开发

NLP技术用于源代码数据预处理的实证研究

用于预训练的NLP模型和NLP语料库的数据存储库。-Python开发

最新资源

simcse SIMCSE pytorch 源码文本分类文本匹配直接运行

urduhack:用于乌尔都语的NLP库。它带有很多电池内置功能，可帮助您以最简单的方式处理乌尔都语数据