XNLI 自然语言推断数据集
XNLI 是由 Facebook 和纽约大学的研究者联合构建的自然语言推断数据集,包括 15 种语言的数据。我们用其中的中文数据来评估模型的语言理解能力。
XNLI 是由 Facebook 和纽约大学的研究者联合构建的自然语言推断数据集,包括 15 种语言的数据。我们用其中的中文数据来评估模型的语言理解能力。
NLPCC2016-DBQA 是由国际自然语言处理和中文计算会议 NLPCC 于 2016 年举办的评测任务,其目标是从候选中找到合适的文档作为问题的答案
MSRA-NER (SIGHAN2006) 数据集由微软亚研院发布,其目标是识别文本中具有特定意义的实体,包括人名、地名、机构名。
WikiText 长期依赖语言建模数据集包含 1 亿个英文词汇,其来自于 Wikipedia 优质文章和标杆文章。 该数据集分为 WikiText-2 和 WikiText-103 两个版本,其相较于 PTB 词库规模更为庞大,并且每个词汇还保留相关的原始文章,这适用于需要长时依赖自然语言建模的场景。 该数据集由 Salesforce Research 于 2016 年发布,主要发布人为 Stephen Merity、Caiming Xiong、James Bradbury 和 Richard Socher,相关论文有《Pointer Sentinel Mixture Models》。
中文医学问答数据集 数据集描述:中文医药方面的问答数据集,超过10万条。 数据说明:questions.csv:所有的问题及其内容。answers.csv :所有问题的答案。 train_candidates.txt, dev_candidates.txt, test_candidates.txt :将上述两个文件进行了拆分。
Stanford Sentiment Treebank 是一个标准情感数据集,主要用于情感分类,其中每个句子分析树的节点均有细粒度的情感注解。 该数据集由斯坦福大学的 NLP 组发布,其中句子和短语共计 239232 条,相较于忽略单词顺序的大多数情绪预测系统,这套深度学习模型建立了基于句子结构 的完整表示。它可根据单词组成的短语判断情绪。 该数据集由斯坦福大学自然语言处理 组于 2013 年发布,相关论文有《Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank》。
该数据集包括了四个领域的中文评论:笔记本电脑、汽车、相机和手机,评论属于 二分类 任务及正面或负面。可被用作于 自然语言处理 中情感分类任务
笔耕不辍
持续创作
分享宗师
1024勋章
创作能手
签到达人
分享精英
分享达人
分享小兵
分享学徒
技术圈认证
签到新秀
新人勋章