dev_data.zip_dev_data资源-CSDN文库

共3个文件

ds_store：1个

json：1个

docx：1个

需积分: 10 52 浏览量 2020-10-16 16:00:04 上传评论收藏 2.66MB ZIP 举报

《DuIE 2.0：2020年语言与智能技术竞赛中的关系抽取任务》在信息处理和自然语言理解领域，关系抽取是一项至关重要的任务。它涉及到从非结构化的文本中识别出实体以及这些实体之间的关系，这对于构建智能系统、问答系统以及知识图谱的构建具有深远意义。2020年的语言与智能技术竞赛，特别是关系抽取这一部分，引入了DuIE 2.0数据集，旨在推动这一领域的研究和应用。 DuIE 2.0数据集是针对中文文本的关系抽取设计的，它为参赛者提供了丰富的验证集、训练集和测试集，以供模型的训练和评估。"dev_data.zip"压缩包中的"dev_data"文件包含了验证集的数据，这部分数据对于优化模型性能、避免过拟合以及在真实世界场景中评估模型的泛化能力至关重要。关系抽取的核心在于对文本中的实体进行识别，并确定它们之间的关联类型。在DuIE 2.0中，实体可能包括人名、组织机构、时间、地点等，关系类型则涵盖了如“任职关系”、“发生时间”等多种类别。为了实现有效的关系抽取，研究人员通常会利用深度学习模型，如基于序列标注的BiLSTM-CRF模型或者基于图神经网络的模型。 1. **BiLSTM-CRF模型**：双向长短时记忆网络（Bidirectional LSTM）与条件随机场（CRF）的结合，能捕捉到实体的上下文信息，预测其边界和类型。CRF层则用于确保实体标签的连贯性，避免孤立的实体片段。 2. **图神经网络（GNN）**：在处理复杂的句法结构和跨实体关系时，图神经网络能够以图的形式建模文本，通过节点间的信息传递来捕获实体和关系的相互依赖。 DuIE 2.0数据集的构建和发布，为研究者提供了标准化的评估基准，促进不同算法间的比较。验证集的使用则允许开发者在不泄露测试数据的情况下调整模型参数，找到最优的模型配置。此外，竞赛还鼓励创新，探索更高效、更准确的关系抽取方法，比如利用预训练语言模型如BERT、RoBERTa等增强模型的语义理解能力。在实际应用中，关系抽取可以广泛应用于新闻摘要、社交媒体分析、医疗信息提取等多个领域。例如，通过关系抽取技术，新闻系统可以自动提取关键人物、事件和时间，提高信息检索的效率；在医疗领域，可以识别疾病与症状、药物的关联，辅助医生进行诊断。 2020年语言与智能技术竞赛中的DuIE 2.0数据集为关系抽取的研究提供了一个高质量的平台，推动了自然语言处理技术的进步，同时也促进了相关应用的发展。无论是学术界还是工业界，都能从中受益，推动语言智能技术迈上新的台阶。

资源推荐

资源详情

资源评论

收起资源包目录

dev_data.zip （3个子文件）

dev_data

License.docx 48KB

dev_data.json 10.05MB

.DS_Store 6KB

{"text": "《步步惊心》改编自著名作家桐华的同名清穿小说《甄嬛传》改编自流潋紫所著的同名小说电视剧《何以笙箫默》改编自顾漫同名小说《花千骨》改编自fresh果果同名小说《裸婚时代》是月影兰析创作的一部情感小说《琅琊榜》是根据海宴同名网络小说改编电视剧《宫锁心玉》，又名《宫》《雪豹》，该剧改编自网络小说《特战先驱》《我是特种兵》由红遍网络的小说《最后一颗子弹留给我》改编电视剧《来不及说我爱你》改编自匪我思存同名小说《来不及说我爱你》", "spo_list": [{"predicate": "作者", "object_type": {"@value": "人物"}, "subject_type": "图书作品", "object": {"@value": "顾漫"}, "subject": "何以笙箫默"}, {"predicate": "改编自", "object_type": {"@value": "作品"}, "subject_type": "影视作品", "object": {"@value": "最后一颗子弹留给我"}, "subject": "我是特种兵"}, {"predicate": "作者", "object_type": {"@value": "人物"}, "subject_type": "图书作品", "object": {"@value": "桐华"}, "subject": "步步惊心"}, {"predicate": "作者", "object_type": {"@value": "人物"}, "subject_type": "图书作品", "object": {"@value": "流潋紫"}, "subject": "甄嬛传"}, {"predicate": "作者", "object_type": {"@value": "人物"}, "subject_type": "图书作品", "object": {"@value": "fresh果果"}, "subject": "花千骨"}, {"predicate": "作者", "object_type": {"@value": "人物"}, "subject_type": "图书作品", "object": {"@value": "月影兰析"}, "subject": "裸婚时代"}, {"predicate": "作者", "object_type": {"@value": "人物"}, "subject_type": "图书作品", "object": {"@value": "海宴"}, "subject": "琅琊榜"}, {"predicate": "改编自", "object_type": {"@value": "作品"}, "subject_type": "影视作品", "object": {"@value": "特战先驱"}, "subject": "雪豹"}, {"predicate": "改编自", "object_type": {"@value": "作品"}, "subject_type": "影视作品", "object": {"@value": "来不及说我爱你"}, "subject": "来不及说我爱你"}, {"predicate": "作者", "object_type": {"@value": "人物"}, "subject_type": "图书作品", "object": {"@value": "匪我思存"}, "subject": "来不及说我爱你"}]} {"text": "摩尔多瓦共和国（摩尔多瓦语：Republica Moldova，英语：Republic of Moldova），简称摩尔多瓦，是位于东南欧的内陆国，与罗马尼亚和乌克兰接壤，首都基希讷乌", "spo_list": [{"predicate": "首都", "object_type": {"@value": "城市"}, "subject_type": "国家", "object": {"@value": "基希讷乌"}, "subject": "摩尔多瓦"}]} {"text": "2月19日，96岁的资深演员侯焕玲离世，候婆婆一生未嫁，但一直热爱电影，她曾在《回魂夜》和《喜剧之王》等电影饰演婆婆一角，而临终前候婆婆一直说，自己好喜欢电影，好喜欢周星驰", "spo_list": [{"predicate": "编剧", "object_type": {"@value": "人物"}, "subject_type": "影视作品", "object": {"@value": "周星驰"}, "subject": "喜剧之王"}]} {"text": "这件婚事原本与陈国峻无关，但陈国峻却“欲求配而无由，夜间乃潜入天城公主所居通之", "spo_list": [{"predicate": "丈夫", "object_type": {"@value": "人物"}, "subject_type": "人物", "object": {"@value": "国峻"}, "subject": "天城公主"}, {"predicate": "妻子", "object_type": {"@value": "人物"}, "subject_type": "人物", "object": {"@value": "天城公主"}, "subject": "国峻"}]} {"text": "情人节大盘约在4亿特工票房1.32拉拉蓝1.05其他没所谓了@0216幻影9527 @朦胧之于暖春 @Jqpiero @娶个明星这么难 @星爷最低调", "spo_list": [{"predicate": "票房", "object_type": {"@value": "Number"}, "subject_type": "影视作品", "object": {"@value": "4亿"}, "subject": "情人节"}]} {"text": "《父老乡亲》是由是由由中国人民解放军海政文工团创作的军旅歌曲，石顺义作词，王锡仁作曲，范琳琳演唱", "spo_list": [{"predicate": "歌手", "object_type": {"@value": "人物"}, "subject_type": "歌曲", "object": {"@value": "范琳琳"}, "subject": "父老乡亲"}, {"predicate": "国籍", "object_type": {"@value": "国家"}, "subject_type": "人物", "object": {"@value": "中国"}, "subject": "石顺义"}, {"predicate": "作词", "object_type": {"@value": "人物"}, "subject_type": "歌曲", "object": {"@value": "石顺义"}, "subject": "父老乡亲"}, {"predicate": "作曲", "object_type": {"@value": "人物"}, "subject_type": "歌曲", "object": {"@value": "王锡仁"}, "subject": "父老乡亲"}]} {"text": "2019年2月25日和26日，温氏股份实控人之一、前任董事长温鹏程之妻伍翠珍分别减持公司股票608万股和256万股，成交均价分别为30.78元/股和30.02元/股，共计套现约2.64亿元", "spo_list": [{"predicate": "董事长", "object_type": {"@value": "人物"}, "subject_type": "企业", "object": {"@value": "温鹏程"}, "subject": "温氏股份"}, {"predicate": "丈夫", "object_type": {"@value": "人物"}, "subject_type": "人物", "object": {"@value": "温鹏程"}, "subject": "伍翠珍"}, {"predicate": "妻子", "object_type": {"@value": "人物"}, "subject_type": "人物", "object": {"@value": "伍翠珍"}, "subject": "温鹏程"}]} {"text": "宋竹范，口腔医生，女，宋竹范主任医师毕业于佳木斯医学院，在国内三甲医院从事口腔科临床工作三十余年，有丰富的口腔科临床工作经验，熟练掌握口腔内科、口腔外科、儿童口腔科各种常见病及多发病的诊治，以及多项口腔矫形技术", "spo_list": [{"predicate": "毕业院校", "object_type": {"@value": "学校"}, "subject_type": "人物", "object": {"@value": "佳木斯医学院"}, "subject": "宋竹范"}]} {"text": "由江苏艺星影视文化传播有限公司投资，演员赵荀、傅程鹏、程愫、侯梦莎、任柯诺、安雅萍、杨舒、张进、杨山等主演的大型谍战题材电视剧《与狼共舞2》正在江苏卫视", "spo_list": [{"predicate": "主演", "object_type": {"@value": "人物"}, "subject_type": "影视作品", "object": {"@value": "赵荀"}, "subject": "与狼共舞2"}, {"predicate": "主演", "object_type": {"@value": "人物"}, "subject_type": "影视作品", "object": {"@value": "侯梦莎"}, "subject": "与狼共舞2"}, {"predicate": "主演", "object_type": {"@value": "人物"}, "subject_type": "影视作品", "object": {"@value": "任柯诺"}, "subject": "与狼共舞2"}, {"predicate": "主演", "object_type": {"@value": "人物"}, "subject_type": "影视作品", "object": {"@value": "程愫"}, "subject": "与狼共舞2"}, {"predicate": "主演", "object_type": {"@value": "人物"}, "subject_type": "影视作品", "object": {"@value": "傅程鹏"}, "subject": "与狼共舞2"}, {"predicate": "主演", "object_type": {"@value": "人物"}, "subject_type": "影视作品", "object": {"@value": "安雅萍"}, "subject": "与狼共舞2"}, {"predicate": "主演", "object_type": {"@value": "人物"}, "subject_type": "影视作品", "object": {"@value": "杨舒"}, "subject": "与狼共舞2"}, {"predicate": "主演", "object_type": {"@value": "人物"}, "subject_type": "影视作品", "object": {"@value": "张进"}, "subject": "与狼共舞2"}]} {"text": "科库雷克(RadovanKocurek),出生于1986年2月12日，捷克国籍，身高179厘米，体重72公斤，场上位置前锋，现在效力于贾洛内足球俱乐部", "spo_list": [{"predicate": "国籍", "object_type": {"@value": "国家"}, "subject_type": "人物", "object": {"@value": "捷克"}, "subject": "科库雷克"}]} {"text": "《外国民间歌曲选》是2004年人民音乐出版社出版的图书，作者是温恒泰", "spo_list": [{"predicate": "作者", "object_type": {"@value": "人物"}, "subject_type": "图书作品", "object": {"@value": "温恒泰"}, "subject": "外国民间歌曲选"}]} {"text": "平清盛随后在治承四年（1180年）二月迫使高�

评论收藏

内容反馈