GoGPT中文指令数据集构造.zip_构建指令数据集资源-CSDN文库

共16个文件

py：7个

md：2个

xlsx：1个

版权申诉

177 浏览量 2023-10-19 21:30:53 上传评论收藏 130KB ZIP 举报

《GoGPT中文指令数据集构造详解》在人工智能领域，模型的训练数据集是其性能的关键因素之一。GoGPT中文指令数据集是专为训练和优化针对中文任务的GPT模型而设计的，其目标是提升模型理解和执行中文指令的能力。本文将深入解析GoGPT中文指令数据集的构造过程、特点以及它在AI模型训练中的重要作用。一、数据集构造概述 1.1 数据集构成：GoGPT中文指令数据集由一系列精心设计的中文指令和对应的预期结果组成。这些指令涵盖了各种场景，包括但不限于自然语言处理、信息检索、文本生成等。每条指令都具有明确的目标和预期的模型输出，旨在帮助模型学习理解和执行中文命令。 1.2 数据来源：数据可能来源于公开的中文语料库、网络文本、用户生成内容等，确保了数据的多样性和代表性。同时，数据采集过程中会进行清洗和预处理，以去除无关信息，提高数据质量。 1.3 样例格式：每个数据样本通常包含三部分：输入指令（Input Instruction）、模型输出（Model Output）和预期答案（Expected Answer）。输入指令是用户可能对模型发出的中文命令，模型输出是模型根据指令应生成的结果，预期答案则是正确执行指令后应有的输出。二、数据集构造步骤 2.1 指令设计：专家团队会根据实际应用场景设计各种中文指令，确保指令覆盖了广泛的任务类型和难度等级。设计时需要考虑指令的清晰度、可执行性以及对模型的挑战性。 2.2 样本收集：通过爬虫技术、人工编写或者用户贡献等方式收集大量与指令相关的数据。对于用户生成的内容，需进行审核以保证质量。 2.3 数据标注：对收集到的数据进行标注，明确每条指令的预期输出，这通常需要专业知识和人力投入。标注过程可能包括多人复核，以减少错误。 2.4 数据清洗：去除重复、无效、错误的数据，确保数据集的纯净度。这一步可能涉及去除异常值、处理缺失值和不一致的信息。 2.5 数据划分：将数据集分为训练集、验证集和测试集，用于模型训练、参数调整和性能评估。三、数据集特点 3.1 多样性：GoGPT中文指令数据集包含了丰富的任务类型，覆盖了多种场景，有助于模型学习泛化能力。 3.2 实用性：指令贴近实际应用，使得训练出的模型能更好地服务于现实世界的中文任务。 3.3 高质量：经过严谨的数据收集、标注和清洗流程，保证了数据的准确性和可靠性。四、模型训练与优化 4.1 微调：利用GoGPT中文指令数据集对预训练的GPT模型进行微调，使其更好地适应中文指令执行。 4.2 性能评估：通过验证集和测试集，对模型在不同指令上的表现进行量化评估，如BLEU、ROUGE等指标。 4.3 模型迭代：根据评估结果调整模型参数，不断迭代优化，直至满足预期性能标准。总结，GoGPT中文指令数据集是提升AI模型在中文指令理解与执行能力上的关键。通过精心设计和构建，该数据集能有效推动模型的性能提升，更好地服务于中文环境下的各种智能应用。随着模型的不断优化，我们有理由相信，未来AI在处理中文指令方面将更加精准和智能。

资源推荐

资源详情

资源评论

收起资源包目录

GoGPT中文指令数据集构造.zip （16个子文件）

GoGPT-Instruction-main

make_query.py 2KB

filter_query_en.py 1KB

make_query_en.py 1KB

make_searchgpt.py 3KB

main.py 13KB

make_rqa.py 897B

searchgpt_qa_web.py 4KB

demo.json 34KB

ss.md 0B

.gitignore 11B

opencompass

summary.zip 33KB

summary_20230719_144111.txt 108KB

summary_20230720_161904.xlsx 11KB

summary_20230720_161904.csv 2KB

img.png 45KB

README.md 9KB

## GoGPT 中文指令数据集 ```shell python searchgpt_qa_web.py ``` ![img.png](img.png) 样例数据 ```text { "instruction": "请基于所提供的支撑信息和对话历史，对给定的问题撰写一个全面且有条理的答复。如果支撑信息或对话历史与当前问题无关或者提供信息不充分，请尝试自己回答问题或者无法回答问题。\n\n", "input": "对话历史：\n\n支撑信息：[1]转自：央视新闻 “我警觉地看着这个早晨，大英博物馆已经失去了魅力。”这是艾拉·格什温的歌曲《雾天》中的歌词，近期在英国舆论中引起强烈共鸣。大英博物馆，世界上最大也最著名的博物馆之一，近期却被曝出有约2000件馆藏珍品不翼而飞，其中一部分甚至被挂到网上低价出售。这起失窃丑闻被英国《泰晤士报》形容为“国家耻辱”。与此同时，文物原籍国对流失文物的追索也加紧了步伐。当地时间8月25日，大英博物馆馆长哈特维希·菲舍尔宣布引咎辞职。3个小时后，副馆长乔纳森·威廉姆斯自愿辞职。《纽约时报》称，在最需要领导的时候，两位“掌门人”在同日宣布辞职，让深陷丑闻的大英博物馆群龙无首。该博物馆理事会主席奥斯本直言“这是一个我们需要清理的烂摊子”。国际艺术品追回组织创始人马里涅罗：像这样的安全漏洞非常令人震惊，是非常令人尴尬的，可谓是史诗级的丑闻。事情还要从半个月前说起。当地时间8月16日，大英博物馆发布一则公告，称有藏品“丢失、被盗或损坏”。它们大多是存放在同一个储藏室内的小物品，包括从公元前15世纪至公元19世纪的黄金首饰、宝石和玻璃制品，近期全都没有被公开展览过。荷兰艺术品犯罪调查员布兰德：如果你偷了罗塞塔石碑或者梵高的画会非常难以出售，因为每个人都知道这些作品。所以如果一个人有犯罪念头，最好就是偷小件物品、金银制品、珠宝首饰，因为可\n[2]大英博物馆，世界上最大也最著名的博物馆之一，近期却被曝出有约2000件馆藏珍品不翼而飞，其中一部分甚至被挂到网上低价出售。这起失窃丑闻被英国《泰晤士报》形容为“国家耻辱”。与此同时，文物原籍国对流失文物的追索也加紧了步伐。当地时间8月25日，大英博物馆馆长哈特维希·菲舍尔宣布引咎辞职。3个小时后，副馆长乔纳森·威廉姆斯自愿辞职。事情还要从半个月前说起。当地时间8月16日，大英博物馆发布一则公告，称有藏品“丢失、被盗或损坏”。它们大多是存放在同一个储藏室内的小物品，包括从公元前15世纪至公元19世纪的黄金首饰、宝石和玻璃制品，近期全都没有被公开展览过。 8月26日，大英博物馆理事会主席奥斯本证实，该博物馆“失踪”的藏品数量约为2000件，引爆国际舆论。《华尔街日报》等媒体推测，内部人员作案的可能性非常大。在大英博物馆发布有关藏品失踪的公告之前，一名员工被馆方解雇，他的身份很快被媒体挖了出来。彼得·希格斯（Peter Higgs），56岁，古希腊和古罗马文物专家，资深策展人，已在大英博物馆工作了30多年。据《泰晤士报》报道，策展人有权独自进入博物馆的私人画廊和大型储藏室，并在离开时不受检查。随着舆论将怀疑目光投向被解雇的前策展人，希格斯的儿子格雷格站出来，声称自己的父亲“什么也没有做”。大英博物馆发言人则表示，由于警方正\n[3]大英博物馆安保漏洞百出，文物失窃频频发生 #逃离大英博物馆\n{VIDEO: 1}\n[4]中新社北京8月29日电 “我警觉地看着这个早晨，大英博物馆已经失去了魅力。”这句艾拉·格什温的歌曲《雾天(伦敦镇)》中的歌词，本月在英国舆论中引起强烈共鸣。一起馆藏被盗事件，让全球闻名的大英博物馆以深陷丑闻的方式重新出现在大众视野的中心。　　本月中旬，大英博物馆发表声明称，博物馆部分藏品“不翼而飞”。被盗藏品包括公元前15世纪至公元19世纪的黄金、珠宝等近期未被展出，主要用于“学术和研究目的”的多件文物。丢失的藏品被认为是在“相当长的一段时间内”被人拿走，其中一些藏品最终在电商网站上以远低于实际估价的价格出售。此后，大英博物馆董事会主席乔治·奥斯本证实，约有2000件文物被盗。　　尽管大英博物馆馆长哈特维希·菲舍尔“承担责任”宣布引咎辞职，馆方也声称正在努力寻求追回这些被盗藏品，该事件仍在全球范围内引发关注和谴责。　　英国国内舆论就文物被盗一事对博物馆展开批评，称盗窃事件让人质疑博物馆对文物的管理能力。英国媒体《卫报》刊文称，文物被盗一事暴露了大英博物馆以安全为由，拒绝将有争议文物归还原籍国“荒谬立场”。英国议会跨党派非洲赔款小组主席贝尔·里比罗认为，有人把馆藏文物挂在电商网站上，大英博物馆却认为文物所属国无法照顾好文物，这种不归还文物的理由“十分侮辱人”。　　在国际上，文物失窃丑闻也引发连锁反应，在中国的社交媒体上，“请大英\n[5]“逃出大英博物馆” 羊城晚报全媒体记者方冬董柳 8月26日，大英博物馆理事会主席乔治·奥斯本证实，该馆约有2000件藏品失踪。这是近30年来，大英博物馆第六次传出失窃丑闻，英国媒体直呼“耻辱”。一个拥有近270年历史的博物馆，为何连家门都守不住？多个国家发声要求归还本属于自己的文物，为何一直无法实现？不翼而飞大英博物馆被盗的2000件藏品包括公元前15世纪至公元19世纪的黄金、珠宝等，种种迹象表明，大概率是“家贼”所为，而且已经丢了“相当长的一段时间”了。不少丢失藏品以远低于实际估价的价格在电商网站上被公开叫卖。实际上，这已不是大英博物馆第一次出现文物失窃。公开报道显示，1993年，该馆收藏的罗马硬币被盗；2002年，一尊有2500年历史的希腊雕像被盗；2004年，10多件中国铜镜、盔甲和宝石被盗；2017年，一颗价值75万英镑的卡地亚戒指钻石被曝出在2011年就已经失窃……英国《泰晤士报》的记者曾以实习生身份进入大英博物馆进行卧底调查，轻而易举地把一件公元前3世纪、价值2万英镑的藏品带出博物馆，整个过程没遇到任何阻碍。更让人吃惊的是，这一次，从商人来信告知藏品可能被盗到正式确认约2000件藏品失踪，中间经历了足足两年时间！大英博物馆文物流失并非偶然。据悉，大英博物馆藏品共800万件，调查发现，入库不到总数的1/3。近\n\n问题：大家怎么看待大英博物馆文物失窃事件\n\n", "output": "大英博物馆文物失窃事件引发了广泛的关注和讨论，以下是一些人们可能对此事件的看法和观点：\n\n1. **国家耻辱和管理问题：** 许多人认为这次失窃事件是英国的国家耻辱，因为大英博物馆是英国最著名的文化机构之一，而且已经多次发生文物失窃事件。这引发了对博物馆管理和安全措施的严重质疑。人们普遍认为，文物失窃事件的频发反映了博物馆在保护珍贵文物方面存在严重漏洞。\n\n2. **国际追索文物：** 事件还引发了文物原籍国对失窃文物的追索。这表明失窃文物不仅对英国国内的声誉造成了损害，还引发了国际层面的争议。一些人支持将失窃文物归还给原籍国，认为这是正义�

评论收藏

内容反馈

版权申诉