AI 大模型需要什么样的数据
科技行业报告:AI 大模型需要什么样的数据
一、引言
AI 大模型的竞争力取决于高质量的数据,高质量的数据是大模型竞争关键要素之一。近期,欧洲议会议员《人工智能法案》提案、网信办《生成式人工智能服务管理办法(征求意见稿)》对大模型训练数据的版权披露、合法性提出要求,对于数据产业链的投资机会,我们认为数据资产储备公司的商业化进程值得关注。
二、海外开源数据集积累丰富
海外主要的开源语言和多模态数据集积累丰富,主要的发布方包括高校、互联网巨头研究部门、非盈利研究组织以及政府机构。海外积累丰富的开源高质量数据集得益于相对较好的开源互联网生态、免费线上书籍、期刊的长期资源积累、学术界、互联网巨头研究部门、非盈利研究组织及其背后的赞助基金形成了开放数据集、发表论文-被引用的开源氛围。
三、中英文开源数据集数量少、规模小
中文开源数据集数量少、规模小,看好数字中国战略激活数据要素产业链。国内大模型训练往往使用多个海外开源数据集。国内缺乏高质量数据集的原因在于高资金投入、相关公司开源意识较低、学术领域中文数据集受重视程度低。
四、数据产业链投资机会
数据产业链包括生产、处理等环节。我们认为数据生产可以分为通用数据和行业数据。海外主要数据集的通用数据来自维基、书籍期刊、高质量论坛,国内相关公司包括文本领域的百度百科、中文在线、中国科传、知乎等,以及视觉领域的视觉中国等。数据处理环节,模型研发企业的外包需求强烈,利好卡位优质客户、技术赋能降低人力成本的数据服务企业,如 Appen、Telus International、Scale AI。
五、隐私保护
个人数据的采集、存储和处理引发了对于 AI 时代数据隐私保护的关注。隐私保护可从监管、技术角度着手:监管:全球各地区出台相关法律法规,例如《中华人民共和国个人信息保护法》、欧盟《通用数据保护条例》等。技术:隐私保护计算在不泄露原始数据的前提下,对数据进行处理和使用。
六、风险提示
AI 及技术落地不及预期;本研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。
AI 大模型需要什么样的数据?我们认为,高质量数据是大模型竞争关键要素之一,数据资产储备公司的商业化进程值得关注,数据产业链投资机会值得关注,同时隐私保护也不能忽视。