AIGC行业跟踪报告（四）：中文数字内容成为重要稀缺资源，可用作AI大模型语料库.pdf

需积分: 2 186 浏览量 2023-03-30 22:07:43 上传评论收藏 528KB PDF 举报

中文数字内容将成为重要稀缺资源，用于国内 AI 大模型预训练语料库。 1）近期国内外巨头纷纷披露 AI 大模型；在 AI 领域 3 大核心是数据、算力、算法，我们认为，数据将成为如 ChatGPT 等 AI 大模型的核心竞争力，高质量的数据资源可让数据变成资产、变成核心生产力，AI 模型的生产内容高度依赖源头数据。2）根据凤凰网周刊，ChatGPT 的中文答案不准确主要在于目前中文语料学习库少，ChatGPT 中文资料比重还不足千分之一，为 0.09905%，而英文为 92.64708%。3）中文公开语料远不足英文，这也成为“中国版 ChatGPT”的痛点。微软（中国）首席技术官韦青在 3 月 23 日举行的一场行业会议上指出，“ChatGPT 能够提炼的语料是开放的、共享的和免费的”，而“中国版 ChatGPT”所需要的大量高质量中文数据资源（包括政务数据、商业数据、科研数据、中文语料等）大多被存在各家企业或机构的“后花园” 里无法共享，“这不是一两间公司能够解决的问题，需要全社会密切关注并大力投入的公共知识基础设施”。4）政策进一步重视数据核心资产建设。据日经亚《中文数字内容成为重要稀缺资源，可用作AI大模型语料库》——AIGC行业跟踪报告在当今快速发展的AI领域，数据的重要性日益凸显，尤其是对于构建大规模语言模型如ChatGPT而言，数据被视为核心竞争力。AI领域的三大基石——数据、算力和算法中，数据扮演着至关重要的角色。高质量的中文数字内容可以转化为宝贵的资产，促进AI模型生成内容的能力，因为AI的学习和生成过程高度依赖于原始数据的质量和量。当前，ChatGPT在中文内容处理上的局限性主要源于中文语料库的匮乏。据凤凰网周刊报道，ChatGPT的中文数据占比仅为0.09905%，远低于英文的92.64708%。这揭示了“中国版ChatGPT”面临的挑战：缺乏足够的中文公开语料，导致国内AI大模型的发展受阻。微软（中国）首席技术官韦青强调，大量的高质量中文数据资源分散在各个企业和机构，缺乏共享机制，这是一个需要全社会共同努力解决的问题，涉及到公共知识基础设施的建设和投资。为了改善这一现状，中国信息通信研究院正着手构建大模型技术及应用基准，以应对现有数据集和评估基准多以英文为主的问题。这一举措旨在推动我国大模型技术的创新，特别是在中文特色和关键行业应用方面。网络文学平台，如中文在线和阅文集团，因其海量的正版中文数字内容，成为了构建高质量语料库的重要来源。这些平台拥有超过10000亿字的内容，覆盖多种类型，经过市场验证，形成了高价值的数据资源。同时，它们对知识产权的保护也为AI模型训练提供了合法合规的数据集。此外，网络文学平台的实时更新机制使得AI模型能持续学习最新内容，进一步增强其适应性和表现。随着AIGC（人工智能生成内容）技术的进步，网络文学IP的多模态变现潜力被进一步释放。AI技术在文字创作、对话互动、动漫影视制作等领域的应用，促进了内容的创新和商业化进程。从投资角度，拥有丰富中文语料和专业数据资源的公司将有望受益于AI大模型的发展，如中文在线、阅文集团等。整个AIGC产业链中，不仅互联网大厂如腾讯、百度等通过积累的技术优势参与其中，AI算法公司、内容生成服务商、数字营销和游戏企业也在积极探索AI的应用，以提升效率和创新能力。然而，行业也面临AI技术研发、市场竞争、商业化进展和政策风险等挑战。中文数字内容的稀缺性和其在AI大模型中的重要性不容忽视，这为相关企业和整个社会提出了新的挑战和机遇。政府、企业和学术界需共同努力，构建和完善中文数据资源的共享体系，以促进AI技术在中国的健康发展。

资源推荐

资源评论