AIGC行业跟踪报告(四):中文数字内容成为重要稀缺资源,可用作AI大模型语料库.pdf
中文数字内容将成为重要稀缺资源,用于国内 AI 大模型预训练语料库。 1)近期国内外巨头纷纷披露 AI 大模型;在 AI 领域 3 大核心是数据、算力、 算法,我们认为,数据将成为如 ChatGPT 等 AI 大模型的核心竞争力,高质 量的数据资源可让数据变成资产、变成核心生产力,AI 模型的生产内容高度 依赖源头数据。2)根据凤凰网周刊,ChatGPT 的中文答案不准确主要在于目 前中文语料学习库少,ChatGPT 中文资料比重还不足千分之一,为 0.09905%, 而英文为 92.64708%。3)中文公开语料远不足英文,这也成为“中国版 ChatGPT”的痛点。微软(中国)首席技术官韦青在 3 月 23 日举行的一场行 业会议上指出,“ChatGPT 能够提炼的语料是开放的、共享的和免费的”, 而“中国版 ChatGPT”所需要的大量高质量中文数据资源(包括政务数据、 商业数据、科研数据、中文语料等)大多被存在各家企业或机构的“后花园” 里无法共享,“这不是一两间公司能够解决的问题,需要全社会密切关注并大 力投入的公共知识基础设施”。4)政策进一步重视数据核心资产建设。据日 经亚 《中文数字内容成为重要稀缺资源,可用作AI大模型语料库》——AIGC行业跟踪报告 在当今快速发展的AI领域,数据的重要性日益凸显,尤其是对于构建大规模语言模型如ChatGPT而言,数据被视为核心竞争力。AI领域的三大基石——数据、算力和算法中,数据扮演着至关重要的角色。高质量的中文数字内容可以转化为宝贵的资产,促进AI模型生成内容的能力,因为AI的学习和生成过程高度依赖于原始数据的质量和量。 当前,ChatGPT在中文内容处理上的局限性主要源于中文语料库的匮乏。据凤凰网周刊报道,ChatGPT的中文数据占比仅为0.09905%,远低于英文的92.64708%。这揭示了“中国版ChatGPT”面临的挑战:缺乏足够的中文公开语料,导致国内AI大模型的发展受阻。微软(中国)首席技术官韦青强调,大量的高质量中文数据资源分散在各个企业和机构,缺乏共享机制,这是一个需要全社会共同努力解决的问题,涉及到公共知识基础设施的建设和投资。 为了改善这一现状,中国信息通信研究院正着手构建大模型技术及应用基准,以应对现有数据集和评估基准多以英文为主的问题。这一举措旨在推动我国大模型技术的创新,特别是在中文特色和关键行业应用方面。 网络文学平台,如中文在线和阅文集团,因其海量的正版中文数字内容,成为了构建高质量语料库的重要来源。这些平台拥有超过10000亿字的内容,覆盖多种类型,经过市场验证,形成了高价值的数据资源。同时,它们对知识产权的保护也为AI模型训练提供了合法合规的数据集。此外,网络文学平台的实时更新机制使得AI模型能持续学习最新内容,进一步增强其适应性和表现。 随着AIGC(人工智能生成内容)技术的进步,网络文学IP的多模态变现潜力被进一步释放。AI技术在文字创作、对话互动、动漫影视制作等领域的应用,促进了内容的创新和商业化进程。从投资角度,拥有丰富中文语料和专业数据资源的公司将有望受益于AI大模型的发展,如中文在线、阅文集团等。 整个AIGC产业链中,不仅互联网大厂如腾讯、百度等通过积累的技术优势参与其中,AI算法公司、内容生成服务商、数字营销和游戏企业也在积极探索AI的应用,以提升效率和创新能力。然而,行业也面临AI技术研发、市场竞争、商业化进展和政策风险等挑战。 中文数字内容的稀缺性和其在AI大模型中的重要性不容忽视,这为相关企业和整个社会提出了新的挑战和机遇。政府、企业和学术界需共同努力,构建和完善中文数据资源的共享体系,以促进AI技术在中国的健康发展。
- 粉丝: 5611
- 资源: 4237
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助