【免费】华泰证券-计算机行业专题研究：大模型深度复盘，科技变革加速-230522.pdf资源-CSDN文库

需积分: 0 13 浏览量 2023-06-20 09:29:43 上传评论收藏 6.06MB PDF 举报

资源推荐

资源详情

资源评论

免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。

证券研究报告

计算机

大模型深度复盘，科技变革加速

华泰研究

计算机

增持 (维持)

研究员

谢春生

SAC No. S0570519080006

SFC No. BQZ938

xiechunsheng@htsc.com

+(86) 21 2987 2036

研究员

郭雅丽

SAC No. S0570515060003

SFC No. BQB164

[email protected]

+(86) 10 5679 3965

研究员

范昳蕊

SAC No. S0570521060004

[email protected]

+(86) 10 6321 1166

联系人

彭钢

SAC No. S0570121070173

[email protected]om

+(86) 21 2897 2228

联系人

袁泽世，PhD

SAC No. S0570122080053

[email protected]om

+(86) 21 2897 2228

联系人

林海亮

SAC No. S0570122060076

[email protected]om

+(86) 21 2897 2228

行业走势图

资料来源：Wind，华泰研究

2023 年 5 月 22 日│中国内地

专题研究

大模型时代已来，AGI 新纪元开启

大语言模型（LLM）是在大量数据集上预训练的巨大模型，在处理各种 NLP

（自然语言处理）任务方面显示出了较大潜力。2017 年 Transformer 编解

码器架构问世后，成了今年 LLM 发展的蓝图，并由此分化出编码器、编解

码器和解码器三条进化路径。其中，编解码器和解码器架构目前仍在不断演

进中，且解码器架构在数量上占据绝对优势。全球视角看，LLM 的典型代表

是 OpenAI 开发的 GPT 系列模型，国内的百度、智源等也在大模型上进行

了深厚的积累。在大模型的赋能下，各种垂类应用和工程实现纷纷落地，包

括 BloombergGPT、AutoGPT 等。LLM 或将开启通用人工智能新纪元。

溯源：从经典神经网络到 Transformer 架构

深度学习可以概括为特征的抽象和结果的预测。深度学习与神经网络密不可

分，主要原因是神经网络模型可以使用误差反向传播算法，较好地解决了深

度学习中的贡献度分配问题。从历史发展看，神经网络诞生于 1943 年提出

的 MP 模型，深度学习概念由 Hinton 于 2006 年正式提出。经过多年的发展，

问世了如卷积神经网络（CNN）、循环神经网络（RNN）、长短时记忆网络

（LSTM）等经典的深度学习算法。2017 年，Transformer 架构的出现成为

了后来 LLM 的基础架构，再次开启了大语言模型快速发展时期。

发展：从 GPT-1 到 GPT-4，开启大模型新纪元

2018 年，OpenAI 提出生成式预训练模型 GPT-1，引入有监督的微调训练。

2019 年，GPT-2 以更大的参数量和多任务训练进行 zero-shot 学习；2020

年，GPT-3 用 few-shot 代替 zero-shot，并将训练参数增加到 1750 亿，再

次提高模型表现性能。2022 年，InstructGPT 引入基于人类反馈的强化学习，

实现了更符合人类预期的模型输出。2022 年 11 月，OpenAI 正式推出对话

交互式模型 ChatGPT，5 天时间突破了 100 万用户。2023 年 3 月，GPT-4

问世，支持多模态输入，并能高水准完成专业考试，支持 API。

延伸：国内大模型快速成长，海外大模型多维拓展

大模型时代到来，模型体系与生态快速扩充，海内外企业坚定发力。受益于

大模型的理解能力、推理能力、泛化能力得到充分验证，海内外企业纷纷加

速大模型相关的产业布局，全面拥抱大模型时代的技术变革。1）国内：国

内大模型发展起步相对较晚，ChatGPT 问世以来国内企业加速大模型研发，

2023 年以百度文心、商汤日日新、讯飞星火等为代表的国产大模型相继发

布，并持续推进模型迭代升级；2）海外：海外大模型发展呈现垂直落地、

工程实现、模态丰富三大发展趋势，模型体系与配套的工程生态日益丰富。

产业链相关公司梳理

以 GPT 为代表的大模型产业链可分为算力、模型、应用三个环节。1）算力：

包括寒武纪、景嘉微、海光信息等芯片厂商以及浪潮信息、中科曙光、工业

富联等服务器厂商；2）模型：包括百度、三六零、科大讯飞、昆仑万维、

商汤科技等科技企业；3）应用：2C 简单包括金山办公、科大讯飞、同花顺、

万兴科技、东方财富、汉仪股份、汉王科技、萤石网络等企业；2B 简单包

括泛微网络、致远互联、上海钢联、彩讯股份等企业；2C 复杂包括中望软

件、索辰科技、广联达等企业；2B 复杂包括恒生电子、石基信息、科大讯

飞、汉王科技、金桥信息等企业。

风险提示：宏观经济波动；大模型技术迭代不及预期；本报告内容基于客观

资料整理，不构成投资建议。

(14)

May-22 Sep-22 Jan-23 May-23

(%)

计算机沪深300

仅供内部参考，请勿外传

免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。

计算机

正文目录

大模型时代已来，AGI 新纪元开启 ............................................................................................................................... 3

溯源：从经典神经网络到 Transformer 架构 ............................................................................................................... 4

深度学习是基于神经网络的机器学习 .................................................................................................................... 4

关系梳理：人工智能>机器学习>深度学习 .................................................................................................... 4

深度学习与神经网络发展历史（1943-2017） ............................................................................................... 4

CNN：卷积+汇聚+全连接 ..................................................................................................................................... 5

RNN：具有短期记忆的神经网络 ........................................................................................................................... 7

LSTM：将短期记忆进一步延长 ..................................................................................................................... 8

Transformer：基于自注意力机制的新兴架构 ........................................................................................................ 9

发展：从 GPT-1 到 GPT-4，开启大模型新纪元 ......................................................................................................... 11

GPT-1：确定生成式预训练模型基本路线 ........................................................................................................... 11

GPT-1：基于 Transformer 的预训练+微调半监督模型 ................................................................................ 11

模型特点：无监督训练+有监督微调 ............................................................................................................ 11

GPT-2：关注模型的零次学习 Zero-shot 能力 ..................................................................................................... 12

GPT-2：开启“单模型解决多任务”新纪元，大容量技术路线确定 ............................................................ 13

模型特点：多任务学习+大模型容量+无微调建模 ........................................................................................ 13

GPT-3：模型参数达 1750 亿，few-shot 进一步提高性能 ................................................................................... 15

模型特点：大参数量+大训练集+few-shot ................................................................................................... 15

Codex：基于 GPT-3 的代码生成工具 ......................................................................................................... 18

ChatGPT / InstructGPT：增加人类反馈强化学习（RLHF） .............................................................................. 19

优化目标：从提示学习到指示学习，聚焦需求对齐（alignment） .............................................................. 19

训练过程：“三步走”实现人工反馈强化学习 .............................................................................................. 20

GPT-4：多模态确认，在专业和学术上表现亮眼 ................................................................................................ 21

GPT-4：支持多模态输入，安全问题或成为 LLM 关注焦点 ........................................................................ 21

能力测试：在专业和学术基准上表现出了人类的水平 ................................................................................. 22

多模态：支持图片输入，未提供具体算法 ................................................................................................... 23

延伸：国内大模型快速成长，海外大模型多维拓展 .................................................................................................... 24

国内大模型快速成长，多类厂商竞逐发力 ........................................................................................................... 24

百度：文心大模型 2 月发布，新一代知识增强大语言模型 ......................................................................... 24

商汤科技：日日新大模型 4 月发布，加速迈进 AGI 时代 ............................................................................ 25

科大讯飞：星火大模型 5 月发布，AGI 核心能力表现出色 .......................................................................... 27

智源研究院：超大规模“悟道”模型，构建完备大模型生态体系 ............................................................... 28

海外大模型多维拓展，看好垂直落地、工程实现、模态丰富三大趋势 ............................................................... 30

垂直落地：BloombergGPT 提供构建垂直行业大模型的有益参考 .............................................................. 30

工程实现：AutoGPT 充分展现大模型有望重塑人机交互范式 ..................................................................... 32

模态丰富：SAM 模型实现大模型在 CV 领域的模态延展 ............................................................................ 33

产业链相关公司梳理 ................................................................................................................................................... 35

风险提示.............................................................................................................................................................. 35

仅供内部参考，请勿外传

免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。

计算机

大模型时代已来，AGI 新纪元开启

Transformer 开启大语言模型发展新时期，为人工通用智能铺平了道路。大语言模型（LLM）

是在大量数据集上预训练的巨大模型，且没有针对特定任务调整数据，其在处理各种 NLP

（自然语言处理）任务方面显示出了较大潜力，如自然语言理解（NLU）、自然语言生成任

务等，甚至为人工通用智能（AGI）铺平了道路。而近年来的 LLM，基本都脱胎于 2017 年

Google 提出的 Transformer 编解码器架构，Transformer 开启了 LLM 发展的新时期。

基于 Transformer 架构的三条演进路线中，解码器路线发展最为迅速。从 LLM 近年的发展

情况来看，其路线主要分为三种：1）编码器路线；2）编解码器路线；3）解码器路线。从

发展特点来看：1）解码器路线占据主导，编码器路线趋于落寞，归因于 2020 年 GPT-3 模

型表现出的优异性能；2）GPT 系列模型保持领先，或归因于 OpenAI 对其解码器技术道路

的坚持；3）模型闭源逐渐成为头部玩家的发展趋势，这一趋势同样起源于 GPT-3 模型，

而 Google 等公司也开始跟进；4）编解码器路线仍然在持续发展，但是在模型数量上少于

解码器路线，或归因于其复杂的结构，导致其在工程实现上没有明显的优势。

国内百度、智源等公司和组织在大模型上有较深厚的积累。百度的文心一言基于 ERNIE 系

列模型，该模型最早于 2019 年提出，到 2021 年迭代到 ERNIE3.0 版本，技术路线也从最

初的编码器路线转移到解码器路线，性能提升明显。智源研究院则依托于清华等高等学府

及其研究成果，2021 年提出的 GLM 模型成为智源悟道大模型的重要技术基础。据日经亚

洲信息，微软总裁布拉德认为智源是微软、OpenAI 和 Google 重要竞争对手。

图表1：大语言模型（LLM）演化树

资料来源：《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》，Yang Jingfeng（2023）、华泰

研究

本部分将从神经网络出发，梳理深度学习方法的发展情况，引出注意力机制与 Transformer

架构，并对全球 LLM 的典型代表——GPT 系列模型进行详细拆解。此外，还将对国内快

速发展的百度文心一言、商汤科技日日新、科大讯飞星火、智源悟道等大模型，以及大模

型在金融垂直领域的重要应用 BloombergGPT 等进行详细解析。

仅供内部参考，请勿外传

免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。

计算机

溯源：从经典神经网络到 Transformer 架构

深度学习是基于神经网络的机器学习

深度学习可以概括为特征的抽象和结果的预测。深度学习是将原始的数据特征通过多步的

特征转换得到一种更高层次、更抽象的特征表示，并进一步输入到预测函数得到最终结果。

深度学习需要解决的关键问题是贡献度分配问题（Credit Assignment Problem，CAP），即

一个系统中不同的组件（component）或其参数对最终系统输出结果的贡献或影响。深度

学习的目标是让模型自动学习出好的特征表示，从而最终提升预测模型的准确率。

图表2：深度学习的数据处理流程

资料来源：《神经网络与深度学习》（邱锡鹏），ISBN: 9787111649687、华泰研究

关系梳理：人工智能>机器学习>深度学习

人工智能包括机器学习，机器学习包含深度学习。人工智能（AI）的重要组成部分是机器

学习（ML），而神经网络（NN）是 ML 的一个子领域。深度学习可以看做是神经网络的分

支，使用了更复杂和更深层次的网络结构，如卷积神经网络（CNN），来处理更高维度和更

抽象的数据，如图像、声音和文本。此外，逐渐兴起的强化学习也是机器学习的一个分支。

深度学习与强化学习可以相互结合，称为深度强化学习（DRL）。

图表3：人工智能、机器学习、深度学习关系梳理

资料来源：《The History Began from AlexNet: A Comprehensive Survey on Deep Learning Approaches》，Zahangir（2018）、

《Deep Reinforcement Learning》，Yuxi Li（2017）、华泰研究

深度学习与神经网络发展历史（1943-2017）

神经网络诞生于 1943 年，深度学习崛起于 2006 年。1943 年，心理学家 McCulloch 和数

学家 Pitts 最早提出了一种基于简单逻辑运算的人工神经网络—MP 模型，开启了人工神经

网络研究的序幕。1986 年，Hinton 提出第二代神经网络，并利用误差的反向传播算法来训

练模型，该算法对神经网络的训练具有重要意义。1989 年，Yann LeCun 等提出卷积神经

网络（CNN）用来识别手写体。1997 年，循环神经网络（RNN）的改进型长短时记忆网络

（LSTM）被提出。2006 年，Hinton 首次提出了深度置信网络（Deep Belief Network，DBN）

和深度学习的概念。2014 年，生成对抗网络（GAN）的提出是深度学习的又一突破性进展。

2016 年，AlphaGo 击败围棋世界冠军李世石，将深度学习推向高潮。

底层特征中层特征高层特征预测

原始数据结果

表示学习

深度学习

人工智能

机器学习

神经网络

深度学习

强化学习

深度强化学习

DRL

仅供内部参考，请勿外传

剩余38页未读，继续阅读

评论收藏

内容反馈

weishaoonly

粉丝: 132
资源: 1383

华泰证券-计算机行业专题研究：大模型深度复盘，科技变革加速-230522.pdf

大模型深度复盘，科技变革加速.pdf

计算机行业深度报告：金融与科技加速融合，应用场景更加丰富-20190527-川财证券-39页.pdf

德邦证券-策略专题之2018至2021：科技牛深度复盘-230522.pdf

华泰证券-科技行业专题研究：供需错配推动半导体制造国产化加速-230607.pdf

华泰证券-计算机行业专题研究：需求复苏有望带动工业软件产业回暖-230509.pdf

20210204-华泰证券-汽车行业专题研究：_从成都市场看汽车需求的变化趋势.pdf

20210824-华泰证券-科技行业专题研究：1H电信经营向好，2HCapex或加码.pdf

华泰证券-电子行业专题研究：AI大模型企业是如何炼成的-230528.pdf

计算机行业：科创板业务规则深度点评：科创板规则正式落地，金融科技迎加速发展-20190303-招商证券-10页.pdf

华泰证券-科技行业专题研究：商业航天大年开启，关注行业机遇-230521.pdf

20210420-华泰证券-行业配置落地：科技主题基金筛选.pdf

华泰证券-电子行业专题研究：从苹果Vision+pro看人机交互方式的重新定义-230607.pdf

20210528-华泰证券-汽车行业中期策略：不惧扰动，行业复苏趋势未改.pdf

华泰证券-传媒行业专题研究：虚拟数字人+AI，产业加速度-230526.pdf

华泰证券-电子行业专题研究：关注光芯片加单预期和周期见底板块-230521.pdf

20210824-华泰证券-科技行业专题研究：1H电信经营向好，2HCapex或加码.zip

20210706-华泰证券-固收专题研究：2020年城投省地级经济财政表现.pdf

20210326-华泰证券-金工专题研究：_布局碳中和及顺周期，应如何择基？.pdf

20210813-华泰期货-商品因子专题报告：商品中的水平、斜率、曲率因子.pdf

华泰证券-家用电器专题研究：盈利积极恢复，预期景气向上-230505.pdf

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

最新资源