没有合适的资源?快使用搜索试试~ 我知道了~
2023东北证券-计算机行业AI深度报告,向量数据库:AI时代的Killer+App-230508.pdf
需积分: 0 1 下载量 5 浏览量
2023-08-15
18:33:55
上传
评论
收藏 2.19MB PDF 举报
温馨提示
试读
31页
2023东北证券-计算机行业AI深度报告,向量数据库:AI时代的Killer+App-230508.pdf
资源推荐
资源详情
资源评论
请务必阅读正文后的声明及说明
[Table_Info1]
计算机
[Table_Date]
发布时间:2023-05-08
[Table_Invest]
优于大势
上次评级:
优于大势
[Table_PicQuote]
历史收益率曲线
[Table_Trend]
涨跌幅(%)
1M
3M
12M
绝对收益
-13%
7%
36%
相对收益
-11%
10%
36%
[Table_Market]
行业数据
成分股数量(只)
348
总市值(亿)
43421
流通市值(亿)
35535
市盈率(倍)
139.75
市净率(倍)
4.28
成分股总营收(亿)
11513
成分股总净利润(亿)
319
成分股资产负债率(%)
41.14
[Table_Report]
相关报告
《技术变革带动机构持仓回归超配》
--20230426
[Table_Author]
证券分析师:黄净
执业证书编号:S0550522010001
18680586451
huangjing@nesc.cn
研究助理:吴雨萌
执业证书编号:S0550122040013
18901997197
wuym@nesc.cn
[Table_Title]
证券研究报告 / 行业深度报告
向量数据库:AI 时代的 Killer App
---AI 深度报告
报告摘要:
[Table_Summary]
我们认为向量数据库是 AI 时代的 Killer App。AI 时代一切 AI 化,而
AI 化的本质则是向量化。向量化计算成本高昂,海量的高维向量势必需
要专门的数据库进行存储和处理,向量数据库应运而生。向量数据库在
拓展 AI 全新应用场景的同时,也将对传统数据库产品形成替代,进而成
为 AI 时代的 Killer App。
向量数据库是专门用来存储和查询向量的数据库。其存储的向量来自于
对文本、语音、图像、视频等的向量化。同传统数据库相比,向量数据
库不仅能够完成基本的 CRUD(添加、读取查询、更新、删除)等操作,
还能够对向量数据进行更快速的相似性搜索,商业价值提升明显。
向量数据库给 AI 插上腾飞的翅膀。向量数据库可以大幅度拓展大模型
的时间边界和空间边界。目前的大模型都是预训练模型,对于训练截止
日之后发生的事情一无所知。向量数据库可以通过存储最新信息后给大
模型访问来弥补这点不足。此外,通过向量数据的本地存储,向量数据
库能够协助解决目前企业界最担忧的大模型泄露隐私的问题。向量数据
库还自带多模态功能,能够实现用中文搜索英语图书、用俄文搜索图片
内容等操作。向量数据库的近似搜索能力能够给向量数据库带来巨大的
商业化潜力。例如 Tokopedia 就已经部署了向量数据库进行近似搜索,
提升了 10x 智能化水平。
向量数据库市场空间巨大,目前处于从 0-1 阶段。我们预测到 2030 年,
全球向量数据库市场规模有望达到 500 亿美元,国内向量数据库市场规
模有望超过 600 亿人民币。全球范围内来看,目前向量数据库以初创公
司为主,包括 Pinecone、Milvus、Weaviate、Vespa 等。
投资建议:建议关注国内具有向量化计算、向量搜索、向量化执行引擎
等技术储备的公司,相关标的如云天励飞、星环科技、创意信息、中亦
科技、佳华科技、海量数据、科蓝软件等。
风险提示:1)向量数据库处于萌芽阶段,就算是美国也没有成熟的上市
公司,并且目前向量数据库有多种技术路线的选择,发展仍然有较大的
不确定性;2)国内成熟产品集中在初创公司,上市公司需要奋起直追;
3)尽管存在开源产品,但是目前海外 VC、互联网巨头已经纷纷入场,
竞争压力恐快速提升。
-20%
-10%
0%
10%
20%
30%
40%
50%
60%
70%
2022/5 2022/8 2022/11 2023/2
计算机 沪深300
仅供内部参考,请勿外传
请务必阅读正文后的声明及说明 2 / 31
[Table_PageTop]
计算机/行业深度
目 录
1. 向量数据库是什么:存储向量的数据库 .......................................................... 4
1.1. 向量:AI 的核心 ...................................................................................................................... 4
1.2. 向量化:技术已经充分扩散 ................................................................................................... 6
1.3. 向量数据库:专门用来存储和查询向量的数据库 ............................................................... 8
2. 向量数据库有什么用:给 AI 插上腾飞的翅膀 ............................................. 11
2.1. 拓展大模型的边界:向量数据库的核心应用 ..................................................................... 11
2.2. 多模态搜索:向量数据库的拿手好戏 ................................................................................. 12
2.3. 近似搜索:给向量数据库带来巨大的商业化潜力 ............................................................. 14
3. 市场空间:向量数据库五百亿美元蓝海市场待引爆 .................................... 16
4. 全球主流向量数据库介绍 ................................................................................ 20
4.1. Pinecone ................................................................................................................................... 20
4.2. Milvus ...................................................................................................................................... 22
4.3. Vespa ........................................................................................................................................ 24
4.4. Weaviate................................................................................................................................... 24
4.5. Qdrant ...................................................................................................................................... 26
5. 国内二级市场相关标的 .................................................................................... 28
6. 风险提示 ............................................................................................................ 29
图表目录
图 1:CNN 模型也是把图像向量化之后进行处理 .................................................................................................. 5
图 2:深度学习算法将万物转化为向量 ................................................................................................................... 6
图 3:部分向量化框架 ............................................................................................................................................... 7
图 4:向量数据库与其他非关系型数据库的对比 ................................................................................................... 8
图 5:向量数据库常见工作流程 ............................................................................................................................... 9
图 6:向量搜索工作原理 ........................................................................................................................................... 9
图 7:未来向量数据库的技术栈 ............................................................................................................................. 10
图 8:OpenAI 泄露隐私数据 ................................................................................................................................... 12
图 9:使用向量数据库用中文搜索英语图书 ......................................................................................................... 13
图 10:用俄语基于图片理解来进行搜索(“蓝色的鞋子”) ............................................................................... 13
图 11:传统的关键词搜索太表层............................................................................................................................ 15
图 12:公司采用了成熟的 Mishards 中间件 ......................................................................................................... 15
图 13:2010-2025 年全球创建、使用和存储的数据量变化(ZB) .................................................................... 16
图 14:2017-2026E 年全球数据库市场规模变化(亿美元)............................................................................... 16
图 15:2019 年关系型与非关系型数据库用户规模(%) .................................................................................. 17
图 16:2022 年关系型与非关系型数据库市场份额(%) .................................................................................. 17
图 17:2017-2022 年关系型及非关系型数据库规模及增速(百万美元,%) ................................................. 17
图 18:中国与全球数据产生量及占比(ZB,%) .............................................................................................. 18
图 19:中国与全球数据库市场规模及占比(亿美元,亿元,%) ................................................................... 18
图 20:中国数据库市场规模及增速(亿元,%) ............................................................................................... 19
图 22:Pinecone 向量数据库结构 ........................................................................................................................... 21
图 21:Milvus 向量数据库生态和社区布局 ........................................................................................................... 22
图 22:Milvus 向量数据库架构 ............................................................................................................................... 23
图 23:Vespa 向量数据库架构 ................................................................................................................................ 24
图 24:Weaviate 向量数据库架构 ........................................................................................................................... 25
图 25:Qdrant 向量数据库架构 .............................................................................................................................. 26
仅供内部参考,请勿外传
请务必阅读正文后的声明及说明 3 / 31
[Table_PageTop]
计算机/行业深度
表 1:全球向量数据库信息汇总 ............................................................................................................................. 20
表 2:Pinecone 向量数据库设置索引分步内容 ..................................................................................................... 21
表 3:Pinecone 融资情况汇总 ................................................................................................................................. 22
表 4:Zilliz 一级市场融资情况汇总 ....................................................................................................................... 24
表 5:Weaviate 一级市场融资情况汇总 ................................................................................................................. 26
表 6:Qdrant 一级市场融资情况汇总 .................................................................................................................... 27
仅供内部参考,请勿外传
请务必阅读正文后的声明及说明 4 / 31
[Table_PageTop]
计算机/行业深度
1. 向量数据库是什么:存储向量的数据库
1.1. 向量:AI 的核心
AI 的全流程其实都是围绕着向量的数学运算。向量在人工智能(AI)中扮演着非
常重要的角色,尤其在机器学习和深度学习领域。以下是向量与 AI 的一些关系(来
自 OpenAI):
1、 数据表示:在机器学习和深度学习中,数据通常以向量形式表示。例如,图像
可以表示为像素值的向量,文本可以表示为词向量或句子向量;
2、 词嵌入:在自然语言处理(NLP)中,词嵌入技术(如 Word2Vec,GloVe 和 BERT)
将词语转换为多维向量,这有助于捕捉词语之间的语义关系。这些向量表示可
用于文本分类、情感分析、机器翻译等任务;
3、 神经网络权重:在深度学习中,神经网络的权重和偏置通常以向量和矩阵的形
式存储。在训练过程中,优化算法(如梯度下降)会不断更新这些权重向量,
以最小化损失函数;
4、 向量运算:许多机器学习算法,如支持向量机(SVM)、 K-近邻(KNN)和主
成分分析(PCA)等,都涉及到向量间的距离计算、内积计算或其他向量运算。
这些运算有助于找到数据中的模式或者对数据进行分类;
5、 优化和梯度:在机器学习和深度学习中,优化算法(如梯度下降和 Adam)通常
使用梯度(一种向量),来更新模型参数,从而找到损失函数的最小值。这有助
于改进模型的性能;
6、 强化学习:在强化学习中,智能体使用向量表示状态和动作。例如,Q 学习和
深度 Q 网络(DQN)中的 Q 值函数会输出一个动作向量,智能体根据这个向量
选择最佳动作。
总之,向量对于 AI 至关重要。无论是之前的 CNN、RNN 模型还是当前火热的
Transformer,内部的数据流转其实都是向量的处理和变化。而高维空间向量所隐含
的海量信息也造就了 AI 应用的非凡潜力。
仅供内部参考,请勿外传
请务必阅读正文后的声明及说明 5 / 31
[Table_PageTop]
计算机/行业深度
图 1:CNN 模型也是把图像向量化之后进行处理
数据来源:ImageNet,东北证券
单就数据而言,只有向量化之后的数据才能被 AI 模型所分析。数据能够被分类为
结构化数据和非结构化数据,其中,结构化数据一般指可以使用关系型数据库表示
和存储、可以用二维表来逻辑表达实现的数据,典型的结构化数据例如成绩单、工
资单等;非结构化数据没有固定的结构,包括文本、图像、蛋白质结构、地理空间
信息和物联网数据流等。在人工智能时代,目前主流的对非结构化数据进行管理和
处理的方法是,利用 RNN 或 Transformer 等嵌入模型(Embedding Model),将非
结构化数据的语义内容转化为高维、密集的向量嵌入(Vector Embeddings),即多
维向量,并直接对这些嵌入进行存储、处理。非结构化数据转化为嵌入后,其语义
的相似性能够通过向量空间点的距离进行量化表示,并进行常见的机器学习操作,
如聚类、分类、推荐等。
仅供内部参考,请勿外传
剩余30页未读,继续阅读
资源评论
YoungerChina
- 粉丝: 1w+
- 资源: 24
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功