数据应用
01-智能风控是一套包含智能风控方法、智能算法和工具的完整体系
应用:业务流程各个环节
工程技术实现:自动化架构和工具平台
目标:风控效果与效率
智能风控方法论:模型
搭建、数据挖掘、策略
搭建
智能算法:机器学习、
深度学习、关系网络
智能
风控
智能风控
02-智能风控详细体系架构
策略层
准入决策
营销风险
欺诈拦截
内容风险
风险点识别
策略评估
样本设计
A/B试验
规则生成
决策监控
规则算法
决策引擎
最优化算法
模型层
欺诈风险
营销风险
信用风险
内容风险
数据预处理
模型训练
EDA
模型评估
特征选择
模型监控
集成算法
模型平台
深度学习
数据层
基础数据
关系数据
交易数据
三方数据
数据采集
数据存储
数据校验
数据缓存
数据清洗
数据监控
实时计算
数据平台
离线计算
特征层
身份特征
关系特征
交易特征
融合特征
源数据分析
和清洗
特征评估
中间数据
构造
特征回溯
特征设计
生成
特征监控
NLP特征
特征平台
图特征
关键内容 流程步骤 算法方法 工具平台
03-智能风控平台交互逻辑
决策引擎
规则策略部署、A/B试验、
决策流程执行
模型结果
规则特征
模型特征
基础数据
数据平台
数据接入、数据存储、
数据查询
模型平台
模型构建、模型部署、
模型计算
特征平台
特征构建、特征部署、
特征计算
04-数据层详解
数据处理步骤
数据平台
基础数据
关系数据
身份信息
外部数据
接入模块
数据管理
服务模块
数据校验
模块
学历信息
App行为
SDK数据
设备指纹
实时计算
离线计算
流式计算
批量计算
授信记录
交易记录
还款记录
黑灰名单
交易数据
三方数据
数据采集
数据存储
数据校验
数据缓存
数据清洗
数据监控
实时计算
数据平台
离线计算
社交数据
多头数据
征信信息
数据类型
数据处理
数据采集
数据平台
数据校验 数据清洗 数据存储 标准输出 数据监控
实现外部数据接入标准化
提供统一的内部数据服务接口服务
保证数据规范存储和顺畅流转
保证数据质量,支持数据校验和监控
05-特征画像层详解
特征挖掘流程
特征平台
性别/年龄
特征挖掘 特征计算 特征管理
居住区域
借款次数
额度使用占比
最大逾期天数
RFM聚合方法
NLP特征方法
时序特征方法
图特征方法
二度联系人数量
ID关联特征
收入指数
消费能力
特征内容
特征算法
源数据分析
和清洗
特征平台
中间数据
构造
特征设计
和生成
特征评估 特征回溯 特征监控
特征配置和生成
特征实时计算/批量计算
特征回溯管理、特征存储
特征监控服务
身份特征
关系特征
交易特征
融合特征
源数据分析
和清洗
特征评估
中间数据
构造
特征回溯
特征设计
生成
特征监控
NLP特征
特征平台
图特征
06-模型算法层详解
模型建立
流程
模型平台
营销评分
自动建模 模型引擎 模型管理
贷后催收评分
流失预警分
反欺诈评分
申请信用评分
决策树
随机森林
神经网络内容风险评分
贷中行为评分
作弊风险评分
XGBoost
LightGBM
图神经网络
评分卡
SVM
K-Means
模型内容
模型算法
问题定义
模型平台
样本定义
及划分
模型架构
设计
数据准备
与EDA
特征选择
模型训练
与评估
模型监控
模型训练和调优
模型推理计算和存储
模型任务管理
模型效果和监控
欺诈风险
营销风险
信用风险
内容风险
数据预处理
模型训练
EDA
模型评估
特征选择
模型监控
集成算法
模型平台
深度学习
策略建立流程
风险点
识别
样本设计
规则生成
规则评估 试验设计 效果监控
07-决策应用层详解
决策引擎
欺诈识别
规则集配置 决策流配置 审批管理
作弊风险
内容风险
准入拦截
营销风险
决策树
孤立森林
运营风险
贷中风险
贷后风险
异常点检测
最优化算法
策略内容
决策算法
决策引擎
规则编写和执行
执行流配置和管理
分流实验设计和执行
审批权限管理
策略监控和预警
准入决策
营销风险
欺诈拦截
内容风险
风险点识别
策略评估
样本设计
A/B试验
规则生成
决策监控
规则算法
决策引擎
最优化算法
08-未来发展趋势展望
补充自动识别不足
替代大部分人工识别
风险识别和规避
策略应用
机器学习模型
人工风控
专家
特征画像挖掘
内部数据 三方数据
用户画像
推荐系统
预训练
知识图谱
隐私计算知识体系
AB实验
因果推断
数据中台 云原生大数据
大数据平台
数据仓库 数据湖
01-用户画像定义
用户画像(用户)
系统通过用户自行上传或
埋点上报收集记录了用户
的大量信息,为便于各业
务应用,将这些信息进行
沉淀、加工、抽象,形成
一个以用户标志为主key的
标签树,用于全面刻画用
户的属性和行为信息。
用户画像(产品)
又称用户角色,作为一种勾
画目标用户、联系用户诉求
与设计方向的有效工具。
02-用户画像(产品)八要素
01
P代表基本性 (Primary)
指该用户角色是否基于对真实用户的情景访谈;
02
E代表同理性 (Empathy)
指用户角色中包含姓名、照片和产品相关的描
述,该用户角色是否能引发同理心;
03
R代表真实性 (Realistic)
指对那些每天与顾客打交道的人来说,用户角
色是否看起来像真实人物;
04
S代表独特性 (Singular)
每个用户是否是独特的,彼此很少有相似性;
05
O代表目标性 (Objectives)
该用户角色是否包含与产品相关的高层次目标,
是否包含关键词来描述该目标;
06
N代表数量性 (Number)
用户角色的数量是否足够少,以便设计团队能
记住每个用户角色的姓名,以及其中的一个主
要用户角色;
07
A代表应用性 (Applicable)
设计团队是否能使用用户角色作为一种实用工
具进行设计决策。
08
L代表长久性 (Long)
用户标签的长久性。
03-用户画像(用户)类型
直接从用户基础信息表内取
到的用户信息,不需要统计
和计算。
直采型
利用用户日志数据,按照一
定的规则进行简单统计的标
签。
统计型
利用用户行为数据或者文本
数据,结合业务规则机型算
法加工,输出对应的属性值
或分值。
挖掘型
算法标签的一种,原理与挖
掘型标签相似,区别在于预
测型重点应用于典型的预测
场景。
预测型
04-用户画像(用户)常用维度
01
基础属性
社会属性、账号信息、LBS;
02
平台属性
平台属性、位置信息;
03
行为属性
登录注册激活、浏览、点击、购买、投诉;
04
产品偏好
精品偏好、内部产品偏好;
05
兴趣偏好
品牌偏好、类目偏好、标签偏好;
06
敏感度
活动敏感度、优惠券敏感度、热点敏感度;
07
消费属性
消费能力、消费行为、消费意愿、消费偏好;
09
用户价值: 活跃价值、VIP等级;
08
用户生命周期
生命周期;
05-用户画像(用户)周期
长期画像
中期画像
短期画像
实时画像
通过统计收集的用户长期兴趣(一般30天)
通过统计收集的用户中期兴趣(一般14天)
通过统计收集的用户短期兴趣(一般3天)
通过实时技术进行收集的用户实时兴趣
06-用户画像(用户)开发流程
01
画像标签
体系设计
02
数据源确认
03
数据收集
04
数据验证
05
标签生产
06
07
标签服务化
标签落地
07-用户画像(用户)开发流程
用户画像应用场景
用户分群
产品分析
精准营销
广告投放
风控反欺诈
个性化推荐&搜索
大话数智,是 DataFun 策划的智库类公众号,
包括但不限于知识地图、深度访谈、直播、课程
等学习资料,旨在为广大数据智能从业者、数据
智能团队提供一个日常学习成长的平台。
DataFunTalk是专注于大数据、人工智能领域的
技术分享与交流技术分享平台。有超过2000位
分享嘉宾,已累计发布原创技术文章800+,累
计阅读量超500W。
如果您有任何问题,或者也想参与知识地图创作,
请联系小助手微信号。
张超
Apache InLong PMC Chair,腾讯大数据InLong团队负责人
屈世超
快看漫画数据研发负责人
网易数帆大数据团队
火山引擎云原生计算团队
隐语开源社区
参与团队
参与专家
徐前进
腾讯数据湖研发高级工程师
雷小平
腾讯云大数据产品中心副总经理
巴川
竞技世界首席数据科学家
审核专家
李奘
腾讯科技PCG技术副总经理
陈玉兆
阿里云开源大数据平台技术专家
刘玉凤
腾讯 CSIG 高级数据科学家
李东晨
度小满数据智能应用部资深算法专家
华菁云
澜舟科技算法研究员
王文广
达观数据副总裁 《知识图谱:认知智能理论与实战》作者
蒋宏
狮桥集团高级风控总监 《智能风控实践指南:从模型、特征到决策》作者
李凯东
某媒体公司大数据总监
陈祖龙
阿里巴巴企业智能高级算法专家
数据智能知识地图
数据智能知识地图
公众号「大话数智」
公众号「DataFunTalk」
01-排序技术
模型
数据
日志
业务
目标
alibaba
特征
离线 近实时 准实时
模型
离线训练 在线预测
推荐商品
列表
特征存储
KV 存储
冷启动策略
适配策略
E&E策略
召回
粗排
一致性
全链路
高性能
端侧
准实时
算法举例:
EdgeRec
多样性
新颖性
流行性
疲劳度控制
分页&曝光过滤等
归一化
离散化
非线性变换
特征组合
ID类特征编码
ID类特征向量化
数值类特征
精排 重排
客户端实时
数据处理
流处理平台
Blink/Flink/Porsche
服务端实时
数据处理
全面 实时
用户信息
商品信息
场景信息
端信息
特征工程
用户特征
属性、行为、社交等维度
商品特征
属性、标签、热度、内容等维度
场景&端特征
端、时空、页面等维度
02-用户理解
理解
显式 隐式
单/多模态表征
短/长/超长行为表征
生命周期行为表征
单场景/全链路行为表征
Trigger-Selection(U2X)
用户召回排序用的Trigger选择,
可以是物料、类目等
意图推断(U2Intent)
购买力预测
类目、品牌、属性等偏好预测
价格等
算法举例:MUVCOG
用户生命周期理解
通过用户行为理解,对整个用户浏览/购
买生命周期进行理解,围绕整个用户行
为周期建模用户周期内意图感知&偏好
标签抽取(U2Tag)
通过NLP等进行标签挖掘
群体理解(U2U)
通过聚类、looklike等群体理解
算法法举例:RALM
洞察
用户
价值
行为
模式
生命
周期
T购买力与消费等级
需求强度
偏好 周期
关系 敏感度
LTV等长期价值 行为序列模式
状态预测
流失预测
时间序列模式
意图推理
数据
基础
人口统计学属性
年龄、职业、性别等
人群标签
亲子、情侣等
其他
常住地、购买力等
行为
物料类型行为特征
点击、收藏、点赞等
搜索类特征
搜索词、时间等
其他特征
类目、营销、品牌等
时空
时间类特征
点击时间、天气、季节等
空间类特征
LBS轨迹、城市等
端
页面相关特征
位置、页面类型等
端相关特征
客户端、类型等
离线 在线 端计算
03-召回技术
商品特征
召回池
多通道召回引擎
工程通用模式 召回技术四大类
行为日志
商品特征
用户特征
行为日志
在线
离线
商品表达
召
回
模
型
Item 1
Item 2
Item k
....
....
用户表达
匹配&检索
商品向量
相似矩阵
弱个性化
U相关
传统
召回
知识
召回
表示
召回
匹配
召回
04-召回技术
传统召回
热门召回
全局热门
分类目/标签热门
分人群(性别、年龄、职业等)热门
协同过滤(2)
SVD
协同过滤(1)
UserCF
基于U-I共线关系得到
Slim&gSlim
ItemCF
Adamic-Adar
内容
基于物品的属性
通过图谱基于物品的其他关联信息
物品内容标签
Swing
表示召回
知识召回
兴趣实体
兴趣标签
基于路径
基于逻辑
基于语义
√
√
√
√
√
DeepWalk
Node2Vec
EGES
√
√
√
TransE
KGAT
RippleNet
√
√
√
GCN
GraphSage
√
√
匹配召回
匹配得分
显式行为建模 隐式行为建模 多兴趣表征 超长行为建模
匹配层
表示层
(BOW/CNN/RNN)
输入层 输入层
表示层
(BOW/CNN/RNN)
user item
GRU4Rec
DUPN
BERT4Rec
XDM MIND
ComiRec
SASNet(fliggy)
LimaRec
TDM
DR
NCF
SDM
SASNet
检索
模型 索引
动态检索
用户兴趣 最优索引
更复杂的匹配函数,兼顾全量候选集大规模召回时效性
双塔模型(DSSM)
Graph-base模型
05-排序技术
后验统计
技术栈:
线性模型
深度匹配模型 大规模负采样 向量召回 模型蒸馏 全链路一致性
双塔深度模型
粗排技术迭代图
轻量高精度深度模型 端到端深度粗排模型
基于人工规则策略、或者基于日志进
行后验相关的概率统计
静态质量分
物品历史CTR/CVR等
类目历史表现平滑
物品热门预估
销量预测
LR(逻辑回归)
FTRL(XFTRL)等
DSSM双塔模型
三塔模型
FSCD模型
COLD模型
SE Block特征优选与工程优化
AutoFAS
粗排场景自动特征与结构选择
1
0
x
α(x)
Concat
Concat
SE Block
Concat
user features
user features ad features cross features
ad features
与精排进行更深层的融合和统一
真正的和最终优化的目标一致性的
粗排模型
工程效率的优化,性能提升更多
初代 二代 三代 四代 未来
面临问题: 特征交叉 性能考虑 SSB问题
06-排序技术
MLR
LROnline
Learning
GBDT
PNN
DIN
DIEN
MIMN
SIM
DSIN
ONN AutoInt FiBiNet CAN HashGNN
BST
Deep
Crossing
PLOY2
FM
FFM
FwFM
XGBOOST
FTRL
GBDT+LR
XFTRL
样本分组LR
特征交叉
实时性+稀疏性
特征交叉组合
流式衰减
特征交叉+稀疏性表达
引入域信息
引入域权重
特征选择
树形模型特征选择
实时性
引入Product Layer
加入GRU来对
用户兴趣演进建模
seq化为多个Session建模多通道兴趣建模
CrossNet 融入FM 加入attention Bi-interaction
代替MLP
Linear&CIN结构
基于搜索超长行为建模
引入ResNet结构 引入Multi Head Attention 引入特征重要性
双线性特征交互
引入特征之间协同关系 引入GNN+Hash
引入transform
DRN
引入强化学习
特征域
传统模型时代 深度模型时代
精排模型技术
稀疏性
多模块 多任务 多目标 多模态
Wide & Deep FNN AERec
Wide 侧改进 Deep 侧改进
保留DNN同时加入LR 利用FM进行预训练 利用AutoEncoder
向量进行降噪处理
加入用户Embedding
DAE
CDAE
NCF
引入CNN
引入Graph结构
ConvNCF
Graph NCF
DCN DeepFM
DCN-V2 XDeepFM
AFM
FM
NFM
Deep Neural Network(MLP)
MMOE
PLE
MMGCN
LOGO
帕累托最优
模型目标 模型表达 特征&信息扩充
07-其他技术方向
全局热门
分标签的热门
基于时空相关热门
DropoutNet
MetaEmbedding
Meta Warm Up
Framework
Knowledge-based
CDR
多行为推荐
metric-based meta
learning
MeLU
MetaHIN
SMINet
epsilon-greedy
汤普森采样
UCB
LinUCB
后验概率统计群体反馈
热门推荐
Side Information 少行为建模 E&E
高效地利用属性信息 充分利用少量交互数据 启发式探索
位置偏差
User/Item/Content-based Text/Visual-based Social-based
曝光偏差 热度偏差
Click models
Propensity Score
others
heuristic-based strategy
Sampling strategy
Exposure-based model
others
Regularization strategy
Adversarial learning
Causal graph
others
is similar to
like
like
who like
similar to
present in
Users
Items Item
Features
可解释性推荐是在给用户提供推荐的同时,也给用户解释为什么的一种个性化推荐方法,能够帮助提升推荐系统的效果、
效率、说服性以及用户满意度
冷启动(商品)
偏置建模
可解释性
08-评估
CTR类
CVR类
ECPM类
客单类
DAU类
点击个数等
TopK Recall
AUC/GAUC
与精排分数/序一致性
MAP(mean average precision)
相关性指标
实时性(性能)
转化类指标
多样性类
新颖性类
时效性类
可解释性类
热门内容比例
高质量内容比例
推荐质量类指标
留存率
停留时长
播放完成率
平均阅读时长
沉浸度(Engagement)
惊喜度(Serendipity)
消费满意度指标
推荐系统线上指标,与所推荐的内容类型、展现方式、推荐所满足的用户需求,都有莫大的关系,而且这种关系体现的有时还很微妙
A/B Test
整体指标
整体指标
AUC/GAUC
类目/人群(AUC&GAUC)
相关性指标
RPM(ad)
AUC/GAUC
类目/主题多样性
…
熵、KL散度、长尾判断
Matching Pre-Ranking Ranking Reranking
数据能力
数据架构
数据采集与治理
01-预训练模型技术
用一套机制(预训练+微调)解决所有语言、主要场景的NLP任务,解决了原有的碎片化问题,大大提升开发效率。标志着NLP进入工业化实施阶段。
技术路线
主要模型
研究重点
海量文本数据
完成任务
完成任务
超大规模算力
超大规模
预训练
语言模型
针对不同任务
进行微调
(BERT/GPT-2)
无需微调
(GPT-3)
T₁
E₁
Trm Trm
Trm Trm
T₂
E₂
Trm
Trm
Tₙ
Eₙ
....
....
....
....
T₁
E₁
Trm Trm
Trm Trm
T₂
E₂
Trm
Trm
Tₙ
Eₙ
....
....
....
....
Encoder(BERT-Style)
更大的模型和更多的数据 更高效的预训练方法 小样本学习及统一微调知识增强的预训练模型
Decoder(GPT-Style) Encoder-Decoder(T5/BART-Style)
ENCODERS
Je suis etudiant
I am a student
INPUT
OUTPUT
DECODERS
Model Size
10⁶
10⁵
10⁴
10³
10³
10²
10²
10¹
Data Size
95
70
50 100 500 1000 5000 10000
75
80
85
90
ALBERT
MobileBERT
BERTBase
Electra-Small
Bert-Large
T5-Base
GPT
DistilBERT (dev set)
RoBERTa
Electra-Large
XLNet
T5-3B
T5-11B
Human
02-预训练模型研究框架
任务应用 文本摘要
单语语言模型 多语语言模型 多模态模型
智能对话 内容生成
任务接口
认知推理
语言模型
自监督 自回归 额外训练模式
训练目标
编码器 解码器 编码器-解码器
模型架构
自由文本
结构数据 多语言 多模态
数据源
模型训练
知识获取
算力
+
+
算法
数据
03-近十年NLP重要发展(预训练相关)
Word2vec
2013年
2014年
2014年
2017年
2018年
2019年
2020年
2019年
2022年
Efficient Estimation of
Word Representations in
Vector Space
Seq2seq
Sequence to sequence
learning with neural
networks
Transformer
Attention Is All You Need
GPT-2
Language models are
unsupervised multitask
learners
T5
Exploring the Limits of
Transfer Learning with a
Unified Text-to-Text
Transformer
Attention
neural machine translation
by jointly learning to align
and translate
BERT
BERT: Pre-training of Deep
Bidirectional Transformers
for Language Understanding
GPT3
Language Models are
Few-Shot Learners
chatGPT
Optimizing Language
Models for Dialogue
04- 知识增强让模型学习更丰富的知识
知识图谱增强
融合实体信息的表示
基于图谱的推理强化
基于语言学知识增强 特定数据增强
领域相关知识
任务相关知识
多语言知识
English
language
Spork
EP
Extended
play
The
Shins
1995
language of
work or name
publication
date
instance
of
performer
基于成分的预训练方法
语言表示融合增强
自注意力权重约束和剪枝
成分句法
语义角色
依存关系
Model: https://github.com/Langboat/Mengzi
Report: Zhang Zhuosheng, et al. Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese. https://arxiv.org/abs/2110.06696.
Zhang Z, Zhao H, Zhou M. Instance Regularization for Discriminative Language Model Pre-training[J]. arXiv preprint arXiv:2210.05471, 2022.
05- 训练优化让模型更高效地学习知识
Model: https://github.com/Langboat/Mengzi
Report: Zhang Zhuosheng, et al. Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese. https://arxiv.org/abs/2110.06696.
模型尺寸优化,减少结构冗余
新的训练目标,加强语义学习能力
训练校正策略,实现更准确的训练
对抗样本预训练,提升模型鲁棒性
训练加速策略,分布式大批次训练
Original
Sentence
Restored
Sentence
Corrupted
Sentence
Ennoising Denoising
Discriminative Training
A cute [MASK] is [MASK] on the [MASK] ...
[MASK] cute dog [MASK] playing on the [MASK] ...
Input
Thanks you for [MASK] [MASK] to your [MASK] last week
Pred Tokens: {inviting, us, home}
Gold Tokens: {inviting, me, party}(Original Sentence)
Original
Thanks you for inviting me to your party last week
Predicted
Thanks you for inviting us to your home last week
W’
H
H
~
>
H
W
PrLM
P
argmax
06-多样化的应用场景
对话生成( PLATO-XL ) 文本摘要(pegasus) 图像(MAE)
Reimers N, Gurevych I. Sentence-bert: Sentence embeddings using siamese bert-networks[J]. arXiv preprint arXiv:1908.10084, 2019.
Bao S, He H, Wang F, et al. Plato-xl: Exploring the large-scale pre-training of dialogue generation[J]. arXiv preprint arXiv:2109.09519, 2021.
Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//International Conference on Machine Learning. PMLR, 2021: 8748-8763.
He K, Chen X, Xie S, et al. Masked autoencoders are scalable vision learners[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 16000-16009.
Zhang J, Zhao Y, Saleh M, et al. Pegasus: Pre-training with extracted gap-sentences for abstractive summarization[C]//International Conference on Machine Learning. PMLR, 2020: 11328-11339.
Pre-training Objectives
Self-attention Visualization Input Representation
The base architecture of PEGASUS MAE architecture
多模态(CLIP)
Summary of CLIP
语义相似度( SBERT )
SBERT architecture
SBERT architecture at inference
01-知识图谱
知识图谱技术是知识生产、知识表示存储和知识应用等众多技术的总和。这类似于,搜索引擎是信息的爬取采集、信息存储和信息检索等多种技术的总和。
模式设计与管理
映射式构建技术
事务
图数据库
完整性
约束
查询
语言
原则 方法论 工程模型
知识融合
实体抽取
关系抽取
自然语言处理
计算机视觉
声音处理
抽取式构建技术
构建技术 存储技术 应用技术
事件抽取
属性图
模型
分布式
计算
分布式
存储
分布式图数据库
Janus
Graph
向量数
据库
知识计算
慢应用
知识推理
知识检索
快应用
知识探索
用户接口与界面
——《知识图谱:认知智能理论与实战》P10
可视化与
交互式分析
智能问答
推荐系统
数据分析
知识溯源
辅助决策
02-知识图谱模式
(Knowledge Graph Schema),简称模式(Schema),也称类图谱(Class Graph)或概念图谱(Concept Graph),是面向知识图谱内容的一种抽象的、语义化的且概念化的规范。在知识图谱模式中,实体类型
以语义化的方式对实体进行分类,关系类型则以语义化的方式对关系三元组进行分类。实体类型的属性名列表和关系类型的属性名列表则是对实体类型和关系类型的多维特征的表示。在语义网中,知识图谱模式往往也
被称为本体(Ontology),表示知识的概念化的规范。
——《知识图谱:认知智能理论与实战》P33
场景
复用
事物
联系
约束
评价
清晰、明确地定义场景
考虑复用是非常好的习惯
定义合适的实体类型,明确、清晰、
无歧义地描述一类事物
根据场景和应用的需要,
定义实体类型间的关系
确定图谱模式整体和局部的约束条件,
通常包括数据类型、取值范围和权限控制
系统评估所设计的模式
是否满足场景的需要
——六韬瀑布模型 ——六韬螺旋模型
场景
复用
事务
联系
约束
评价
复用
场景
事务
联系
约束
评价
联系
事务
复用
场景
获得反馈︐迭代演进︐螺旋式上升
03-实体抽取
命名实体识别(Named Entity Recognition,NER)是指从非结构化的文本中识别出符合定义的实体,并将其分类到某个恰当实体类型中。在知识图谱领域,广义的命名实体识
别通常又称为实体抽取。实体抽取是构建知识图谱的关键技术之一。
基于规则的方
法
词典匹配 常用于有大量词表的专业领域
正则表达式
最常用的规则编写方法,正则表达式几乎为所有编程语言所支持,熟悉一种或多种编程语
言的工程师很容易根据语言和文本特点编写规则
模板 常用于有固定结构的文本上,比如由数据库生成的网页、制式合同等
机器学习
决策树 简单、直接,可解释性非常强
最大熵 复杂,通用性比较强
支持向量机 广泛用于各类机器学习任务中,在实体抽取上表现不错
朴素贝叶斯 最简单的概率图方法,可解释,有坚实的数学理论基础
隐马尔可夫模型 比CRF更简单,计算效率高,在低计算资源年代应用非常广泛
条件随机场
传统机器学习中最常用的实体抽取方法,至今依然是很强的基准方法,并且经常和深度神
经网络结合构建深度学习模型,应用非常广泛
深度学习
BiLSTM-CRF 深度学习中最常用的实体抽取算法
BERT 预训练模型+微调的深度学习方法的典型代表
其他深度学习模型 模型千千万,百花齐放,各具特色
弱监督学习
自动标注样本 自动生成训练语料,核心在于解决噪声问题
部分标注样本 降低标注成本
迁移学习 减少模型所需的训练语料
远程监督 通常和关系抽取一起使用
深度强化学习
用于实体抽取 将实体抽取建模为马尔可夫决策模型
用于样本处理
提升样本质量,或者在样本质量存在一定问题的情况下,联合实体抽取模型实现高精度的
实体抽取
——《知识图谱:认知智能理论与实战》P136
04-关系抽取 05-事件抽取
(Event Extraction)是指从文本中提取出有关特定事件的信息,包括主题、客体、地点和时间等等要素。通过对文本中出现的实体和关系进行分析,可以提取出有意义的知识,
进而构建出事件图谱。事件图谱是知识图谱的一个细分领域,知识图谱中的存储、计算和推理等技术都可以用到事件图谱上。但事件图谱有其自己的特点,进而衍生出一系列事件
图谱独特的计算和推理方法。
关系
抽取
基于
规则的
关系抽
取方法
实体-
关系联
合抽取
方法
基于
深度学
习的关系
分类方法
弱监
督学
习的
方法
关系三元组与语言的语法结构关系密切,
由于词法分析和句法分析工具愈加成熟,
基于语法结构的关系抽取的方法表现愈加
优秀,应用场景也愈加广泛。
关系分类本质上就是一个给定文本序列和
实体信息作为输入的分类问题,分类的目
标是判断其是否属于 所有可能的关系类
型之一,或者不是任何一种关系类型。
弱监督学习的目的有三,一是充分挖
掘少量已标注样本的潜力;二是通过专
家编写业务规则自动生成标注数据,提升
专家经验的复用性,降低专业数据的标注
成本;三是利用知识库来指导监督标注数
据的生成,实现无标注数据下的关系抽取
实体-关系联合抽取的方法在一个模型中
同时实现对实体和关系的抽取,其输入
为文本序列,输出是抽取出来的实体和
关系,既直观,又简洁。
监督学习
生成式方法
序列标注方法
分类方法
阅读理解方法
弱监督学习
半监督
远程监督
事件
抽取
多模态
事件抽取
语音
文本 视觉
触发词识别 发射
触发词分类
事件要素识别
要素角色分类
管道模式 联合抽取
《知识图谱: 认知智
能理论与实战》
11月29日神舟十五号载人飞船发射取得圆满成功。 11月29日神舟十五号载人飞船发射取得圆满成功。
航天器发射
11月29日 神州十五号载人飞船
时间 主体
11月29日
要素
神州十五号
载人飞船
要素
主体
时间
发射
触发词
航天器发射
06-知识存储
属性图数据库,简称图数据库。图数据库完全和知识图谱契合,从底层的存储模型到支持的查询语言,甚至相关的概念都完全匹配。它们就是天造
地设的一对,图数据库是知识图谱存储的首选。
——上表开源图数据库,节选自《知识图谱:认知智能理论与实战》P246,完整的请参考原书
JanusGraph Neo4j Dgraph NebulaGraph
首次发布 2017年 2007年 2016年 2019年
开发语言 Java Java Go C++
属性图模型 完整的属性图模型 完整的属性图模型 类RDF存储 完整的属性图模型
架构 分布式 单机 分布式 分布式
存储后端 Hbase、Cassandra、
BerkeleyDB
自定义文件格式 键值数据库BadgerDB 键值数据库
RocksDB
高可用性 支持 不支持 支持 支持
高可靠性 支持 不支持 支持 支持
一致性协议 Paxos等 无 RAFT RAFT
跨数据中心复制 支持 不支持 支持 不支持
事务 ACID或BASE 完全的ACID Omid修改版 不支持
分区策略 随机分区,支持显式指定分区策略 不支持分区 自动分区 静态分区
大数据平台集成 Spark、Hadoop、Giraph Spark 不支持 Spark、Flink
查询语言 Gremlin Cypher GraphQL nGQL
全文检索 ElasticSearch、Sol
r、Lucene 内置 内置 ElasticSearch
多个图 支持创建任意多图 一个实例只能有一个图 一个集群只能有一个图 支持创建任意多图
属性图模式 多种约束方法 可选模式约束 无模式 强制模式约束
客户端协议 HTTP、WebSockets HTTP、BOLT HTTP、gRPC等 HTTP
客户端语言 Java、Python、C#、Go、Ruby
等
Java、Python、Go等 Java、Go、Python、等 Python、Java等
07-知识计算
(Knowledge Computing)是指在图论的指导下,使用图论中的定理、推论、模型、算法,以及相应的工具来计算、处理、分析、理解和挖掘知识图谱的方法。
路径分析 社区分类 中心性
遍历与查询
最短路径
全路径
模块度
GN
Louvain
PageRank
中介中心性
特征向量中心性
亲密中心性
NetworkX igraph SNAP JGraphT GraphX Gremlin Cypher SparQL
08-知识推理
推理(Reasoning)是与人类思维和认知相关的心智能力,是符合逻辑的、明智的思维方式,是一种有意识地进行思考、计算、权衡与逻辑分析的能力。 知识推理是实现类似于人类推理能力的人工
智能技术。
演绎推理 几何嵌入方法 深度学习
基于演绎规则
基于描述逻辑
定性时空推理
欧式空间平移变换
复数空间旋转变换
双曲空间嵌入
卷积网络
胶囊网络
图神经网络
概率推理
(Probabilistic Reasoning)
归纳推理
(Induction Reasoning)
演绎推理
(Deductive Reasoning)
因果推理
(Causal Reasoning)
09-智能问答
(Question Answering,QA),是指使用自然语言提问的方式检索所需的知识,其目标是直接获取问题的答案。在基于行业知识图谱的智能问答中,用户在查询业务知识时,不需要精挑细选关键词,而是如同向专家咨询一样,使
用自然语言的方式描述清楚所要解决的问题,系统就会通过一系列复杂的语义理解、信息检索、知识推理和答案生成等步骤给出准确的答案或者答案的候选集合。
文本理解
专业模型 复杂问题处理 重排序 答案生成
意图识别
子图检索
知识链接 模板匹配
智能问答 Z 形框架 使
用系统性方法来实现
能够面对不同业务、
解决各种各样问题的
全能型的基于知识图
谱共通的智能问答应
用
——《知识图谱:认知智能理论与实战》P392
10-认知推荐系统
(Cognitive Recommendation System)是指以知识图谱为核心,以知识为依据,利用知识图谱中无处不在、无时不有的连接给用户推
荐所需知识的方法与系统。
认知推荐系统的目标是像行业专家一样工作,即在特定的场景下,基于对用户的先验认知(如用户的工作职责、所在的部门与角色、过往
工作经历、所贡献的知识等)来推荐知识。在大多数情况下,用户本身就是行业知识图谱的组成部分。也就是说,认知推荐系统可以充分
利用知识与知识、知识与用户、知识的版本更新和新陈代谢等丰富的关联,并基于应用场景进行精准的知识推荐。
认知
推荐
①通用
推荐
②交互与
人机协同
③多样性
推荐
④权威性
推荐
⑤多模态
推荐
⑥说服式
推荐
⑦给出
推荐理由
⑧主动
推送
⑨社区化
运营
⑩知识
保密
01-AB实验
AB实验
总述&架构
实验流程
细分架构&流程
应用&特定领域
8个关键环节
2个关键支撑
AB实验基本原理、要素、特性
AB实验的设计
AB实验的分析
AB实验中统计学知识
AB实验决策
AB实验平台
局限性
前沿、高阶实验
相关领域
02-实验流程概述
实验原理
1
2
3 4
5
6
实验假设 实验运行 实验观察 实验沉淀
实验决策实验结果分析流量选择
关键支撑1:实验平台支撑
关键支撑2:团队、制度和实验文化支撑
实验设计
03-实验核心原理与要素
实验原理 实验价值实验三要素
实验流量
随机
分流
定量效果
因果推断
先验性
实验特性
并行性
实验参与单元
实验参与单元互不干扰
实验参与单元合理随机化
足够的实验参与单元
实验控制参数可分配
实验控制参数容易改变
实验指标能反映实验者的意图
实验指标可测、易测
实验控制参数
实验指标
数据分析
实验决策
实验组 对照组
04-实验方案设计
目标人群选择:精准性 VS 影响面
抽样方式:无差别抽样VS 定向抽样
唯一变量原则
正交分层、层域嵌套
哈希随机分桶、分组
最小流量预估
实验天数预估
关键参数
白名单测试
产品走查
数据观测
实验目标确定 样本选择 流量预估 实验上线实验分组设计
实验目标选择原则 实验指标3个基本条件 评估实验指标
信息增益
多目标融合
长期有效性
因果关系
能反映意图
实验指标易测
实验指标可测
目标性
可重复性
可归因
05-实验分析
实验运行分析
实验结果分析
流量分析
AA测试
埋点、计算pipline验证
指标校验
最小实验流量
样本量分析
阈值、异常监控
显著性分析
T检验
SRM
FDR
实验短期有效性
方差计算 指标选择
序贯检验 Delta方法
非参数检验
II
实验精度/敏感度
(最小检测变化)
实验长期有效性
指标监测预警
Z检验
实验错误率
I类错误
类错误
III
类错误
参与单元选择
组间差异消除
指标方差
指标当前水平
多重测试
测试
修正
Holm
法
Fallback
法
新奇效应
学习效应
网络效应
延迟效应
生态效应
长周期实验
保留实验
反转实验
后期分析法
时间交错实验
CUPED
06-实验中统计学拓扑图
概率密度函数 样本均值、方差、置信水平
抽样 抽样分布
最小样本容量 置信水平1-α
显著性水平α
增加样本容量n 比率类
增加区间宽度
置信区间 方差估计 均值类
均值、方差
重复
正态分布
方差
提升
误差ε
P值假设检验
I类、II类错误、
power
人为定义的小概
率事件发生的概
率
H0为真时小概率
事件发生的概率
07-实验决策流程
实验AA测试
通过
是
不通过
根因分析
停止实验
AB实验
优化策略
修复
沉淀总结
SRM检验
根因分析
AB实验结果
是否
通过
是否
异常
修复
全量实验 下线实验
核心指标
显著提升
保护指标
没有显著下降
核心指标
无显著变化
核心指标
显著下降
代码异常
用户投诉
关键指标大幅异动
08-实验平台讯线索评级标杆项目介绍腾讯线索评级标杆项目介绍
产品服务
请求AB实验服务 返回AB实验ID和参数 传输实验日志数据
实验管理 流量管理 指标与分析
实验创建
实验配置:流量大小、人
群选择、实验策略、
哈希函数:murmur、MD5、
SHA、JDB...
实验测试:白名单、接口
实验权限:功能、实验、
反转实验
特性开关
长期实验
最小样本量估计
共享流量
指标配置 指标分级
指标权限
指标方差缩减
指标敏感性、检出精度
异常剔除
OLAP分析 HTE分析
日志传输
日志存储
实时计算
流spark
离线计算流
hadoop
自助查询
参数检验:T检验...
非参数检验:jackknife...
SQL分析
AA测试 SRM测试
老虎机实验 interleaving
双边实验 内容实验
社交网络实验 ...
实验通知:下线、全量等
实验告警:数据、服务等
实验类型:web、H5、APP
实验沉淀
实验报告
实验类型:前端、后端
服务方式:SDK、微服务...
实验对象:设备、页面、
会话、元素
实验操作:停止、放量、
重启、全量发布
实验标签
层域管理、层
域发布、发布
审核
指标计算:
均值、比例类、分位类
实时、天级、累积、分桶
请求
实验
计算
结果
回传
实验
计算
结果
流量管理、流
量申请、流量
回收
AB实验服务
日志存储与计算
传统AB局限性 高阶实验 相关技术
策略空间有限
uplift
ML
DeepL
因果推断
因果分析 因果学习
策略好坏决定
实验效果
有一定机会成本
实验
interleaving
智能调优MAB实验
内容实验
双边市场实验
智能调参实验
中断时间
匹配法
面板法
工具变量法
断点回归
分析 AI算法
09-实验局限、前沿、相关技术
01-什么是因果推断
从因到果 vs. 从果到因
已知因:
e.g.抽烟
推断果:
e.g.肺癌
因果效应预估
已知果:
e.g.用户流失了
推断因:
什么原因造成的
根因分析
02-为什么要做因果推断
相关 ≠ 因果
在观测样本上,由于混淆因子(confounder)的存在,使得样本呈现违背常识现象
例如左下图,在全量人群上,随着运动量升高,胆固醇居然也升高了:
直接用这样的样本建模会得到错误的相关性结论
而当我们对年龄这一混淆因子进行控制之后,就能得到正确结论
运动 胆固醇
运动 胆固醇
年龄
03-因果推断 vs. 传统机器学习相同点和区别
机器学习 因果推断
机器学习的本质:机器学习拟合的是从历史数据上观测到的
相关关系,但基于相关关系的拟合是不可靠的,甚至很多时
候是伪相关
企业需求:支持决策,不仅仅是预测
传统机器学习模型:
因果推断模型:
√用高维相关特征对预测目标做拟合
√ 问题:无法建模实验前后对业务目标带来的增益
√ 拆分因变量T(例如是否发券)和协变量X(
用户特征)
√ 构建不同用户在不同实验下产生不同行为
的因果模型
X:全量特征
T:实验变量
X:用户特征 Y:预测目标
Y:预测目标
相关性
04-因果推断 vs. 传统机器学习相同点和区别
机器学习 因果学习
表达式
解法
P(Y=1|X)
贝叶斯定理
P(Y=1|do(X))
后门准则
U
X Y
当已知结果发生了(Y=1),想分析引起结果的原因Xk。通过贝叶斯公
式,这个概率与P(Xk)这个先验概率强相关:也就是说Xk本身概率越
高,引起Y的概率越高?
但这个概率是非因果的
在控制了U的情况下,阻断了U→X这条后门路径
是不是所有变量都可以拿来do?
如果是无法做干预的变量(例如性别),评估它的
因果效应有意义吗?
05-因果推断适合解决的问题因果推断在社科领域的应用
医学
• 不同用户对药剂的敏感程度不同
• 如何给用户搭配最合适的服药剂量,达到治愈率最大
的目标
群体因果效应预估:
Average Treatment
Effect Estimation
做临床控制变量实验:对相似的患者提供
不同的药剂,观测两组用户的群体治疗结
果
经济学
• 2021年诺贝尔经济学奖 -教育时长与收入的关系
• 经济学领域较难做类似医学领域的临床实验,而受教
育程度往往跟人本身的年龄和智商有关,因此在观测
数据中无法直接证明教育时长与收入有因果关系
因果关系分析:
Causal Analysis
找到一组年龄和用户资质水平都近似的样
本,这两组样本在其他特征相似的情况下,
仅教育时长改变,之后观测两组样本的群
体收入差异
度小满
• 不同用户对于不同权益 (优惠券 )的敏感程度不同
• 如何在控制成本的情况下,给用户搭配最适合的权益,
达到效率最高的目标
个体因果效应预估:
Individual Treatment
Effect
Estimation
设计线上A/B 实验, 通过因果推断算法对用
户在实验前后的个体业务增量进行预估
• 需要从观测样本中分析某些变量是否与结果具有因果
关系:即改变了这个变量,是否能改变业务结果?
因果关系分析:
Causal Analysis
在观测样本上进行特征空间矫正和对齐,
找到一组除了需要分析的变量,其他变量
都近似的样本
领域 问题类型 解决方法存在问题
06-因果推断的主流框架Potential Outcome Model & Structure Causal Model
从以上医学、经济学领域中的例子,我们不难看出,因果推断的主流应用有两个方向:
方向一:因果效应预估,e.g. 药剂分配优化/发券分配优化
预估施加了干预后的效果:一个用户在同一时间内仅能观测到一种干预下的效果,需要通过潜在输出框架预估反事实效果
方向二:因果关系分析,e.g. 教育是否影响收入
在观测数据中发现变量间的因果关系
因果推断
1 潜在输出框架
2
概率图框架
依赖三大基本假设
不依赖三大基本假设
因果关系发现
因果效应预估
07-因果推断的三大基本假设
假设名称 解释
SUTVA: Stable Unit
Treatment Value
Assumption
Ignorability/Unconfound-
edness Assumption
Positivity Assumption
对于个体来说,他接受到某一个Treatment后产生的结果不能受其他个体影响,也就是说个体
间是独立的,没有交互。比如说如果存在一个撸口子群,里面的人互相知道彼此是什么额度/
利率/优惠券,那么里面的人是否用信就会受到他人影响,这种情况就不满足条件。
并且同一个Treatment不能有多个版本:比如说一个Treatment叫万1优惠券,一个版本是可
以用两期,一个是只能用一期,那这就是两种版本
对于同样特征的用户,Treatment跟结果是正交的。也就是说如果有两个人特征完全一样,那
么无论给这两个人发万1券还是其他券,T+30的激活率都应该是一样的
特征不能完全决定Treatment的分发策略,例如如果贷前只给额度三万以上的样本发万1优惠
券,那么就不能把额度三万以下的样本放到集合里面评估,因为这些样本不可能有其他优惠券
下的表现
08-Treatment Effect ATE/CATE/ITE
假设名称 解释 表达式 应用
ITE: Individual
Treatment Effect
Y(1)−Y(0)
无法真正预估到个人
级别
常用的A/B实验就是
在预估ATE
精细化运营/策略
E[Y(T=1)−Y(T=0)]
E[Y(T=1)│X=x]−
E[Y(T=0)|X=x]
ATE: Average
Treatment Effect
CATE: Condition-
al Average
Treatment Effect
假设有两个绝对一致的平行空间,对于同一个样本,在平行
空间A里面施加一个Treatment T, 在平行空间B里面不施加
Treatment,那么ITE就可以通过计算Y(1)-Y(0)获得
因为无法观测同一个样本在两个平行空间下的是否施加
Treatment的差异,因此可以用两组近似的样本,通过计算
两组样本平均Outcome差异,来代替个体ITE:Y(W=1)
用ATE代表个体ITE会有较大偏差,CATE可以说是ATE的
subgroup版本,通过X把整体样本划分为小组,然后将ATE
通过对特征矩阵X求积分得到
现实问题的解决方案是,将整体样本划分为subgroups(e.g.
Causal Trees),这些subgroups中的用户特征近似,因此整
体ATE可以通过Condition on X得到→ CATE
09-因果推断算法分类 按照处理Confounders的方法,Potential Outcome类算法可以分为以下几类:
处理方法 算法大类 代表算法
无法处理 Meta Learning Methods
Re-weighting Methods
Stratification Methods
Matching Methods
Representation Learning
DML
S/T/X/ClassTransformation
IPW/DR
IPW+KNN
DR Net/DR-CFR
DML, CausalForestDML
Equal Frequency/Tree Based
样本对齐:消除
Confounders
预估Confounders
对Y的影响
10-因果
Meta-Learners框架:在随机样本上建模
1. Slearner:干预变量视为一维特征
2. Tlearner:干预变量分组建模 3. Xlearner:干预变量分组交叉建模
θ (X)=f(X,1)−f(X,0)
θ (X)=f_1(X,1)−f_0(X,0)
├ θ (X)=g(X)τ _0(X)+g^−(x)τ _1(X)
实验组 对照组 f 实验组
对照组 f₀
f₁
实验组 对照组
实验组 对照组
τ ₁
>
τ ₀
>
Neyman-Orthogonality框架:去除混淆因子
Representation Learning框架:在观测数据上学习因果关系
4. DoubleML:两阶段机器学习模型
5. DRNet:Multi-Valued干预建模 6. VCNet + UMNN网络
Features
Treatment Outcome
11-因果推断在度小满的应用 场景一:随机流量建模
随机试验 模型迭代
业务决策
Step 1:
线上保留一定比例的随机流量,
用于模型迭代和效果验证
Step 1:
业务根据模型提供人群包/策略
组合进行决策,预留实验组和对
照组,用于验证模型效果提升
Step 2:
依据随机流量进行因果建模和
效果验证,支持业务决策
12-因果推断在度小满的应用 线上系统设计
系统设计
onlineoffline
流量划分 数据收集 决策&模型 数据分析
主流量
+
留白流量
+
数据中心
在线变量:在线调用接口
离线变量:离线计算入库
分析平台
在线分析:业务指标监控
在线监控:异常情况报警
数据中心
线上样本:离线落表
线上特征:离线落表
特征回溯:支持数据回溯
分析平台
离线分析:离线效果分析
实验分配:离线实验分配
和效果评估
Model
Model迭代
随机决策
动态决策调整
离线决策调整
01-数据中台概述
定义:数据中台是基于大数据平台提供的底层平台能力、以及数仓提供的结构化数据环境,搭
建的面向业务的统一的数据应用服务
价值:为业务提供便捷的数据应用产品能力,提升业务对数据的应用水平和应用深度
02-数据中台内容体系
技术体系
技术体系是构建数据中台的基础支撑,主要包括:大数据存储计算技术、数据中台工具技
术组件两部分。大数据存储计算包含:Hadoop、spark、Flink、Clickhouse等技术;数
据中台技术包含:数据集成、数据资产管理、平台服务管理工具等。
数据体系
企业数据通过各种方式汇总到数据中台,按照一定的建模方式进行加工处理,并进行体
系化的管理,形成企业的数据资产体系。
服务体系
数据中台与大数据平台最主要的区别是,数据中台数据能便捷的以服务化的形式支持业
务,服务体系是通过中台的服务组件能力,把数据变成一种服务能力,让数据能够方便
的应用到业务中为业务带去价值。
运营体系
运营体系是数据中台的守护者,通过运营体系保障整个中台的健康、持续运转。运营体
系包含资源占用监控、数据质量监控、数据价值评估等,其目标是让中台持续健康运转
,产生持续价值。
03-数据中台建设流程
1.理现状
技术体系
组织现状
业务现状
数据现状
技术现状
2.立架构
组织架构
业务架构
3.建资产
技术架构
应用架构
数据集成
资产萃取
数据标准
数据质量
5.做运营
监控审计
价值评估
质量评估
资产排名
4.用数据
数据安全
场景服务
数据体系 服务体系 运营体系
04-数据中台架构体系
App
PC端
小程序
SaaS
应用类型
人资
财务
基建
决策
计量
营销
业务应用
微服务管理
Docker
虚拟化
DevOps
通用组件
技术中台工具
Mpp
服务化
API
DaaS
服务能力
数据模型
标签管理
BI工具
数据资产
管理
开放共享
中心
客户标签
客户画像
业务模型
跨域融合
数据中台工具
Hadoop
流式数据
流式计算
离线计算
离线文件
采集
实时文件
采集
时序数据
采集
数据库
采集
数据库
同步
时序数据库
Mpp
交互计算
时序计算
PaaS
IaaS
重度汇总层
轻度汇总层
中间层
数据存储层
数据接口层
存储和计算能力
财务域
流量域
会员域
增长域
用户域
营销域
广告域
内容域
数据模型
运维管理系统
数据标准管理
元数据管理
数据质量管理
数据安全管理
ETL调度管理
数据平台支撑工具
数据流向
采集
能力
存储资源 计算资源 网络资源 非结构化 虚拟化 资产管理
基础
设施
业务
系统
营销系统 人资系统 资产系统 财务系统 运营系统 管理系统
业务
系统
云平台
系统安全管理
人工智能平台
数据开发平台
Paas资源管理
5.1-架构拆解一
5.3-架构拆解三:数据资产管理
数据资产管理
统一标签
体系
业务模型
配置
数据标准
管理
元数据管理
主数据管理
数据资产目录
数据采集参考大数据平台数据采集部分
5.2-架构拆解二
大数据平台架构参考大数据平台架构体系部分
5.6-架构拆解六:元数据管理体系
访问层
访问层
Web服务
门户访问
HTTP/HTTPS
WebService接口服务
访问控制
统一元数据管理库
用户群
业务分析师
系统架构师
数仓工程师
功能层
元模型管理
内置元模型(遵循CWM)
自定义元模型
元模型发布
导入导出
元数据管理
元数据维护
变更订阅
版本管理
元数据检索
元数据核验
一致性核验
属性填平率检验
重复率检验
元数据检查
元数据采集
采集适配器
采集元模型配置
采集日志查看
(技术相关)
采集实例采集
内容查看
采集周期定义
采集实例查看
采集元数据合并
机制(一次全量)
分析应用
血缘分析
数据地图
关联度分析
属性值差异分析
元模型存储
业务 技术 管理 操作
元数据存储
数据对象层
数据源类别
数仓源
(离线hive/PG;实时
kafka)
业务源
(各类关系、非关系、
实时库、非结构化)
数据加工
采集
发布
存储发布 分析
业务管理
(板块数据域主题域)
数据操作管理
(集成、开发、质检、安全)
数据存储参数
各类数据源连接协议、
存储、环境、分层规范、
时间周期等信息
流程责任管理
(流程权限、数据权限、
负责人、角色)
5.7-架构拆解七:数据产品矩阵与业务应用
数据服务的形式分为几种:BI报表/仪表盘、OLAP自定义查询/Ad-hoc(即席查询)、
特定数据产品、数据服务化
BI报表
常用的三方平台有帆
软BI、观远BI、
QuickBI等
使用要求最低的数据
服务形式
OLAP自定义查询/Ad-hoc(即席查询)
需要业务方掌握一定的SQL能力,同时数据中
台也需要对数据有较好的治理体系,以便于业
务使用者便捷的检索和查询数据
数据服务化
是对数据相关服务做
API封装,支持实时查
询
为业务的系统提供服
务接口和数据服务功
能API接口,以供业
务系统打通数据在业
务系统内的灵活应用
业务通用的数据产品
AB实验平台
画像平台
DMP平台
广告投放平台
渠道投放数据监控平台
个性化推荐平台等
需要针对各个业务的需求提
炼成通用需求,并开发特定
数据产品系统支持这类通用
需求。
灵活的自助查询数据能力。
基于HUE、Zeppelin能够实现自助查询;
底层的查询引擎可以是Impala、Presto、
clickhouse、StarRocks、hive、flink等;
也可以基于Impala、clickhouse、Presto
等查询引擎做了二次封装.
Ad-hoc,支持使用者选择特定的筛选条件,
自动生成所需要的报表.
5.8-数据中台的成熟度评估
业务应用广度
业务应用深度
使用数据中台服务的业务数量和比例
使用数据中台服务种类的数量
使用报表辅助业务决策
通过实时数据引擎驱动业务做实时策略优化
建立智能分析引擎,驱动业务做出运营策略调整
5.4-架构拆解四:主数据管理实施步骤
1
理需求
2
画蓝图
3
定职责
6
搭平台
5
洗数据
4
定标准
7
接服务
8
建体系
9
促运用
5.5-架构拆解五:数据质量管理工作流程
数据质量
管理工作流程
1、制定数据标准
基础数据标准
指标数据标准
检核维度大类
检核维度小类
制定业务规则
制定技术规则
规则级评估
体系级评估
2、建立检核体系
3、制定整改规则
4、制定评价机制
数据仓库和大数据平台、数据中台的关联性
数据中台 = 大数据平台 + 数据仓库 + 数据应用和服务
注解:
大数据平台位于最底层,是包括服务器集群、Hadoop服务体系、离线和实时计算框架等软硬件的集
合,是搭建数据仓库、数据中台的底层基础
01
数据仓库是基于大数据平台的存储引擎、存储格式(Hive、Delta Lake等),基于维度建模方法建设的
结构化数据集合,目的是为所有类型的数据支持提供数据环境
02
数据中台是基于大数据平台提供的底层平台能力、以及数仓提供的结构化数据环境,搭建的面向业务的
统一的数据应用服务
03
在建设企业级数据环境时,一般都会搭建起大数据平台和数据仓库,而数据中台并不是必须,需要根据
企业的业务需求来综合决策
04
01-大数据平台概述
定义:支持海量数据存储,并支持实时流数据计算、离线批量计算、数据挖掘、交互式查询等
场景的一套基础平台设施
02-大数据平台架构系
数据查询
开发工具
平台工具
OLAP查询分析
(Impala/Presto/Clickhouse/Doris) (Hbase/Kylin/Druid/TiDB)
实时查询
数据存储
与计算
数据采集
流式计算
流式数据存储(Kafka)
实时采集
(DataX/Cannel)
业务数据库
(MySQL/Mongo)
业务日志
(半结构化)
爬虫数据
(半结构化)
监控报警
运维工具
系统监控
自动化运维
第三方数据
(结构化/半结构化)
埋点上报
(Http/Https)
调度系统
(Azkaban/
Airflow/
DolphinScheduler)
资源管理
(YARN)
离线采集
(Sqoop/Flume/LogStash/
FileBit)
(Flink/Spark Streaming
/Storm/Beam)
离线批计算
离线数据存储
(Spark/MapReduce/
Hive/Beam)
数据挖掘/AI
湖仓一体存储
(SparkML/sklearn/
TensorFlow)
2.1-Lambda架构 --- 离线数仓+实时数仓
数据源
业务库数据
用户日志
爬虫数据
系统日志数据
离线数据采集
Kettle
Sqoop
数据导出
Sqoop
DataX
Impala Presto Kylin
DataX
数据发布
数据发布接口
SpringBoot
SSM
MyBatis
离线处理
离线数仓
Hive
ODS
Hive
DWD
Hive
DWM
Hive
DWS
Hive
DM
MapReduce SparkHQL
lmpala
Hive DIM
可视化
数据挖掘
自研平台
DataV
Sugar
FineBi
线性回归
KMeans++
罗辑回归
推荐算法
数据发布
数据发布接口
SpringBoot
SSM
MyBatis
可视化
数据挖掘
自研平台
DataV
Sugar
FineBi
线性回归
KMeans++
逻辑回归
推荐算法
BI报表
OLAP分析工具
MySQL
Oracle
实时数据采集
Flume
Maxwell
FlinkCDC
Canal
Kafka
ODS
Kafka
DWD
Kafka
DWM
Storm Flink
SparkStrea
ming
StructuredSt
reaming
DIM Hbase + Phoenix + Redis
实时数仓
Hive
DWS
Hive
DM
Druid Kylin Clickhouse
Doris es Presto
OLAP分析工具
2.2-Kappa架构 --- 纯实时架构
数据源
业务库数据
用户日志
爬虫数据
系统日志数据
数据发布
数据发布接口
SpringBoot
SSM
MyBatis
可视化
数据挖掘
自研平台
DataV
Sugar
FineBi
线性回归
KMeans++
罗辑回归
推荐算法
实时数据采集
Kafka
ODS
Kafka
DWD
Kafka
DWM
Storm Flink
SparkStrea
ming
StructuredSt
reaming
DIM Hbase + Phoenix + Redis
实时数仓
Kafka
DWS
Kafka
DM
Druid Kylin Clickhouse
Doris es Presto
OLAP分析工具
Flume
Maxwell
FlinkCDC
Canal
2.3-湖仓一体架构 --- 流批一体
数据源
业务库数据
用户日志
爬虫数据
系统日志数据
数据发布
数据发布接口
SpringBoot
SSM
MyBatis
可视化
数据挖掘
自研平台
DataV
Sugar
FineBi
线性回归
KMeans++
逻辑回归
推荐算法
实时数据采集
hudi
ODS
Kafka
hudi
DWD
hudi
DWM
Storm Flink
SparkStrea
ming
StructuredSt
reaming
DIM Hbase + Phoenix + Redis
离线+实时数仓
hudi
DWS
hudi
DM
Druid Kylin Clickhouse
Doris es Presto
OLAP分析工具
Flume
Maxwell
FlinkCDC
Canal
3.1-架构拆解一:数据采集
数据源端
将各种形式的数据从多种存储介质中收集上来,传输存储到大数据平台的数据存储介质
按照数据源分类
业务DB、业务日志、埋点
数据、三方数据等
按照数据类型分类
结构化数据(MySQL/Ora-
cle)、半结构化数据
(json/xml)、非结构化
数据(TXT、jpeg)等
采集工具
日志采集工具
Flume/LogStash/File-
Beat/Fluentd
DB实时采集
Canal/BitSail/MaxWell
DB批量采集
Sqoop/Kettle/DataX
目标端
实时数据目标位置
Kafka/Pulsar/Rocket-
MQ/ElasticSearch/HBa-
se/MySQL
离线数据目标位置
HDFS
3.2-架构拆解二:数据存储与计算
数据存储
离线数据存储
HDFS、Hive、HBase
实时数据存储
Kafka、Pulsar
流批一体存储
IceBerg、Delta、Hudi
数据计算
离线计算
Spark、Hive、
MapReduce
实时计算
Storm、Flink、
SparkStreaming
3.3-架构拆解三:大数据资源管理与调度
资源管理
YARN、Mesos
大数据集群运维
Cloudera Manager、Ambari
调度系统
Oozie、Azkaban、
Airflow、DolphinSched-
uler、Xxl-job
3.3-离线调度框架选型对比
定位
Xxl-job
一个轻量级分布式的任务
调度框架
Java
DolphinScheduler
解决数据处理流程中错综复杂的依赖关系
Azkaban
为了解决Hadoop的任务
依赖关系问题
Airflow
通用的批量数据处理
Oozie
管理Hadoop作业(job)的工作流程调度
管理系统
自定义任务类型支持
需要java先开发具体执行器
任务类型支持
支持传统的shell任务,同时支持大数据
平台任务调度:MR、Spark、SQL
(mysql、postgresql、
hive/sparksql)、python
Command、Hadoop-
Shell、Java、HadoopJa-
va、Pig、Hive等,支持插
件式扩展
Python、Bash、HTTP、
Mysql等,支持Operator的
自定义扩展。
统一调度hadoop系统中常见的mr任务启动、
Java MR、Streaming MR、Pig、Hive、
Sqoop、Spark、Shell等
可视化流程定义
无,可配置任务级联触发
无
任务监控支持
任务状态、任务类型、重试次数、任务运
行机器、可视化变量等关键信息一目了然
不能直观区分任务类型只能看到任务状态
所有流定时操作都是可视化的,通过拖拽
来绘制DAG,配置数据源及资源,同时对
于第三方系统,提供api方式的操作。
是
是
是 是是 是
暂停/恢复/补数
支持暂停、恢复操作
否
否 否 否
通过自定义DSL绘制DAG并
打包上传
通过python代码来绘制
DAG,使用不便
配置相关的调度任务复杂,依赖关系、时间触
发、事件触发使用xml语言进行表达
过载处理能力
任务队列机制,轮询
任务队列机制,单个机器上可调度的任务
数量可以灵活配置,当任务过多时会缓存
在任务队列中,不会操作机器卡死
任务太多时会卡死服务器 任务太多时会卡死服务器 调度任务时可能出现死锁
任务状态、任务类型、任务运行机器、创建时
间、启动时间、完成时间等。
多租户支持
dolphinscheduler上的用户可以通过租
户和hadoop用户实现多对一或一对一的
映射关系,这对大数据作业的调度是非常
重要。
支持暂停、恢复 补数操作
只能先将工作流杀死再重新运行
否
只能先将工作流杀死再重新运行 Oozie支持Web,RestApi,Java API操作
支持启动/停止/暂停/恢复/重新运行:
高可用支持
调度中心HA和执行器HA 去中心化的多Master和多Worker
-但Web Server存在单点故障
风险
-但Scheduler存在单点故障
风险
通过DB支持HA
支持HA 支持HA
支持
通过DB支持HA 通过DB支持HA
否 否 否 否
集群扩展支持
调度器使用分布式调度,整体的调度能力
会随集群的规模线性增长,Master和
Worker支持动态上下线
是
新注册执行器即可 -只Executor水平扩展 -只Executor水平扩展
是 是 是 是
3.4-架构拆解四:数据查询
OLAP查询
Impala、Presto、
Clickhosue、Doris、
StarRocks、TiDB、
GreenPlum、SparkSQL
实时KV查询
IHBase、Kylin、Druid、
Redis、MySQL
3.4-OLAP查询引擎选型对比
定位
Presto
MPP系统,SQL
on Hadoop
Druid
SQL支持程度
非常完善
一般
查询延时
较完善
生产数据成本
低
低
中
支持join
支持
位图索引查询、编码。预聚合
技术,但是只聚合最细的维度
组合,在此基础进行聚合
不够成熟,维度lookup支持
Doris
较完善
中
一个 MPP 的 OLAP 系统,对多维查询分
析提供支持,主要整合了 Google Mesa
(数据模型),Apache Impala(MPP
Query Engine) 和 Apache ORCFile (存
储格式,编码和压缩) 的技术
相较于Clickhouse,Doris还能支持各种
主流分布式join,不仅支持大宽表模型,还
支持星型模型和雪花模型
支持
Clickhouse
较完善
中
明细动态聚合查询
物化视图
明细查询较低,单表查询性能
高,Join在一些情况下性能不佳
物化视图查询延迟非常低
有限支持
GreenPlum
非常完善
中
一个开源的大规模并
行数据分析引擎
一般,小查询会极大
消耗集群资源,无法
实现高效并发查询
支持
Impala
较完善
一般
低
支持
Kylin
非常完善
非常低
高
完全预聚合立方体
支持
是一种 SQL on Hadoop 解决
方案,使用 MPP 数据库技术来
提高查询速度
01-数据仓库概述
定义:数据仓库是基于大数据平台的存储引擎、存储格式(Hive、Delta Lake等),基于维度建模方法建设的结构化数据集合,目的是为所有类型的数据支
持提供数据环境
02-数据仓库技术选型
适用于
传统数仓
(SQLServer、Oracle
等关系型数据库)
Hadoop数仓
MPP数仓
(以GreenPlum为例)
在复杂关联、汇总、
事务处理方面能力
强,适合数据量小、
高可靠、数据价值密
度高的应用
适合结构化数据的深
度分析、复杂查询以
及多变的自助分析类
应用、数据集市等
适合海量数据存储查
询、批量数据ETL、
非结构化数据分析等
产品特点
基于Oracle、
SQLServer、MySQL
等关系型数据
MPP架构、TB级处
理,支持大量运算;
关系型数据库
Hadoop架构、
HDFS、MR和
Hive,支持海量运
算;非关系型数据
库;TB或更大数据
量,并发多的场景
应用目标
面向主题设计的,为
分析数据而设计
在传统数仓之上搭建
并行数据库系统。充
分发挥计算机的优
势,提高数据库系统
的整体性能
分布式数据库系统主
要目的在于实现场地
自治和数据的全局透
明共享,而不要求利
用网络中的各个节点
来提高系统处理性能
数据处理速度
利用处理过程的中间
表,分析查询速度可
比原有速度提高3~5
倍
相比传统数仓,速度
为几倍至几十倍
相比传统Oracle数
仓,速度为几倍至几
十倍(瓶颈阈值高于
MPP数仓)
性能拓展
单表上亿,性能断崖
式下跌,拓展性能差
性能可随着硬件的扩
容呈线性增加,拥有
非常好的可扩展性,
扩展上限为几百
支持量高的动态扩
容,扩展上限为几千
适用数据类型
多适用于结构化数据
关系数据方面有优
势,比较适合比如电
信、银行这类数据主
要以结构化存储的企
业或组织
可以基于Hadoop开
发处理结构或非结构
化数据的应用,适用
于互联网领域
成本
软件费用+实施费用,
成本较低
每2~3TB一个节
点,硬件配置不用太
高,GP产品免费,
但实施优化单价较
高,成本中等
需要大量的节点支
持,实施人员需要专
业对口,同时需要对
应的非通用sql支
持,成本较高
性能优化
技术角度:模型优化、
查询执行计划。业务角
度:全量刷新改增量刷
新,减少计算量;充分
利用已计算的指标
优化的大致原理有2个:
一是数据分块存储,便
于数据的存储和管理;
二是中间处理,提高数
据提供的速度。
Hadoop性能调优不仅
涉及Hadoop本身的性
能调优,还涉及更底层
的硬件、操作系统和
Java虚拟机等系统的
调优
实施难度
难度普通,
技术比较成熟
难度中等,
较成熟
实施难度高,
要求较高
运维难度
相对简单
中等
较难
03-数据仓库架构体系
数仓应用
数据
仓库
异构数据源
数仓
管理
分层建模
业务建模
DM/APP(数据集市/数据应用层)
DWS(聚合数据层)
DWD(明细数据层)
业务模型
业务日志 CRM/ERP 埋点上报数据 三方数据
……
业务数据库
MySQL/MongoDB
元数据管理
数据血缘管理
权限管理
资源管理
业务模型 业务模型
BI报表 Dashboard OLAP分析
数据实时
查询服务
精细化
运营系统
……
04-数仓建设流程
业务过程和指标梳理 - 逻辑分层建模 - 物理建模
1.调研业务过程
根据业务需
求,梳理业务
的主要过程,
梳理用户核心
路径
2.建立业务指标体系
根据主要业务
过程,梳理必
须的指标体
系、维度和属
性
3.划分数据域
根据主要业务
过程,抽象提
炼出一个个的
业务主题,对
数据做好归类
4.定义维度与总线矩阵 5.数仓分层
定义清晰的数
仓分层规范:
一般将数仓分
为
ODS/DWD/
DWS/D-
M/APP多层
6.数据建模
依据建模规范
和总线矩阵,
实现对数据分
层建模
7.数据治理
持续提升数据
的准确性、一
致性,提升可
用性
明确业务过程与
哪些维度相关,
并定义每个数据
域下的业务过程
和维度
01-数据湖物理存储层
Data Storage
S3
OSS COS Ceph MinIO
GCS Azure Blob
And more ...
02-数据湖文件格式
数据湖文件格式更面向列,并使用附加功能压缩大文件。这里的主要参与者是 Apache Parquet、Apache Avro 和 Apache ORC
ORC。它是物理存储,实际文件分布在存储层的不同 Bucket 中。文件本身支持 split 拆分和 schema evolution。
Avro Parquet ORC
Schema
Evolution
Compression
Decomposable
Platforms
Row or Column
Read or Write
Row
column column
Write
Read
Read
Kafka、Druid、Spark、
Presto、Trino、Arrow
Spark、Presto、Trino、
Arrow、 Druid
Hive、 Presto、Trino、
Spark、 Druid
03-数据湖表格式-功能特点
直接在分布式文件上提供 Merge Into、Update 和 Delete 操作。除了 SQL,有些还支持 Scala/Java 和 Python API。
ACID 事务确保所有更改都成功提交或回滚。确保永远不会以不一致的状态结束。有不同的并发控制,例如保证读取和写入
之间的一致性。
数据湖表格式会将存储在数据湖中的大数据版本化并形成多版本。可以访问该数据的任何历史版本,在意外写入或删除错
误的情况下回滚数据。
随着时间的推移摄入的小文件会增加,但查询数千个小文件很慢,文件布局优化可以将文件碎片重新整理为更大的文件,
从而在许多方面提高性能。
数据架构无需在批处理和流式中区分——它们都以相同的表视图对外暴露,复杂性更低,速度更快。无论是从流还是批处
理中读取都能获取一致的数据快照。
Table format 的一个关键特性,意味着在不破坏任何内容甚至扩大某些类型的情况下添加新列。
DML和SQL支持
Schema Evolution
ACID 事务、回滚、
并发控制
时间旅行
文件布局优化
统一批流处理
04-数据湖、数据仓库和Lakehouse的区别
Lakehouse是数据湖和数据仓库的组合,与数据湖相比,Lakehouse集成了计算框架和SQL查询引擎,
添加了数据治理能力,支持Catalog表管理和先进的作业编排。
仓
OLAP/HTAP数仓
?
Lakehouse Streaming
Warehouse
湖
Hadoop数据湖
流
Streaming
Processing
Data Lake
Lakehouse
Delta、Tabular/Iceberg、Hudi
S3、GCS、ABS、HDFS
Parquet、ORC、Avro
Spark Platform
(Databricks、Amazon EMR)
SQL Query Engine
(Starbust/Presto/Trino、Hive、
Dremio、 Databricks Photon)
DS/ML Platforms
(Pandas、Dask、Anyscale/Ray、
PyTorch、……)
05-业界进展(Databricks 2.0)-湖上建仓
Data
Warehousing
Data
Engineering
Data
Streaming
Data
Science and ML
数据仓库
Spark
ADLS
S3
GCS
Photon
MLFlow
Unity Catalog
Delta Lake
Redash
……
数据工程 数据科学
……
Databricks
Lakehouse Platform
场景化构建
批流一体引擎
统一元数据
数据湖格式
数据湖存储
Unity Catalog
Fine-grained governance for data and AI
Delta Lake
Data reliability and performance
依托Delta Lake 提供湖上建仓的能力
Spark作为
统一引擎提供批流一体处理能力
提供各数据处理
场景化需求
开放式存储/格式
Cloud Delta Lake
All structured and unstructured data
Microsoft
Azure
06-Lakehouse - 演进路线
3种主流开源技术 Unifed Data Infrastructure (2.0)
2021年Lakehouse技术首次进入Gartner成熟度曲线
Sources
Ingestion
and Transport
Storage
Query and
Processing
Transformation
Analysis and
Output
Onehouse
2016 Hudi
Tabular
2017 Iceberg
Databricks
2019 Delta Lake
ICEBERG
07-Lakehouse-设计原则
功能性
设计要素
非功能性
设计要素
DataLake
弹性高可用
加强的
数据治理
尽量少的
数据冗余
高并发支持
运维可观测
高开放性
全数据类型
事务和数据
一致性
存算分离
一体化架构
08-DB 数据入仓/湖
(1)
(2)
(3)
MySQL
数据湖
数据湖
数据湖
MySQL
MySQL
CDC
CDC
DTS
Flink CDC
T+1 数据新鲜度提升到 5 分钟。
用户可选择 cdc-connector 直接将 DB 数据
导入数据湖,不依赖任何第三方 service;
也可消费消息队列(Kafka)中的数据将数据
入湖。
09-近实时OLAP
分钟级数据新鲜度,开放的查询引擎
JOIN AGG
数据湖
10-近实时 ETL
全链路增量ETL,中间表可查,可增量导出到 service 存储。
数据湖 数据湖
ODS DWD
数据湖
分析服务
DWS
11-构建湖仓一体
数据源
MySQL Pulsar
Oracle Kafka
Redis ……
贴源层
ODS
汇总层
DWS
集市层
ADS
流任务
API服务
自助取数
第三方数据
集市结果库
批任务
快照查询
增量查询
01-云原生大数据带来大数据使用和运维方式变化
传统模式
资源独占,峰值不满足,平时有空闲 资源按需调用,资源池统一调度
一键开通,按需部署,统一运维
集群搭建耗时耗力,运维孤岛和数据孤岛
云原生大数据是大数据平台新一代架构和运行形态。是一种以平台云原生化部署,计算云原生调度,存储统一负载为特
点,可以支持多种计算负载,计算调度更弹性,存储效能更高的大数据处理和分析平台。
业务1 业务2 业务3 业务4
云原生模式
业务1 业务2 业务3
统一 Portal
云原生大数据组件管理和发布
业务4 n
Flink 集群
数据管理
运维管理
节点
运维1
数据管理
运维管理
节点
运维1
数据管理
运维管理
节点
运维1
Spark 集群 Kafka 集群
02-云原生大数据功能架构图
三层(平台服务层、核心引擎层、资源调度层)一平台(运维管理平台)
平台服务层
运维管理平台
插件化计算引擎是多场景集成的关键
元数据管理
集群管理
组件管理
日志审计
监控报警
容灾管理
多环境管理
项目管理
数据源管理
租户和用户
管理
数据网关服务
权限管理
作业开发 任务调度
生态整合服务
核心引擎层
云原生 Flink
资源调度层
多云部署和调度 统一资源池 云原生 YARN 云原生 Operator
云原生 Spark
云原生消息
引擎
实时服务分析
引擎
统一存储(HDFS 或对象存储)
云原生日志
搜索
兼容 HDFS 语义
公共云 容器服务
私有云 开源 K8s
TOS 透明加速 缓存加速 数据湖管理
计算引擎可插拔化设计,灵活配置选用
开源组件插件化集成设计
统一计算资源调度
跨云资源配额管理,跨域业务高可用
计算负载统一调度,在离线混部
兼容YARN资源负载,平滑迁移Hadoop负
载
统一引擎云原生生命周期管理
统一存储资源负载
增强HDFS服务,适配对象存储,跨多云
容灾增强
消息队列、数据湖,数据仓,日志服
务,存算分离统一存储,减少数据复制
03-平台服务层:开放和插件化集成,尊重用户使用已有工作习惯
信息门户 数据工程 数据科学
开源大数据探索分析、可视
化报表平台。
Hadoop 集群权限框架,管
理基于 YARN 的 Hadoop
生态圈的所有数据权限。
一款基于 Web的Notebook
产品,能够交互式数据分析。
开源大数据元数据管理和数
据治理平台。
分布式数据工作流任务调度
系统,主要解决数据研发
ETL 错综复杂的依赖关系。
一站式元数据治理平台。
开源工作流管理平台。
数据科学集成环境。
端到端开源机器学习平台
用于并行和分布式 Python
的开源项目
04-核心引擎层:计算引擎和云原生深度融合,向自动调优方向演进
部署和管理 K8s 集群
应用自己管理容器和镜像
Phase 1
资源池化:对底层k8s资源无感知
资源混部:在离线作业共享集群
资源
只关注作业资源的额度和并行度
平滑演进:YARN作业和K8s作业
混部
Phase 1
虚拟队列:支持跨集群和机房作业
自动调度
利用闲置资源:利用超发和驱逐机
制,利用空闲资源
引擎半自动调优:利用智能团队推
荐任务配置参数,人工确认下发
Phase 3
全局自动容灾:实现跨机房自动调度
和容灾
资源自动优化:没有负载的时候资源
使用可以减低到0;毫秒级的冷启动延
时
引擎自动调优:混合不使用AI技术优
化使用资源,包括计算网络和内存
Phase 3
05-核心引擎层:存算分离,统一存储,多种负载
云原生数据湖
Kubernetes 集群 A
资源池1 资源池2 资源池3磁盘1 磁盘2 磁盘3
Kubernetes 集群 B 对象存储(S3) Kubernetes 集群 C
云原生数据仓 云原生消息队列 云搜索引擎
统一管理和调度 存储能力共用
统一数据权限,降低安全风险
统一资源调度和复用
统一数据 Copy,减少数据卸载
统一数据容灾,保证高可靠要求
存算分离负载
降低扩缩容和数据 Rebalance 时间
增强对请求响应能力
管理和调度
1
2
3
06-云原生调度层1:两种不同的云原生化演进方式
Serverless YARN,兼容 YARN 提交方式,业务平滑演进
YARN 和 K8s 混合调度
原有大数据作业少量修改,平滑业务迁移
云原生 Operator
计算引擎Flink,Spark全生命周期管理,支持
批量作业重启策略
更精细的采集日志信息,跟踪作业运行状态
07-云原生调度层2:统一资源管理形成全局资源湖
资源池管理
队列属性:设置资源池 Min-Max 属性
更强的调度策略:任务优先级调度、GANG 调度和 DRF 调度
更好的隔离控制:限制每个 Pod 的 CPU 时间片和内存使用量
更灵活的资源使用方式:空闲资源利用和队列抢占
全局资源湖
ResLake 具有资源的全局视图、全局资源池和 Quota
管控
不限机房、不限集群,以最优化资源利用率为最终的调
度目标
08-运维管理平台
全链路监测
Helm Chart
Operator
云原生计算运维增强
服务组件渲染 集群扩缩容
集群信息统计
容灾设置
容灾切换
多环境管理
服务发布管理
服务状态管理
容器日志采集
Web Shell
开源组件管理 服务生命周期管理 集群管理 容灾管理
监控 日志 告警 审计异常监测
09-用户场景和价值1:多种计算业务资源混合部署调度,提升资源利用率
高效资源切换 利用率提升
数万核离线资源分钟级出让
降低 Overhead,带来单机 2%
利用率提升
在离线统一
在离线资源全量共池,Quota
管控、调度、运行、机器运维统一
业务场景 在线 流式 (近线) 离线训练 查询分析 批处理
业务特点
运行时长
核心指标
Task模型
优先级
长期运行
响应时间
平铺
高
长期运行
消费积压
DAG
高
天级
吞吐量
DAG
中/低 中/低 中/低
分钟小时级 分钟小时级
运行时长
DAG
吞吐量
DAG
用户场景
客户价值
10-用户场景和价值2:多云部署和调度,实现多云成本最优复用,跨云队列容灾
提供全局虚拟队列
虚拟队列,对应不同机房和集群的多个队列
自动分发到合适的机房/集群/队列
应用按多因子综合选择流量分配
考虑多种负载因素,机房负责情况,响应时间,成本等
自动分发到合适的机房/集群/队列
数据集成
数据治理
01-数据集成概念
数据集成:数据集成是指将来自不同来源的数据合并到一个统一视图中的过程,该视图应用在下游数据分析和数据应用
数据集成价值:消除企业信息孤岛,实现数据集中共享,进而实现数据治理和数据应用的重要手段。
数据上报
数据清洗
数据分发 数据库同步
02-数据集成应用场景
主数据应用
实现企业各应用系统之间共享的数据,强调单一数据视图,通过整合多个数据源,形成主数据的单
一视图,保证单一视图的准确性、一致性以及完整性,从而提供数据质量。一般统一业务实体的定
义,简化改进业务流程并提升业务的响应速度。
大数据
迁移上云
快速迁移云下数据至云上存储,解决业务数据上云中遇到的技术、成本、人力等问题。上云迁移过
程支持全量、增量方式,具备数据源类型丰富、简单易用、安全可靠、轻量灵活等优势。
数据入仓入湖
/交互分析
基于大数据云服务的弹性和按需能力,通过快速连接云下自建/云上数据源进行采集同步、清洗转
换、开发分析、治理及建模,帮助用户轻松快速完成数据入仓入湖和业务数据分析,有效实现数据
价值最大化。
数据工程
与科学平台构建
数据集成提供了开放的技术能力,可与统一调度、元数据管理等技术/产品服务深度融合,为企业
数据平台提供可靠技术底座和核心能力支撑,帮助企业搭建先进灵活的平台架构以更好应对快速变
化、日益增长的业务数据需求
03-数据集成企业案例
全链路数据平台
某小型互联网客户:构建数据平台
离线数仓与数据同步
离线数据开发与调度
元数据、数据资产管理与治理
个性化推荐
用户洞察
商品/订单/库存数仓数据开发
企业云原生数据湖构建
多种同步方式,多种数据源快速搭建
云数据湖
实时数据秒级同步iceberg,完成冷
热数据计算
方案架构
应用场景
某传统企业客户:构建数据湖
信息采集 日志分析
实时数据入湖 业务预测
方案架构
应用场景
04-数据集成技术——数据采集
方案
Apache Flume
LogStash
Fluentd
logtail
Filebeta
架构
文件采集
包含input、Filter、output组成
prospector和 harvesters
包含Input、Parser、 Output、
match、Formatter、Buffer
阿里云日志服务的生产者,
为阿里公有云用户提供日志收集服务
由source,channel、sink组成。
多个Agent可以组成调用链
特点
灵活性高,支持很多插件
没有任何依赖,占用资源极少,可靠性高
fluentd设计简洁,pipeline内数据传递可靠性高。
采用C++语言实现,对稳定性、资源控制、
管理等下过很大的功夫,性能良好
支持一个Agent中有多个不同类型的channel和sink,
可以选择把Source的数据分发给不同的目的地
05-数据集成技术——数据采集
方案
采集机制
增量同步
断点续传
全量+增量
全量同步
生态
DataX
查询
×
Canal
日志
Sqoop Kettle Debezium
数据库同步
查询
查询
日志
×
×
×
×
×
×
×
×
06-数据集成技术——数据建模
国外:Dtb labs(已成默认技术选择)
将数据处理逻辑拆分在多个SQL文件中
使用测试来提前发现数据质量问题
生成文档&数据的依赖关系图
国内:QuickTable 快表格
使用电子表格的界面
无代码
比较项
数据时延
TPS
过滤消费
数据可靠性
数据副本同步策略
TubeMQ
高,14W+/s
支持服务端过滤和客户端过滤
非常低,10ms
无,通过RAID10磁盘备份 +
低时延消费解决
配置可管理性
一般,热备存储,中心化管理,
API或页面操作
系统稳定性
高,已线上运营近7年,每天33万亿的
数据量,已做到单集群400台Broker
的线上运营规模
易用性 一般,只提供Java和C++的Lib
一般(单机磁盘故障未消费数据
存在丢失风险)
Kafka
一般,10W+/s
客户端过滤
比较低,250ms
多机异步备份
一般,基于zk配置管理,
API或页面操作
一般,性能随Topic数增多出现不稳定
情况,没有超大数据运营规模场景
高,有很多配套插件使用
一般(主机磁盘故障未同步的
数据存在丢失风险)
07-数据集成技术——消息队列
Pulsar
高,14W+/s (高性能场景)
客户端过滤
非常低,10ms
多机异步备份(高性能场景)
一般,基于zk配置管理,
API或页面操作
一般,高压下存在性能下降、
服务受阻等情况
高,有很多配套插件使用
高
08-数据集成应用场景
行业百家争鸣
云厂商专注生态方案
开源项目齐头并进
国内市场
阿里云 Data Integration、腾讯云 DataInLong、华为云 ROMA、DataPipeline
国外市场
Google Data Fusion、Google Data Fusion、AWS Glue、Fivetran、Azure Data-
Factory、DBT、Airbyte
开源
Apache InLong、Apache Seatunnal、Apache Gobblin、DataX、Flink CDC、
FlinkX (chunjun)
09-数据集成商业模式
Fivetran
14天的免费试用
按量计费:以从数据源转移到目标数据的行数
作为计价的依据。每一个数据等级上又定价分
为5个等级,在安全、扩展性、还有支持的待遇
上都有提升
dbt Labs
dbt CLI(开源):本地运行的命令行程序(
开源)
dbt Cloud(非开源):SaaS云版本,个人
版本免费,团队版本的定价为50美金一个开
发者席位。
Airbyte
作为开源产品,企业客户可以自己安装部署
云上版本:采用credit方式,按照同步所用
时间进行计费——其竞争策略之一,不做用
量上的限制客户体验更好。
10-数据集成挑战
成本和实效
海量数据
多目标存储
时效性要求
数据链路管理
数据源兼容
任务隔离、容错
数据对账
数据质量
异构数据源
丰富的数据格式
多阶段数据链路
11-数据集成趋势
多云和跨云数据源
云原生技术和云市场不断成熟,多云、跨云、多集群部署已经成为常态
从 ETL 向 ELT 发展
ETL:每条ETL管道都是一个复杂的、定制的解决方案,敏捷性低,维护成本高
ETL:数据建模从一次性操作变得越来越即时和高频,转换的步骤被移到最后
中心化的自治能力
更加标准化、一体化,提供更多数据工具降低使用门槛
批流一体的数据集成
使用同一套 API、同一套开发范式统一离线与实时数据集成,简化数据链路,
降低系统/人力成本
01-数据治理解决的问题
01
数据开发与数据治理脱节
02
烟囱式的数据开发
03
不同平台缺少统一的管控
04
治理过程缺少可量化的
监控
05
对数据的成本和价值缺少
精细化的管理
06
数据治理缺少闭环
02-数据治理体系
方法论、工具
流程
制度
管理
根据数据治理的需求场景、结
合数据治理产品工具,将流程
建立在工具的基础上,制度建
立在流程的基础上,管理建立
在制度的基础上,形成全链路
的数据治理体系。
03-数据治理工具 – 整体方案
数据消费者
资产责任人
(个人视角)
项目负责人
(管理者视角)
治理负责人
(治理视角)
用户视角
产品工具层面,将整个数据治理流程贯穿各个子产品,沉淀一套全链路的数据治理工具体系。
数据资产地图
元数据管理
(注册/采集/变更等)
数据资产目录 数据地图
元数据中心(仓内/仓外)
我的数据
开发治理一体化
治理流程和消息通知
流程引擎
流程设计 流程审批
消息通知企业组织架构
“先设计” “再开发”
数据标准 模型设计
指标管理 主数据等…
数据传输 数据开发
数据质量 数据安全等
大数据健康评估与优化
数据健康
评估体系
数据治理工作台
质量治理
专题治理…
规范治理
价值治理
成本治理
安全治理
04-数据治理工具 – 开发与治理一体化
数据开发与治理一体化强调“先设计、后开发、先标准、后建模”,通过指标和数据标准的定义实现“规范即设计,设计即开发,开发即治
理”的开发治理一体化理念。
安全中心 数据质量
数据标准数据调研
需求阶段 设计阶段
指标设计 模型设计 数据传输 自助分析 离线开发 数据服务
开发阶段 交付阶段
数据处理规范
(字段映射、按格式处理)
字段类型映射规范
(快速建表)
数据安全等级 稽核规则定义
稽核规则推荐
表、字段命名、分类、数据
格式规范业务指标定义
05-数据治理流程 – 规范建模
设计阶段,进行标准化的规范建模保证数据模型的规范化、提高数据资产化水平、提升数据质量。
业务元数据
模型设计中心
数据元/标准字典
国家标准
指标域
行业标准
企业标准
业务部门核心数据
金融产品条线
财富域
资管域
信息披露
财富与机构条线
风险管理总部
交易风控条线
金融市场部
...
原子指标/派生指标/复合指标
06-数据治理流程 – 元数据资产治理
在元数据管理中将业务元数据、技术元数据、管理元数据补充完整,然后根据元数据的治理发布流程将元数据发布上线。同时配合
数据资产中心的资产健康诊断以及基于ROI的数据资产精细化管理,对数据资产的健康情况和使用情况进行实时的观察,识别并了
解有价值的资产。
模型设计
元数据 新建态 草稿态 发布态
数据资产展示
采集 注册 发布 展示
数据资产健康分数据资产费用
数据治理360
数据治理管理员
数据开发
数据质量
数据安全
…
业务元数据
技术元数据
管理元数据
07-数据治理流程 – 湖外数据治理
IT中台运维团队
登记数据源
发起发布申请
是否
发布至资产门户 浏览搜索资产
发现问题,发起治理申请
发起治理申请
接收治理工单
完善元数据信息
提交完成治理工单
数据治理管理员
提交数据治理需求
创立元数据采集任务
采集的表注册为元数据
数据治理专员
(业务/技术部门)
业务人员
湖外的数据治理流程
是否需要治理
08-数据治理流程 – 湖内数据治理
数据产品
新建注册元数据
发起元数据
发布申请
发起元数据
治理申请
是
否
浏览搜索资产
发现问题,发起治理申请
发布至资产门户
接收治理工单
完善元数据信息
提交完成治理工单
数据治理管理员
接收发布申请工单
数据治理专员
(业务/技术部门)
业务人员
湖内的数据治理流程
是否通过
是否
是否需要补全
业务/技术信息
09-数据治理制度 – 开发规范制度
开发规范制度为企业内部应用团队、业务团队、中台团队提供设计开发依据。
XX数仓设计开发规范
数据汇聚准备
元数据梳理
数据建模
数据调度
运营监控
模型开放
评估数据接入要求(表范围、存储、时效、频次、资源要
求)数据目录规划,人员职责确认、权限要求,数据链路打
通(数据库类型、权限、网络开通)
建模:按照中台模型设计要求配置主题域、新建表。包括表
分层分域要求、表命名、字段命名要求。(数据管理组提供
规范)
数据传输:数据源配置、目标表配置、监控规则配置、作业
上线(源端团队负责人审批)
模型开放:使用方发起模型使用申请,由源端团队模型负责
人审批,数据中心赋权
运营监控:源端运维人员负责日常监控
元数据梳理:按照模板梳理元数据(数据管理组提供)
10-数据治理制度 – 指标管理制度
指标管理制度明确指标模版,定义指标名称、类型、口径等录入规范。
XX物流:指标管理制度
制度保障体系化管理
内容支持自定义
指标基本信息
指标名称/指标类型/
指标域/责任部门等
指标口径定义
技术口径/业务口径等
指标血缘查询
计算指标依赖基础指标等,
指标树的管理
11-数据治理制度 – 数据质量管理制度
数据质量管理制度包括事前规则定义、事中质量监控、事后量化分析和问题追溯。
实体唯一性:证件类型+证件号码+姓名,表示同一客户
等值一致性:身份证号码倒数第2位(奇数是男偶数是女)
精度有效性:证券市值精度取值范围应等于2
标志取值有效性:退市标志的取值只能是1或0
事前需求和规则定义 事中质量监控 事后量化分析和问题追溯
梳理需求和规范定义
质量监控任务
质量报告
问题追踪
问题改进
绩效考核
模版规则
采样结果
数据治理团队
期望范围
异常数据标准推荐规则
自定义规则
12-数据治理管理 – 组织架构
在管理层面,建立了专门的部门来负责数据治理工作,完善组织架构、权责分担机制。
信息技术治理委员会
数据治理管理工作组
数据治理管理员 数据治理专员
业务治理专员
证券部 … …风险管理总部 金融产品条线 IT部合规管理部
技术治理专员
13-数据治理管理 – 运营与沉淀
数据治理不是一个临时性要做的工作,从数据生命周期的全过程到治理体系的健康运行,需要一个长效的治理机制来保证体系化的数
据治理。
资产治理闭环
解决手段
发现问题
持续运营
持续沉淀
配套专题优化工具:推荐下线、
生命周期管理、任务优化等
持续有抓手:至上而下推送公
司/项目/个人资产账单、治理红
黑榜、资产分与任务优先级&
预算申请挂钩
持续运营:数据治理大赛、业
务线专项治理活动
多维度的资产健康评估体系,
涵盖成本、标准、质量、安全
和价值
01-隐私计算发展历程
萌芽期
(1949年 - 1981年)
密码学概念
萌生,技术路
线尚不明确
主流技术相继
出现,应用方案
尚待探索
探索期
(1982年 - 2016年)
政策标准细化
完善,落地场景
逐步实施
增长期
(2017年 - 2025年)
稳定期
2025年~
应用规模
稳定增长
香农发表《保密系统的通信理论》《密码学
数学理论》正式开启现代密码学时代
随着非对称加密算法RSA出现,同态加
密的概念被首次提出
Diffie和Hellman提出公钥密码思想,
是现代密码学里程碑
Rabin首次提出不经意传输协议
1949 1976 1978 1981
Gentry首次提出一种基于理想格的全同
态加密算法;OMTP提出首个TEE标准
国内发布的《隐私计算研究范畴及发
展趋势》正式提出“隐私计算”一词
;
谷歌提出联邦学习概念并使用安卓手
国际学术正式提出“隐私增强技术”概
姚期智院士提出“百万富翁”问题
,奠定了多方安全计算的理论基础
Goldreich对安全多方计算进行讨论,
提出安全多方计算协议
2016 2009 2001 1987 1982
国际同态加密标准委员会成立,标志
着同态加密在全球进入高速发展阶段
杨强教授团队提出联邦迁移学
习并发布FATE开源系统
《关于构建更加完善的要素市场化配置体制机制的意
见》首次提出数据作为一种新型生产要素参与分配
百度发布MesaTEE解决方案 应用规模稳定增长……
《要素市场化配置综合改革试点总体方案》提出探索“原始
数据不出域、数据可用不可见”的交易范式;
蚂蚁集团牵头,发布隐私计算开源框架“隐语SecretFlow”
2017 2018 2019 2020 2022 2025
02-隐私计算知识体系
第一层:计算安全
概念前瞻
基础技术
应用技术
上手实践
行业案例
密态时代与隐私计算展望
多方安全计算
匿踪查询
联邦学习
高性能多方安全数据分析SCQL
“隐语”框架概览及设计思想
隐私计算安全攻防: 系统攻防 隐私计算安全攻防:算法攻防
可信密态计算 Occlum技术架构和设计思想
基于多方安全计算的机器学习
机密计算与可信执行环境
同态加密
零知识证明
隐私求交
差分隐私
针对Node分类的纵向联邦图神经网络
纵向联邦XGB算法
拆分学习
隐私计算技术全局概览
推荐
明密文混合编程实践
隐语开放平台 低门槛实践隐私计算
2021 中国信通院大数据“星河”-隐私计算优秀案例: DRGS付费体系下的隐私计算实践
2021IDC 国际金融创新奖: 联合建模扩大低风险客群,增强普惠信贷服务能力
后门攻击
数据投毒 存证审计 运维安全 认证安全
可解释性 算法公平 互联互通 权属界定 市场机制
网络安全 对抗样本 推断攻击
2022IDC 中国金融行业技术应用场景创新奖: 多方安全分析 智能理赔系统
通过OpenAPI快速集成“隐语”开展联合项目
“隐语”密态计算设备SPU背景与原理
推荐
隐私计算
基础理论
隐私保护
机器学习
硬件技术
开发实践
框架基础
智慧医疗
金融风控
保险查勘
第二层: AI安全/系统安全
第三层:生态安全
03-隐私计算技术对比
MPC
随机数
经典MPC模式
MPC
数据 数据
梯度
经典联邦学习
计算节点计算节点
数据
数据
优势
中等
劣势
安全性
开发成本
运维成本
计算精度
计算性能
数据参与方
数据控制力
硬件成本
信任根
学术界严谨安全证明支撑,目前实现多局限于半诚实
满足通用运算能力,需研发投入,目前主要实现ML/SQL
离线态和在线态均需服务化
精度有微小损失,ML场景影响不大
百万/千万/亿级规模(带宽依赖)
数据提供方增多后性能有所下降,适用5方以下
数据控制力强
不依赖特殊硬件
无硬件信任根,国密化方案较为可控
需融入其它技术联合使用以实现数据安全保护效果
支持部分运算能力,需算法/研发投入,目前主要支持ML
离线态和在线态均需服务化
精度有微小损失,ML场景影响不大
千万/亿级规模(带宽依赖)
数据提供方增多后性能有所下降,垂直场景适用10方以下
数据控制力强
不依赖特殊硬件,部分算法可使用已有GPU资源
无硬件信任根,国密化方案较为可控
宿主机存在侧信道攻击风险,需关注RA和安全加固
理论上满足通用运算能力,可复用已有应用能力
离线态接入成本低,在线态需服务化
计算精度高,与明文一致
支持大规模,性能损失小
数据提供方增多后不会有明显性能下降
数据控制力较弱
硬件依赖,已有机器资源不可用
硬件信任根,国产化硬件成熟度待市场验证
无法抵御代理计算方共谋,代理方执行逻辑无法验证
满足通用运算能力,需研发投入,目前主要实现ML/SQL
离线态接入成本低,在线态需服务化
精度有微小损失,ML场景影响不大
千万/亿级规模(带宽依赖)
数据提供方增多后不会有明显性能下降
数据控制力较弱
不依赖特殊硬件
无硬件信任根,国密化方案较为可控
经典TEE模式
TEE
数据 数据
MPC代理(类华控清交4方代理)
代理计算方A
MPC
代理计算方B
MPC
代理计算方C
MPC
数据 数据
数据控制力强:数据提供方对数据的计算过程有强管控,细粒度的数据计算需要数据提供方介入,数据提供方可以随时停止数据使用
数据控制力弱:全量数据以加密/分片组合等形式集中式存储在远端,自己无法强管控,比如TEE突发漏洞泄漏密钥,数据提供方因为数据已经上传,无法即时止损
离线态:指训练阶段、大数据分析等,数据任务粒度较大,整体耗时较长
在线态:如联合预测,一般特征值需从机构方的某个在线服务/数据库实时获取,这些特征值的最新值可能有变动,则需按需读取
*注:
经典MPC模式、联邦学习模式的重要基石组成,是隐私计算性能加速的关键
PHE/LHE结合具体算法确实有成效,但通用FHE方案性能挑战大,硬件加速还在发展中
同态加密
可证明可衡量的保护个体隐私的技术(保护强度可调节,有严谨数学证明)
与上面所有技术路线可独立叠加
计算精度和明文比会有所下降;需结合具体算法流程设计;不保护数据使用价值
差分隐私
04-通用隐私计算框架
用户界面
资源管理
AI&BI
隐私算法
明密文
混合调度
明密文
计算设备与
原语
可视化操作界面
设备计算图
数据管理
计算管理 网络管理
MPC
设备
HE
设备
TEE
设备
TECC
设备
Python
解释器
SQL
执行环境
差分
隐私
脱敏
密文计算设备 明文计算设备 隐私保护原语
分布式调度引擎
多方安全计算 联邦学习 可信执行环境
开放编程接口
业务研发使用友好
平台开发接入成本低
隐私保护算法使用友好
提升算法开发效率
调度/编译器开放合作
共建明密文混合编程能力
密码/TEE/硬件/AI开放合作
共建密文计算能力和
隐私保护原语
业务交付运维友好
大规模高可用,部署运维成本低
营销应用
人群筛选
联合营销
画像
信用风控应用
授信
联合风控
提额
安全风控应用
反欺诈
联合风控
反洗钱
保险应用
核保
联合风控
核赔
医疗应用
诊断分类
联合诊断
诊断分析
政务
信用
一网通办
风控
应用场景
银行
政府保险公司
商家
支付机构
数据供应商
零售企业
医药企业
医疗机构
分布式数智网络
互联网平台
05-隐私计算应用场景
医疗
帮助医院降低核保工作量
服务某医院搭建运营管理数据融合平台,
提升疾病诊断分组管理效能,优化医保结
算,降低医保反馈分析工作量。
金融
参与银行普惠信贷探索
浦发银行通过多方数据的安全协同联合风
控,阻止数十亿高风险贷款发放,增加识
别30+万名低风险客户,扩大普惠信贷服
务范围。
保险
推动保险公司提高理赔效率
提供“多方医疗数据联合分析”解决方
案,支持某保险公司覆盖全国10+省份
医疗数据,提升其医疗理赔数字化水平
及核赔效能,提高用户理赔体验。
政务
助力政务平台提升管理效率
智慧城市建设带来大规模数据集中,支持
某政务平台各方数据全链路安全输出至政
府大数据部门,助力城市便利安全双效提
升。
06-隐私计算技术标准与白皮书
技术理念 功能框架 安全分级 互联互通 软硬结合产品
隐私计算金融应用调研报告
隐私计算白皮书
联合建模技术与应用研究报告
金融行业隐私计算应用风险与问题研究
联邦学习技术金融应用白皮书
多方安全计算金融应用现状及实施指引
金融行业隐私计算技术与应用研究报告
隐私计算与区块链技术融合研究报告
数据价值释放和隐私保护计算应用研究报告
隐私计算技术金融应用研究报告
隐私计算法律与合规研究白皮书
隐私计算应用研究报告(2022)
可信隐私计算研究报告(2022年)
隐私计算安全验证技术研究
隐私计算互联互通技术研究报告
金融数据要素流通技术与应用研究
隐私计算技术在金融应用研究-以个人金融信息保护和金融反欺诈为例
机密计算金融应用研究报告
ITU
F.748.13, Technical framework for shared machine
learning system
H.DLT-TEE, TEE based confidential computing on
distributed ledger technology system
ISO
ISO/IECPWI4922-3, Information security — Secure
multiparty computation — Part3: Mechanisms based
on garbled circuit
TC260,TC28
隐私计算技术应用指南标准草案
人工智能隐私计算机器学习系统技术要求
CCSA
隐私计算一体机技术要求
基于可信执行环境的安全计算系统技术框架
互联网广告隐私计算平台技术要求
隐私计算系统技术规范
IEEE
P2830, Standard for Technical Framework and
Requirements of TEE based sharedm achine
learning
P3156, Standard for Requirements of Privacy-pre-
serving Computation Integrated Platform
P2952, Standard for Secure Computing Based on
Trusted Execution Environment
P3181, Standard for Trusted Environment Based
Cryptographic Computing
P3169, 《Standard for Security Requirement of
Privacy-preserving computation》
积极参与北京金融科技产业联盟和中国信通院隐私计算联盟18项白皮
书的撰写工作,推进行业技术研究和产业发展
积极主导和参与40+项隐私计算标准,覆盖国际标准、金融行业标准、通标协行业标准、地方
标准、团体标准等