没有合适的资源?快使用搜索试试~ 我知道了~
EMR StarRocks 白皮书.pdf
需积分: 0 1 下载量 174 浏览量
2024-01-25
20:53:01
上传
评论
收藏 13.78MB PDF 举报
温馨提示
试读
24页
EMR StarRocks 白皮书.pdf
资源推荐
资源详情
资源评论
新⼀代极速全场景 MPP 数据仓库
产品解决⽅案
StarRocks
StarRocks
关于 StarRocks Inc⽬录
关于鼎⽯
StarRocks 新⼀代极速全场景 MPP 数据仓库
StarRocks 简介
05
01 02
StarRocks 架构
StarRocks 特性
21
22
23
24
33
35
37
39
41
43
06
07
数据迁移
数据摄⼊
湖仓⼀体
StarRocks X Flink ⽣态
StarRocks ⽣态与⼯具
固定报表业务
实时看板业务
实时⻛控业务
末端运营业务
⽤户画像业务
⾃主BI业务
StarRocks 场景解决⽅案
专业服务
StarRocks Inc. 是⼀家专注于⼤数据核⼼技术的⾼科技公司。⾃ 2020 年成⽴以来,专注打造世界顶级的新
⼀代极速全场景 MPP 数据仓库 StarRocks,帮助企业建⽴“极速统⼀”的数据分析新范式,助⼒企业全⾯数
字化经营。
数据是各⾏各业的关键⽣产⼒要素,StarRocks 相信数据科学的创新将全⾯驱动业务发展。StarRocks 全公
司研发成员占⽐ 70% ,持续以技术创新为客户创造更⼤业务成就。当前已经帮助携程、顺丰、Airbnb 、滴
滴、京东、众安保险等超过 110 家⼤型⽤户构建了全新的数据分析能⼒,⽣产环境中稳定运⾏的 StarRocks
服务器数⽬达数千台。
2021 年 9 ⽉,StarRocks 源代码开放。StarRocks 的全球社区⻜速成⻓,⾄今已有超百位贡献者,在
Github 上的星数已超过 2500 个,社群⽤户突破5000⼈,吸引⼏⼗家国内外⾏业头部企业参与共建。
StarRocks 致⼒于让⽤户⽆需经过复杂的预处理,就可以⽤ StarRocks ⽀持多种数据分析场景的极速分
析。StarRocks 架构简洁,采⽤了全⾯向量化引擎,并配备全新设计的 CBO 优化器,查询速度远超同类产
品,多表关联查询速度尤为出⾊。StarRocks 能很好地⽀持实时数据分析,并能实现对实时更新数据的⾼效
查询。StarRocks ⽀持现代化物化视图,以进⼀步加速查询。使⽤ StarRocks,⽤户可以灵活构建包括⼤宽
表、星型模型、雪花模型在内的各类模型。 StarRocks 兼容 MySQL 协议,⽀持标准 SQL 语法,全系统⽆
外部依赖,⾼可⽤、易于运维管理。
⽬前公司已获国际⼀线⻛险投资基⾦的数亿元投资,在美国硅⾕、北京、上海、杭州、⼴州、⻄安、成都等
多个城市设有分⽀机构。
StarRocks
MPP 数据仓库
新⼀代极速全场景
03 04
StarRocks 是⼀款极速全场景 MPP 企业级数据仓库产品,具备⽔平在线扩缩容,⾦融级⾼可⽤,兼容
MySQL 5.7 协议和 MySQL ⽣态,提供全⾯向量化引擎与多种数据源联邦查询等重要特性。StarRocks 致
⼒于在全场景 OLAP 业务上为⽤户提供统⼀的解决⽅案,适⽤于对性能、实时性、并发能⼒和灵活性有较⾼
要求的各类应⽤场景。
StarRocks 在设计之初就秉承了全新的设计理念,致⼒于在极致的性能体验下,满⾜⼤多数分析场景的需
求。⽬前 StarRocks 已在多个⾏业落地,在⾃助数据分析、实时数仓、⽤户画像、实时⻛控、订单分析等场
景都有优秀的表现。
StarRocks 简介
StarRocks 架构
StarRocks 的架构简洁,整个系统的核⼼只有 FE(Frontend)、BE(Backend)两类进程,不依赖任何外
部组件,⽅便部署与维护。同时,FE 和 BE 模块都可以在线⽔平扩展,在 FE 模块中,元数据通过类
Paxos 协议进⾏同步,在 BE 模块中,数据通过 Quorum 机制保证数据⼀致性,数据与元数据以多副本形势
存储,确保整个系统⽆单点。
Client Application
FE-Leader FE-Follower FE-observer
MySQL Protocol
Catalog Manager Catalog Manager
Query Coordinator Query Coordinator
Catalog Manager
Query Coordinator
BE BE BE BE
Execution Engine Execution Engine Execution Engine Execution Engine
Storage Engine Storage Engine Storage Engine Storage Engine
StarRocks
StarRocks 新⼀代极速全场景 MPP 数据仓库
Frontend 是 StarRocks 的前端节点,负责管理元数据、管理客户端连接、查询规划、查询调度等⼯作。FE
根据配置会有两种⻆⾊:Follower 和 Observer,其中 Follower 会通过类 Paxos 的 BDBJE 协议选主出⼀
个 Leader(实现选主需要集群中有半数以上的 Follower 实例存活)。只有 Leader 会对元数据进⾏写操
作,⾮ Leader 节点会⾃动将元数据写⼊请求路由到 Leader 节点。每次元数据写⼊时,必须有多数
Follower 成功才能确认是写⼊成功。Observer 不参与选主操作,只会异步同步并且回放⽇志,主要⽤于扩
展集群的查询并发能⼒。每个 FE 节点都会在内存保留⼀份完整的元数据,这样每个 FE 节点都能够提供⽆
差别的服务。
Frontend
Backend 是 StarRocks 的后端节点,负责数据存储以及 SQL 计算执⾏等⼯作。StarRocks 的 BE 节点都是
完全对等的,FE 按照⼀定策略将数据分配到对应的 BE 节点。在数据导⼊时,数据会直接写⼊到 BE 节
点,不会通过 FE 中转,BE 负责将导⼊数据写成对应的格式以及⽣成相关索引。在执⾏ SQL 计算时,⼀条
SQL 语句⾸先会按照具体的语义规划成逻辑执⾏单元,然后再按照数据的分布情况拆分成具体的物理执⾏单
元。物理执⾏单元会在数据存储的节点上进⾏执⾏,这样可以避免数据的传输与拷⻉,从⽽能够得到极致的
查询性能。
Backend
columnar storage
Executor
(Worker)
columnar storage
Executor
(Worker)
Source SMT
SR Migration Tool
JDBC ODBC H5 APP BI API
Mysql Query
FE ETL
BE
BE
BE
BE
Praser
Analyzer
Transformer
Rewriter
Optimizer
Bdbje MV
View
ETL
Catalog
CBO
columnar storage
Executor
(Worker)
columnar storage
Executor
(Coordinator)
manger
For Operations
HA,Backup&Recovery
CrossData Center Replication
For Availability
Flexible Computing
Disaggregated Storage&Compute
For Cloud Native
SR-Studio
SR-Explorer
For Developer & Analyst
OSS
05 06
兼容 MySQL 协议和 MySQL ⽣态
StarRocks ⽀持标准 SQL,兼容 MySQL 协议,周
边⽣态接⼊性良好,可以使⽤ MySQL 客户端⼯具及
适配各类主流 BI ⼯具。StarRocks 提供丰富的数据
接⼊⽅式及 MySQL 常⽤的功能,⽀持标准 SQL 语
法,包括聚合、关联、排序、窗⼝函数和⾃定义函数
等功能,应⽤⽆需或者少量修改代码即可从 MySQL
迁⼊ StarRocks,减少对业务的侵⼊性。
活跃社区⽣态
StarRocks 社区是由⽤户、开发者、Contributor、
StarRocks 爱好者、合作伙伴等⼀起建⽴起的分享学
习平台。社区秉持开放、⾃由、共建、共创等理念,
与参与者共同打造活跃的 StarRocks 社区⽂化,为
社区参与者提供知识分享平台、问题答疑平台及
StarRocks 相关内容分享平台。
实时分析能⼒
StarRocks 具有优秀的实时分析能⼒。通过消费上游
的 Kafka 数据源,StarRocks 可以提供秒级的数据
写⼊能⼒,实现数据即导即⽤。针对流批计算框架,
StarRocks 提供了 flink-connector,完成实时导⼊
中的 ETL 操作。同时,StarRocks 也具有优秀的实
时更新能⼒,可以快速完成数据的更新请求。
⾼并发分析查询能⼒
数据分区分桶存储后,可以提⾼数据的指向性,有效
减少扫描的数据量。通过 MPP 架构的优化,可以更
灵活的根据数据量调整资源消耗,⼩型分析类查询不
会过度消耗⼤量的系统资源,减少了资源竞争。合适
的分区分桶规划与⼀定规模的节点数量,可以⽀撑上
万 QPS、数千⽤户同时分析。
在线弹性扩缩容
StarRocks 的 FrontEnd 节点与 BackEnd 节点均⽀
持在线⽔平扩缩容,以保证业务连续性。弹性伸缩可
以帮助⽤户降低使⽤成本,按当前的业务规模合理配
置对应的服务器资源,后续也可以按需在线逐步扩
容,及时应对流量增⻓。扩容过程中数据以分⽚为单
位,⾃动在节点之间进⾏均衡,⽆需⼈⼯⼲预,避免
了复杂的维护过程。
⾦融级⾼可⽤
StarRocks 的元数据和物理数据以多副本的形式进⾏
存储。元数据副本通过类 Paxos 协议,确保多数派
节点可⽤。当节点发⽣故障时会⾃动在可⽤节点上补
⻬副本,确保不会因为少数的节点故障影响整体集群
的稳定性。集群可以按需配置副本的地理位置、副本
的数量等策略以满⾜不同的容灾级别要求,确保在线
业务的稳定可⽤。
数据湖分析能⼒
数据湖以开放的数据格式和灵活的 schema 结构适配
了 AI/BI 等各种上层应⽤的分析模式。Iceberg 和
Hudi 也给数据湖补充了 ACID,TimeTravel 等特
性。StarRocks 可以作为数据湖的查询引擎,通过灵
活的元数据缓存/同步机制,充分利⽤向量化引擎的
优势,在使⽤ Hive/Iceberg/Hudi 外表时实现极速实
时的数据湖分析体验。
⼤规模并⾏处理(MPP)能⼒
StarRocks 是⼀款全场景的⼤规模并⾏处理
(Massively Parallel Processing, MPP)数据仓
库。StarRocks 在处理请求时,会将任务并⾏的分散
到每⼀台服务器节点上,在每个节点上完成复杂的计
算后,将各⾃部分的结果数据汇总在⼀起得到最终的
结果。MPP 引擎可以充分地挖掘每台机器的物理资
源,为查询提供极致的性能加速体验。
灵活建模
为了对不同的维度进⾏数据探查,StarRocks 提供了
多种建表模型,帮助⽤户快速响应需求的变更。⽤户
可以根据业务需求灵活地选择星型、雪花、⼤宽表、
预聚合等⽅式进⾏数据建模操作。同时也可以通过创
建物化视图的⽅式,实现明细数据的上卷与下钻,满
⾜⽤户对固定维度聚合分析以及原始明细数据任意维
度分析的多样需求。
极致性能
StarRocks 拥有多种优化⼿段以提供极致的查询性
能。StarRocks 的计算层采⽤全⾯向量化技术,将所
有算⼦、函数、扫描过滤以及导⼊导出模块进⾏了系
统优化。基于成本的优化器(Cost Based
Optimizer)可以对复杂的查询进⾏⾃动优化,⽆需
⼈⼯⼲预,极⼤程度地提⾼了 adhoc 和 ETL 场景的
数据分析效率。
StarRocks 特性
07 08
剩余23页未读,继续阅读
资源评论
九层之台起于累土
- 粉丝: 324
- 资源: 985
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- pta题库答案c语言之排序4统计工龄.zip
- pta题库答案c语言之树结构7堆中的路径.zip
- pta题库答案c语言之树结构3TreeTraversalsAgain.zip
- pta题库答案c语言之树结构2ListLeaves.zip
- pta题库答案c语言之树结构1树的同构.zip
- 基于C++实现民航飞行与地图简易管理系统可执行程序+说明+详细注释.zip
- pta题库答案c语言之复杂度1最大子列和问题.zip
- 三维装箱问题(Three-Dimensional Bin Packing Problem,3D-BPP)是一个经典的组合优化问题
- 以下是一些关于Linux线程同步的基本概念和方法.txt
- 以下是一个简化的示例,它使用pygame库来模拟烟花动画的框架.txt
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功