没有合适的资源?快使用搜索试试~ 我知道了~
基于flink-cdc实现监控数据源的实时变更数据捕获
5星 · 超过95%的资源 需积分: 5 11 下载量 70 浏览量
2023-06-06
16:01:15
上传
评论
收藏 2.99MB DOCX 举报
温馨提示
试读
13页
cdc技术分析文章,基于flink-cdc做监控数据源的实时变更数据捕获。该文从基础定义、使用场景、分析、实际使用流程、源码分析、常见问题及解决方式等几个方向讲解了这个技术栈。如果公司有要使用搜索方案,涉及到业务库数据同步至搜索库的业务需求可以下载看一下,相信对你会有一些帮助。具体公司的使用场景,需要在此方案上进行扩展。博主手中有基于flink-cdc、elasticSerach、kafka、zookeeper、nacos、Redis、springboot+springcloud、MySQL、mybatis-plus、jdk1.8等技术栈以及版本做的适用于公司搜索业务的自研代码,感兴趣的可以给我留言或者发私信,具体价格可以商量。
资源推荐
资源详情
资源评论
1、 cdc 是 什 么 ? 都 有 哪 些 选 型 ?
CDC 是(Change Data Capture 变更数据获取)的简称,监测并捕获数据库的数据变更。主要有基于查询
的 CDC 技术,如 dataX、kettle 等,基于日志的 CDC 技术,如 Debezium、Canal、Flink-cdc 等这两大类
。
2、 为 什 么 要 用 ? 用 在 什 么 场 景 ?
随 着 当 下 场 景 对 实 时 性 要 求 越 来 越 高 ,基 于 日 志 的 cdc 技 术 能 够 实 时 消 费 数 据 库 的 日 志 ,流 式
处 理 的 模 式 可 以 保 障 数 据 的 一 致 性 ,提供实时的数据,可 以 满 足 当 下 很 多 对 实 时 性 有 要 求 的 业
务 需 求 。 而 kettle、 dataX 这 种 基 于 查 询 的 cdc 技 术 , 则 更 多 用 在 数 据 采 集 、 抽 取 、 转 换 作 业
以 及 同 步 历 史 数 据 等 场 景 。
3、 选 择 哪 种 cdc 技 术 方 案 , 为 什 么 ?
:综 合 上 图 可 以 看 出 , flink-cdc 在 增 量 同 步 、 断 点 续 传 、 全 量 同 步 都 非 常 不 错 , 而 其 他 开 源 方
案 无 法 支 持 全 增 量 一 体 化 同 步 。 同 时 flink-cdc 是 分 布 式 架 构 , 可 以 满 足 海 量 数 据 的 业 务 场 景 。
而 canal 和 Debezium 是 单 体 架 构 , 在 大 数 据 场 景 下 容 易 面 临 性 能 瓶 颈 的 问 题 。
从 数 据 加 工 能 力 上 来 讲 ,flink-cdc 依 靠 flink 的 生 态 优 势 ,利 用 flink SQL API 和 DataStream API
这 些 核 心 点 ( 这 些 API 提 供 了 非 常 强 大 的 transformation 能 力 ), 可 以 非 常 方 便 进 行 数 据 加 工 。
从 生 态 上 来 讲 , 这 个 是 上 下 游 存 储 的 支 持 。 flink-cdc 上 下 游 非 常 丰 富 , 支 持 对 接 MySQL 、
MongoDB、postgreSQL、SQLServer 等 数 据 源 ,还 支 持 写 入 hbase、kafka、elasticSearch、Hudi
、 MySQL、 clickhouse、 pulsar 等 存 储 系 统 与 中 间 件 技 术 中 , 也 支 持 灵 活 的 自 定 义 connector。
4、 对 比 传 统 CDC ETL 有 什 么 优 势 ?
基 于 flink-cdc 的 ETL 分 析 , 不 再 需 要 维 护 canal、 kafka 或 rocketMQ 消 息 队 列 等 组 件 。 只 需 要
依 赖 flink,实 现 了 全 、增量一体化同步和实时 ETL 加 工 的 能 力 ,并 且 支 持 并 发 读 取 ,在 海 量 数
据 场 景 下 也 是 有 着 稳 定 的 输 出 。 整 个 架 构 链 路 短 , 组 件 少 , 易 维 护 。
5、 flink-cdc 分 析
传统的基于 CDC 的 ETL 分析中,数据采集工具是必须的,国外用户常用的 Debezium,国内用户常用的阿
里开源的 Canal,采集工具负责采集数据库的增量数据,一些采集工具也支持全量数据同步。采集到的数据
一般输出到消息中间件如 kafka,然后 Flink 计算引擎再去消费数据并写入到目的端,目标端可以是各种数
据库、数据仓库、数据湖和消息队列。
Flink 提供了 changelog-json format,可以使 changelog 数据写入到离线数据仓库(Hive);对于消息队列
Kafka,Flink 支持通过 changelog 的 upset-kafka connector 直接写入到 kafka 的 compacted topic。
6、 有 什 么 特 性 ?
剩余12页未读,继续阅读
港风Id
- 粉丝: 1
- 资源: 3
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
- 1
- 2
前往页