# dataflow
> 基于 Spark 任务流执行平台
![概览](docs/overview.svg)
## 设计
### 概念
dataflow 中的概念:
- executionId
每次将 dag 任务提交到 dataflow 时会生成唯一执行 id
- taskId
在一次 dag 执行中,dag 中的每个 node 执行时都会生成唯一任务 id
---
spark 中的概念:
- job
spark 每次遇到 action 算子会提交一个 job
- stage
spark 将 job 划分为多个 stages 执行(每次遇到 shuffle 都会划分一个 stage)
- task
stage 下的一个执行单元,每个 task 只处理一个 partition 上的数据
---
需要注意的是,dataflow 中的一个 task 会生成 spark 的一(多)个 job 去完成一个组件的操作。
### 组件定义
定义如下:
```json5
{
"id": "组件ID",
"name": "组件类型",
"text": "描述",
"argument": {
// 输入
"input": {
},
// 输出
"output": {
}
}
}
```
### 组件介绍
[组件介绍](./component-introduction.md)
## 依赖
- Scala 2.11.12
- Spark 2.4.7
- Spring Boot 2.3.7.RELEASE
## 模块介绍
```text
├── dataflow-core 引擎
├── dataflow-udf Spark SQL自定义函数
├── dataflow-sdk SDK集成
├── dataflow-launch 引擎启动
```
## 快速开始(嵌入式)
### 配置
修改 src/main/resources/application.yaml 配置文件
```yaml
spring:
datasource:
driver-class-name: com.mysql.cj.jdbc.Driver
url: jdbc:mysql://127.0.0.1:3306/dataflow?serverTimezone=Asia/Shanghai&useUnicode=true&characterEncoding=utf8
username: root
password: 123456
```
### 本地启动
- 启动 src/main/resources/k.fishfish.dataflow.Bootstrap 程序
### 部署
打包(指定 embed 环境,会将 Spark 依赖打入 jar 包):
```shell
mvn clean package -Pembed -DskipTests
```
运行:
```shell
java -jar /some/path/dataflow-launch-1.0.0-SNAPSHOT.jar
```
### 计算
将任务绘制成流程图,利用 DAG 算法进行节点运算。
例如,如下将 test_user 表数据同步到 test_user_copy1 表中
```curl
curl --location --request POST 'http://127.0.0.1:9090/v1/dag/run' \
--header 'Content-Type: application/json' \
--data-raw '{
"executionId": "1",
"context": {},
"graph": {
"nodes": [
{
"id": "1",
"name": "DATABASE_SOURCE",
"text": "读",
"argument": {
"input": {
"url": "jdbc:mysql://127.0.0.1:3306/test?serverTimezone=Asia/Shanghai&useUnicode=true&characterEncoding=utf8",
"user": "root",
"password": "123456",
"sql": "select * from test_user"
},
"output": {
"table": "t1"
}
}
},
{
"id": "2",
"name": "SQL_TRANSFORMER",
"text": "转换",
"argument": {
"input": {
"sql": "select * from {namespace}.t1"
},
"output": {
"table": "t2"
}
}
},
{
"id": "3",
"name": "DATABASE_SINK",
"text": "写",
"argument": {
"input": {
"table": "t2"
},
"output": {
"url": "jdbc:mysql://127.0.0.1:3306/test?serverTimezone=Asia/Shanghai&useUnicode=true&characterEncoding=utf8",
"user": "root",
"password": "123456",
"table": "test_user_copy",
"mode": "update"
}
}
}
],
"edges": [
{
"from": "1",
"to": "2"
},
{
"from": "2",
"to": "3"
}
]
},
"callback": "http://127.0.0.1:8080/callback"
}'
```
## 性能
### MySQL
#### MySQL读
1. 底层使用流式查询,防止数据全部查询到客户端导致OOM
1. 支持切片加载(分区字段需要是数值类型),并发抽数,提升性能
具体表现,410w数据量11分钟读取完毕,约6000/s的读取性能(测试环境测试结果,依赖具体机器性能),整个过程中内存占用平稳
![MySQL读](docs/1.png)
#### MySQL写
1. 底层使用批量写入
1. 支持数据分区后,并发写入
具体表现,410w数据量6分钟半写入完毕,约10000/s的写入性能(本地测试结果,依赖具体机器性能),整个过程中内存占用平稳
![MySQL写](docs/2.png)
没有合适的资源?快使用搜索试试~ 我知道了~
基于 Spark 任务流执行平台+源代码+文档说明
共133个文件
scala:64个
java:38个
json:7个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 91 浏览量
2023-12-28
17:10:48
上传
评论
收藏 1.31MB ZIP 举报
温馨提示
1、资源内容:基于 Spark 任务流执行平台+源代码+文档说明 2、代码特点:内含运行结果,不会运行可私信,参数化编程、参数可方便更改、代码编程思路清晰、注释明细,都经过测试运行成功,功能ok的情况下才上传的。 3、适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。 4、作者介绍:某大厂资深算法工程师,从事Matlab、Python、C/C++、Java、YOLO算法仿真工作10年;擅长计算机视觉、 目标检测模型、智能优化算法、神经网络预测、信号处理、元胞自动机、图像处理、智能控制、路径规划、无人机等多种领域的算法仿真实验,更多源码,请上博主主页搜索。 -------------------------------------------------------------------------- -
资源推荐
资源详情
资源评论
收起资源包目录
基于 Spark 任务流执行平台+源代码+文档说明 (133个子文件)
Dockerfile 526B
tk.fishfish.dataflow.database.sql.ExecutorFactory 278B
.gitignore 145B
ComponentController.java 3KB
Task.java 3KB
Execution.java 2KB
ClientFactory.java 2KB
Client.java 2KB
GraphServiceImpl.java 2KB
RestTemplateFactory.java 2KB
ExecuteStatusDeserializer.java 2KB
Graph.java 2KB
Query.java 2KB
HttpUtils.java 1KB
ExecutionServiceImpl.java 1KB
ExecutionController.java 1KB
GraphController.java 1KB
Graph.java 1001B
TaskController.java 938B
ExecuteStatus.java 764B
TaskServiceImpl.java 750B
ExecuteStatusSerializer.java 731B
TaskCondition.java 725B
Task.java 697B
ExecutionCondition.java 663B
TaskRepository.java 607B
Execution.java 576B
GraphCondition.java 566B
Bootstrap.java 514B
ExecutionParam.java 492B
ExecuteStatus.java 453B
ComponentGroup.java 451B
Page.java 396B
Config.java 392B
GraphService.java 336B
ExecutionRepository.java 326B
ExecutionCondition.java 325B
GraphRepository.java 317B
ExecutionService.java 301B
ApiResult.java 273B
TaskService.java 257B
database_sink.json 1KB
database_source.json 1KB
sql_executor.json 1KB
file_sink.json 1KB
file_source.json 1KB
sql_transformer.json 558B
shell.json 369B
component-introduction.md 10KB
readme.md 5KB
spark-sql-introduction.md 2KB
cluster.png 1.01MB
2.png 144KB
1.png 138KB
log4j.properties 1KB
ConcurrentDagExecutor.scala 6KB
JdbcUtils.scala 4KB
DagExecutor.scala 4KB
RdbmsSource.scala 4KB
RdbmsSink.scala 3KB
SimpleDagExecutor.scala 3KB
Dag.scala 3KB
EsSource.scala 3KB
EsSink.scala 2KB
MysqlSink.scala 2KB
RSA.scala 2KB
DatabaseSink.scala 2KB
DatabaseSource.scala 2KB
OracleSink.scala 2KB
SqlServerSink.scala 2KB
Shell.scala 2KB
SqlExecutor.scala 2KB
PostgreSink.scala 2KB
FileSource.scala 2KB
FileSink.scala 2KB
SparkConfiguration.scala 2KB
DagConfiguration.scala 2KB
Argument.scala 2KB
StringTemplate.scala 1KB
SqlTransformer.scala 1KB
SparkUtils.scala 1KB
DagSparkListener.scala 1KB
RdbmsExecutor.scala 1KB
EsUtils.scala 979B
DagController.scala 970B
Cancellable.scala 947B
Graph.scala 936B
SparkUDFConfiguration.scala 871B
Properties.scala 846B
Validation.scala 812B
MysqlSource.scala 782B
SqlServerSource.scala 770B
OracleSource.scala 739B
PostgreSource.scala 731B
DmSource.scala 710B
Task.scala 655B
CollectionUtils.scala 636B
JacksonConfiguration.scala 633B
SqlServerExecutor.scala 494B
PostgreExecutor.scala 487B
共 133 条
- 1
- 2
资源评论
机器学习的喵
- 粉丝: 2010
- 资源: 1903
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功