# SparkETL
基于Spark的ETL批量抽取入数程序
配置文件为config.properties
还有程序的参数,参考cn.hanpeng.StringUtil.check_args()
<p> -h 帮助</p>
<p> -l 是否是本地模式,默认为true </p>
<p> -n Spark任务名称 </p>
<p> -p 并行数 </p>
<p> -e spark.executor.memory,default is 1g </p>
<p> -k 任务的开始时间 </p>
<p> -j 任务的结束时间 </p>
<p> -f 日期格式化的格式 </p>
<p> -r 是否读取日志,已经过时,默认为false,不推荐使用,如果为true,会读取日志文件中已经完成的任务,重新开始时将去除这些已经完成的任务,即是在任务发生异常终止时,重新启动时才需要设置为true,<b>此功能尚不完整</b>,不推荐设为true </p>
<p> -g 重新分区的分区数,用于spark的 repartition </p>
<p> -bs batchSize,即每次入数时的批次大小,默认为1000,即每1000条入一次库,默认会读取配置文件中的batchSize的值,如果存在此参数,则会按照该参数的值作为批次大小,命令优于配置文件 </p>
<p> -fs fetchSize,Jdbc的fatchSize 大小,默认为1000,命令优于配置文件 </p>
<p> -it intervalTime,批次的间隔时间,单位为秒,即假设批次时间为86400,则从20190101-20190103中间会产生2个批次 </p>
<p> -c 查询的SQL中有多少个列 </p>
<p> -ss selectSql,查询源库的SQL命令,命令优于配置文件,即如果存在此参数,则会覆盖从配置文件中读取selectSql的值 </p>
<p> -is insertSql,插入目标库的SQL命令,命令优于配置文件,即如果存在此参数,则会覆盖从配置文件中读取insertSql的值,<b>从源库查询的列的顺序与入目标库的列的顺序必须一致</b> </p>
<p>-config 配置文件路径,默认会读取jar包中的config.properties,如果存在此参数,则会读取该路径的配置文件 </p>
<p>-partitions 分区名称,多个用逗号分开,目前分区和开始时间结束时间不能同时使用 </p>
<p> --------------20191224------------------ </p>
<p>-partitions 分区名称,多个用逗号分开,支持分区和开始时间结束时间同时使用,例如 -partitions A_201901:20190101-20190201,A_201902:20190201-20190301 假设时间间隔为86400秒,则会生成31+28个任务,规则为首先根据逗号分隔,分隔后,再根据冒号分隔获取时间区间,再根据横岗分隔获取开始时间结束时间,并生成对应的任务</p>
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
- 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! <项目介绍> 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 --------
资源推荐
资源详情
资源评论
收起资源包目录
SparkETL-master.zip (15个子文件)
SparkETL-master
pom.xml 7KB
src
main
resources
log4j.properties 1KB
config.properties 1KB
java
cn
hanpeng
SparkETL.java 2KB
BatchTaskVo.java 714B
DataSourceUtil.java 4KB
SparkETLNew.java 8KB
JavaETL.java 2KB
TaskUtil.java 6KB
Test.java 182B
TaskVo.java 2KB
StringUtil.java 12KB
SparkJdbcETL.java 3KB
.gitignore 27B
README.md 2KB
共 15 条
- 1
资源评论
机器学习的喵
- 粉丝: 737
- 资源: 1296
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功