oracle数据同步到Greenplum的python脚本
1、脚本运行环境python3.6 2、脚本忽略LOB字段数据 3、脚本生成以^为分割符的csv格式文件 4、脚本避免转义字符将‘\’替换为‘/’,数据中存在分割符:^转换为# 5、特殊字符处理:删除:'\u0000','"',oracle数据回车符:'\r','\n' 6、支持按分区导入 7、支持内存处理数据导入greenplum,导入失败生成csv格式文件,方便排错 8、支持生成csv格式文件导入greenplum。 9、传递不同配置文件,多次执行达到并行处理(注意内存溢出) 例: 执行脚本 生成日志目录 配置文件 python3 Main_Mem.py ProcessLog1 config1.ini & python3 Main_Mem.py ProcessLog2 config2.ini & python3 Main_Mem.py ProcessLog3 config3.ini & python3 Main_Mem.py ProcessLog4 config4.ini & 10、采用python 中的copy_from方法实现导入greenplum 11、各目录用途: conf :存放配置文件 etl_dat: 存放导出数据 log :存放输出日志 py_tool 存放编写工具脚本: DBconn: 数据库连接池配置及查询返回方法 DumpCsv:导出csv文件方法 Log:日志输出方法 DataBase:判断表是否存在、表或分区表是否有数据、是否为分区表、数据导出、表分区遍历、指定分区表导出等方法 py_main:主程序目录: Main_Mem.py:主程序目录: 运行:python3 Main_Mem.py ProcessLog1 config.ini 12、主程序需要修改目录参数: if __name__ == '__main__': #引用编写的包 sys.path.append('/home/oracle/PyETL2.0/py_tool') import Log,DataBase,DumpCsv #输出日志路径: path = '/home/oracle/PyETL2.0/log/'+sys.argv[1] isExists = os.path.exists(path) if not isExists: os.makedirs(path) #shutil.move(path,path+) logger = Log.log(path) #读取配置文件 config = Confile('/home/oracle/PyETL2.0/conf/', sys.argv[2]) 13、后期还会更新,欢迎提供宝贵意见。
- 1
- 粉丝: 156
- 资源: 27
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于SpringBoot的学生心理咨询评估平台
- 开题报告springboot005学生心理咨询评估系统开题.doc
- Java-springboot大学生心理咨询管理系统计算机毕业设计程序.zip
- 第二届阿里巴巴大数据智能云上编程大赛冠军解决方案.zip
- 开题报告springboot019高校心理教育辅导设计与实现开题报告
- STM32 定时器的使用
- 掌上客网页小程序前端+后端 开源版本.zip
- 线上迁移大表数据.zip
- EPSON-L3110 清零软件
- 2、Python量化交易-三剑客之pandas ==== 对应的jupyter笔记
- linux-lite-7.0下载种子文件
- 2023.1-2024.4城市空气质量指数数据(月度)(含PM2.5、PM10、SO2、CO、NO2、O3)
- java 小游戏,个人学习整理,仅供参考
- java实现2048小游戏的代码
- 佳能打印机通用清零软件
- 小功率调幅发射机(仿真+报告)