kettle批量插入hive2，解决表输出速度慢问题_kettle输出很慢,kettle表输出很慢资源-CSDN文库

1星需积分: 41 80 浏览量 2019-05-08 15:23:03 上传评论 3 收藏 13KB DOCX 举报

资源推荐

资源详情

资源评论

解决 kele 表输出到星环 inceptor hive2 数据库不能批量提交问题

kele 在表输出到星环 inceptor 数据库是选择的 DB 连接为 HadoopHive2，在 kele 的 big-

data-plugin 插件的源码中把批量提交的方法关闭了，所以在创建 DB 连接的时候点击下方特

征列表按钮显示 supportsBatchUpdates 为 N，也就是不支持批量提交，只能单条插入，效率

非常低，只有几十条每秒。

本教程只作分享，参照本教程引起的任何责任均与本人无关！

解决办法：

1、下载 big-data-plugin 插件源码（github 搜索，很好找），选择与当前 kele 版本对应的源

码版本。本人使用的是 5.1.0；

2、kele 官网下载 kele 程序（暂且称为安装版）；

3、在 eclipse 中新建 Java project，把下载的插件源码解压，src 下的文件拷贝到工程目录 src

下，工程中新建 lib 目录，把 kele 安装版目录 /lib 下的 kele-core- 版本号.jar 、 kele-

dbdialog-版本号.jar、kele-engine-版本号.jar、kele-ui-版本号.jar 四个 jar 包拷贝到工程 lib

目录并 buildpath；

4、把工程 src 下除了 org.pentaho.di.core.database 包之外的其他包都删除（因为我只用

hive2 数据库连接，所以其他大数据插件就不要了，别人可以根据自身需要酌情）

5、修改 Hive2DatabaseMeta 类中的 public boolean supportsBatchUpdates()方法，把返回值由

false 改成 true（HiveDatabaseMeta 类本人不用此种连接方法所以不做修改，别人请酌情）

6、把工程打成 jar 包，名称参考安装版 plugins/pentaho-big-data-plugin/下的 pentaho-big-

data-plugin-版本号.jar 的名字，然后替换安装版这个 jar 包为工程导出的 jar 包，重启

kele，DB 连接的 HadoopHive2 连接的特征列表的 supportsBatchUpdate 已经是 Y 了，实际

转换中的表输出速度也变成三千多条每秒，符合预期。后台 spark 界面看提交的 sql 语句也

变成 batchinsert 而不是之前的 insert.

教程到此结束，谢谢！

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余0页未读，立即下载

内容反馈

川xc

2022-01-23

没什么用。。。

该资源不存在

粉丝: 2
资源: 2

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip