没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
解决 kele 表输出到星环 inceptor hive2 数据库不能批量提交问题
kele 在表输出到星环 inceptor 数据库是选择的 DB 连接为 HadoopHive2,在 kele 的 big-
data-plugin 插件的源码中把批量提交的方法关闭了,所以在创建 DB 连接的时候点击下方特
征列表按钮显示 supportsBatchUpdates 为 N,也就是不支持批量提交,只能单条插入,效率
非常低,只有几十条每秒。
本教程只作分享,参照本教程引起的任何责任均与本人无关!
解决办法:
1、下载 big-data-plugin 插件源码(github 搜索,很好找),选择与当前 kele 版本对应的源
码版本。本人使用的是 5.1.0;
2、kele 官网下载 kele 程序(暂且称为安装版);
3、在 eclipse 中新建 Java project,把下载的插件源码解压,src 下的文件拷贝到工程目录 src
下,工程中新建 lib 目录,把 kele 安装版目录 /lib 下的 kele-core- 版本号.jar 、 kele-
dbdialog-版本号.jar、kele-engine-版本号.jar、kele-ui-版本号.jar 四个 jar 包拷贝到工程 lib
目录并 buildpath;
4、把工程 src 下除了 org.pentaho.di.core.database 包之外的其他包都删除(因为我只用
hive2 数据库连接,所以其他大数据插件就不要了,别人可以根据自身需要酌情)
5、修改 Hive2DatabaseMeta 类中的 public boolean supportsBatchUpdates()方法,把返回值由
false 改成 true(HiveDatabaseMeta 类本人不用此种连接方法所以不做修改,别人请酌情)
6、把工程打成 jar 包,名称参考安装版 plugins/pentaho-big-data-plugin/下的 pentaho-big-
data-plugin-版本号.jar 的名字,然后替换安装版这个 jar 包为工程导出的 jar 包,重启
kele,DB 连接的 HadoopHive2 连接的特征列表的 supportsBatchUpdate 已经是 Y 了,实际
转换中的表输出速度也变成三千多条每秒,符合预期。后台 spark 界面看提交的 sql 语句也
变成 batchinsert 而不是之前的 insert.
教程到此结束,谢谢!
资源评论
- 川xc2022-01-23没什么用。。。
该资源不存在
- 粉丝: 2
- 资源: 2
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功