免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 67208 | 回复: 3
打印 上一主题 下一主题

解决kettle调度效率低,不可高并发调度方法 [复制链接]

论坛徽章:
1
15-16赛季CBA联赛之上海
日期:2016-07-08 16:08:38
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2017-10-31 11:38 |只看该作者 |倒序浏览
“我在spoon里面运行一个作业只要几秒种,但是在命令行中运行却要好几十秒?”

“并行同时运行几个job,就把内存撑爆了,Kettle好占资源呀!”




  Kettle作为用户规模最多的开源ETL工具,强大简洁的功能深受广大ETL从业者的欢迎。但kettle本身的调度监控功能却非常弱。连Pentaho官方都建议采用crontab(Unix平台)和计划任务(Windows平台)来完成调度功能。调用kettle作业,实际上是通过pan和kitchen命令去调用。每一次调用都会重新初始化kettle运行环境,这个过程占用大量的时间。并且每启动一个kettle运行环境都相当于启动一个JVM进程。每个JVM则会占用几百兆(默认设置)的内存。所以同时运行几个作业,也会消耗大量内存资源。极端情况则可能会导致kettle内存溢出,产生致命错误。

https://my.oschina.net/u/944575/blog/1557410

http://www.taskctl.com/forum/detail_124.html

  上述是Taskctl出的解决方案,但是如果我本身不愿意在多学习一个调度工具,其实也是可以用这个的。安装这个服务后,默认会生成两个调度插件,分别对应trans和job两种类型的。我们现在需要做的就是用crontab调用调度插件,配合着正确的参数值,就可以正常调度了,非常简单,而且效率也很高。

  下面是我调度Linux下kettle配置的一个crontab范例,仅供大家参考

0 0 * * * /home/kettle/shell/cprunsoapktr.sh “/home/kettle/mykettle/my.ktr” “” “”

  这个是我们trans作业。是直接调用文件,而且也没有参数,如果有差异,在安装服务是按需选择,调用的时候有细微的差异。执行效率比原来有大幅的提升,而且也不在开辟多个JVM环境,造成服务器资源的问题


论坛徽章:
0
2 [报告]
发表于 2017-11-08 10:15 |只看该作者
谢谢楼主 正在为kettle的调度发愁呢

论坛徽章:
0
3 [报告]
发表于 2017-11-08 10:15 |只看该作者
谢谢楼主 正在为kettle的调度发愁呢

论坛徽章:
0
4 [报告]
发表于 2018-11-13 13:42 |只看该作者
通过crontab定时器调用kettle的确很方便,但缺少对job运行状态的监控,我们经常是开发的时候写数据库日志表。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP