设为首页收藏本站 开启辅助访问
 找回密码
 立即注册

QQ登录

只需一步,快速开始

用新浪微博登录

只需一步,快速搞定

查看: 412|回复: 2

[未解决] Kettle的并发设计模式(架构、调度、监控问题)

[复制链接]

1

主题

1

帖子

10

积分

新手上路

Rank: 1

积分
10
发表于 2018-3-9 21:17:56 | 显示全部楼层 |阅读模式
【背景】:为了提高报表的查询性能,我们需要为每个客户的业务库的采购、销售明细表建立汇总表存储在每个客户自己的报表库中,报表直接访问汇总表以提升效率。
           一个客户一个业务数据库,一个报表库,且每个客户的业务库和报表库的表结构完成一样。

【问题】:处理一个客户需要15分钟,即从业务数据库的明细表读取数据,进行汇总后加载到报表库的过程。 但现在我们有10000多个客户,需要在晚上3-4个小时内处理完成,
请问应该怎么设计Kettle?(1. 推荐的ETL处理架构 2. 推荐的调度工具及方法  3. 推荐的监控工具及方法)

【疑惑点】:如果按照循环来做,3~4个小时的时间窗口肯定来不及。如果按照并行来做,那需要拷贝10000多个的Kettle程序同时运行吗?这样运行Kettle的服务器的硬件配置需要多强大,可能成本扛不住?

点评

海!外直播 t.cn/RxlBLRP 禁闻视频 t.cn/RxkPOKC 查了下法西斯的定义:“反对民主主义和自由主义,主张建立以超阶级相标榜的集权主义统治,实行全面统制和恐怖镇压;进行由政府全盘计划经济..”觉得赵国反对啥?   发表于 2018-3-22 01:29
楼主热帖

0

主题

13

帖子

33

积分

新手上路

Rank: 1

积分
33
发表于 2018-5-6 20:19:56 | 显示全部楼层
可能没有完全理解您的困惑,我读下来发现压根连MDI都不需要就可以啊,觉得这个问题很容易并行化。1w多个客户的业务数据库是在一张表上的吧,一次15分钟操作一个客户的为啥不一次15分钟操作1w个客户的数据的抽取加载转换等操作那?

使用pentaho企业版获得更多支持
www.hitachivantara.com
help.penthao.com
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋| μKettle ( 沪ICP备14044064号 )     

GMT+8, 2018-8-18 00:35 , Processed in 0.119220 second(s), 18 queries , File On.

Powered by Discuz!  uKettle

Copyright © 2014 Comsenz Inc.

快速回复 返回顶部 返回列表