Oozie-HA

三月 17th, 2014 by klose | No Comments | Filed in 互联网应用, 海量数据存储与处理

1.Oozie是state-less,状态存储在DB中。 2.借助LoadBalancer、Virtual IP、或者DNS Round-Robin实现对外单一的host封装。 3.利用Zookeeper实现多Server在被用户访问同一个job的Distributed Locking。(实际上仅仅注册了Server,没有注册job-id的状态到ZK,因为后端有统一的DB存储所有的作业的状态。通过Zookeeper,每一个Oozie Server知道当前有几个正在执行的instances,使用mod算法,每一个oozie Server选取部分的Coordinator jobs来进行materialize。)Materialization一个Coordinator上的workflow,是从无到有(WAITING),在从有到RUNNING的过程。 4.支持到任意Server查询任何的job的log,目前通过Log Streaming(HTTP),后续可能会考虑MapReduce JobHistoryServer的方案,将已经完成作业的log存储到HDFS文件夹中. Refer to: Oozie-615 Cloudera-Blog-O

Tags: , ,