Sparrow(SOSP13)—一种加速短作业的调度方法

七月 16th, 2013 by klose | 1 Comment | Filed in 互联网应用, 海量数据存储与处理

背景: 当前大规模数据分析框架的发展朝着两个趋势在变化: 1)任务执行时间更短。 2)更大的任务并行度。 因此,在当前分布式计算框架的调度系统中,需要有所改变,以满足如下的需求: 1)更快的任务调度效率,mill-seconds级别。 2)良好的容错,High Availability. 3)较高的吞吐率,High Throughput. 分析一下:什么原因会造成多任务的作业执行时间较长? 1)作业内任务分配不合理,在同样的并行层次上,任务执行逻辑和处理的数据量不一致,从而拉长整个作业的执行时间。以MapReduce为例的大数据分析框架中,数据是等分的,并且,处理逻辑是一致的,因此,该问题仅仅出现在以DAG、或者具有Data-Skew的数据逻辑中。 2)调度的不均衡性。根据Hadoop作业调度的情况,作业的执行时间由最为执行时间最长的任务决定。例如,Hadoop调度的一个MapTask到

Tags: , , , ,