使用分布式缓存加速并行作业执行—PACMan(NSDI2012)

二月 10th, 2012 by klose | 4 Comments | Filed in 海量数据存储与处理

背景 Hadoop的数据本地性,通过在集群中数据节点和计算节点的复用(co-locate storage and computation),把MapTask调度到数据分片所在的DataNode节点上。HDFS将大数据按照Block的方式进行切分、复制存储,保证了数据分片存在多个节点,从而提高本地性的命中率。然而,Hadoop目前所提供的本地性,仅仅是指节点文件的本地读取,而根据存储体系结构的hierarchy,本地内存的访问速度比本地磁盘高一个数量级,同时,近些年来,内存价格的下降,服务器集群配置单点32GB、64GB成为了一个普遍的现象。因此,如果想进一步提升作业的执行效率,将数据放入内存缓存,保证良好的本地性特征,成为了提升数据处理系统性能的重要突破口。 Berkeley的最新研究成果PACMan:Coordinated Memory Caching for Parallel Jobs(NSDI2012),在如上的背景下,提出的一个支撑并行

Tags: , ,