使用分布式缓存加速并行作业执行—PACMan(NSDI2012)

二月 10th, 2012 by klose | 4 Comments | Filed in 海量数据存储与处理

背景 Hadoop的数据本地性,通过在集群中数据节点和计算节点的复用(co-locate storage and computation),把MapTask调度到数据分片所在的DataNode节点上。HDFS将大数据按照Block的方式进行切分、复制存储,保证了数据分片存在多个节点,从而提高本地性的命中率。然而,Hadoop目前所提供的本地性,仅仅是指节点文件的本地读取,而根据存储体系结构的hierarchy,本地内存的访问速度比本地磁盘高一个数量级,同时,近些年来,内存价格的下降,服务器集群配置单点32GB、64GB成为了一个普遍的现象。因此,如果想进一步提升作业的执行效率,将数据放入内存缓存,保证良好的本地性特征,成为了提升数据处理系统性能的重要突破口。 Berkeley的最新研究成果PACMan:Coordinated Memory Caching for Parallel Jobs(NSDI2012),在如上的背景下,提出的一个支撑并行

Tags: , ,

最后的Plan

二月 6th, 2012 by klose | 2 Comments | Filed in 成长历程

很多事儿,一旦过去就不后悔了。以前期盼在机器猫兜兜中找到时光穿梭机,可以改变昨天的故事的过程,后来慢慢发现,那样辜负不了时光,却辜负了自己。于是,自己在慢慢长大中,或者懂得,或者听到,一个人,唯一能做的事情就是做最好的自己。为今天和未来计划。 最后一个以学生名义的寒假,很不小心就在指缝间跑走了,作为最后的假期,本来想写点东西留给自己,或者像自己QQ空间中继续连载奋斗,但是看到那两 个字眼,突然有了一丝的疲倦。同样的话语在一年又一年的记录中重复着,在一座既让人心酸又让人着迷的城市中无奈和执着,在一个本应该两个人的年龄中还诉说 着有关等待的故事。我实在不愿在写了,不是因为过去的一年不奋斗了,而是不知道这些事儿还有没有记录的必要了。但是,心灵的东西,精神的世界,如果不表 达,就回不到物质的次元。于是,

Tags: