HFile文件格式与HBase读写

九月 9th, 2013 by klose | 2 Comments | Filed in 互联网应用, 海量数据存储与处理

HFile是HBase存储数据的文件组织形式。HFile文件的特点: 1)HFile由DataBlock、Meta信息(Index、BloomFilter)、Info等信息组成。 2)整个DataBlock由一个或者多个KeyValue组成。 3)在文件内按照Key排序。 HFile V1的数据组织格式: DataBlock区域、MetaBlock(bloomfilter) 与FileInfo、DataBlockIndex、MetaBlockIndex、Trailer分离。 打开一个HFile文件需要加载FileInfo、DataBlockIndex、MetablockIndex以及Fixed File Trailer到内存。 如下图所示: HFile V1的数据格式在0.92版本升级到V2版本, HFile V2的数据组织格式如下图所示: 与V1版本的相比,它的区别在于 1)文件分为三部分:Scanned block section,Non-scanned block section,以及Opening-time data section 2) 为DataBlockIndex建立多层索引。DataBlockIndex分为Leaf Index Block、R

Tags: , , , , ,