图灵奖得主John Hopcroft:计算机科学的新方向[转载]

一月 24th, 2013 by klose | 1 Comment | Filed in 互联网应用, 网站碎片

本文是康奈尔大学计算机系工程学与应用数学教授、1986年图灵奖获得者John Hopcroft博士在《21世纪的计算大会》上的演讲稿。演讲中,他简单概述了计算机未来的一些发展方向;接下来介绍了基于科学的要求,如何支持未来的活动;最后,回答一些经常被问到的问题,比如到底我们的科学基础是什么样的。 一、个人职业生涯简介 能够参加今天的活动,能够有机会跟你们来讲一讲计算机科学未来的发展方向,我感到非常高兴。我们现在所进入的信息时代,将是我接下来演讲的背景。开始之前,请允许我简单介绍一下我自己。   康奈尔大学计算机系工程学与应用数学教授,1986年图灵奖获得者John Hopcroft博士 1964年,我毕业于电子工程系(当时还没有计算机系),而后受聘于普林斯顿电子工程系。很遗憾的是,当时的负责人说我被安排教授计算机的学科。因为没有课

Tags: ,

Google Spanner架构

一月 17th, 2013 by klose | No Comments | Filed in 互联网应用, 海量数据存储与处理

Spanner is a scalable, globally-distributed database designed, built, and deployed at Google. At the highest level of abstraction, it is a database that shards data across many sets of Paxos state machines in datacenters spread all over the world. Replication is used for global availability and geographic locality; clients automatically failover between replicas. Spanner automatically reshards data across machines as the amount of data or the number of servers changes, and it automatically migrates data across machines (even across datacenters) to balance load and in response to failures. Spanner is designed to scale up to millions of machines across hundreds of datacenters and trillions

Tags: ,

HBase Metrics机制分析与架构总结

一月 10th, 2013 by klose | No Comments | Filed in 互联网应用, 海量数据存储与处理

HBase Metrics HBase Metrics是一种监控信息实时收集机制。它负责收集的信息有: 功能性信息(Compaction Queue、Store Files个数等) JVM使用信息 (Heap Memory 的变化) rpc访问信息 借助与Hadoop Metrics同样的方式,向Ganglia汇报。 Ganglia is a scalable distributed monitoring system for high performance computing systems such as clusters and Grids. based on a hierarchical design targeted at federations of clusters relies on a multicast-based listen/announce protocol to monitor state within clusters uses a tree of point-to-point connections amongst representative cluster nodes to federate clusters and aggregate their state XML for data representation XDR for compact, portable data transport RRDto

Tags: , ,

HBase在Facebook Message存储的使用经验总结

一月 5th, 2013 by klose | No Comments | Filed in 海量数据存储与处理

HBase数据存储状况 1、2PB+ of online data in HBase (6PB+ with replication; excludes backups),存储了message data, metadata, search index 等信息。 2、每天大概有8B+Messages,增长到每月大概产生250TB的数据。 3、Traffic to HBase ▪ 75+ Billion R+W ops/day  ▪ At peak: 1.5M ops/sec   ▪ ~ 55% Read vs. 45% Write ops 。 Facebook选择HBase的原因 ▪ High write throughput ▪ Good random read performance ▪ Horizontal scalability ▪ Automatic Failover ▪ Strong consistency ▪ Benefits of HDFS Fault tolerant, scalable, checksums, MapReduce internal dev & ops expertise Facebook的HBase架构 Multiple clusters/cells for messaging ▪ 20 servers/rack; 5 or more racks per cluster Controllers (master/Zookee

Tags: , , ,

Flat DataCenter Storage之系统分析

一月 4th, 2013 by klose | No Comments | Filed in 海量数据存储与处理

OSDI-2012公布的Google Spanner吸引了无数人的眼球,在人们争相研究Spanner是否会像GFS(Google File System)、MapReduce等引领下一个大数据技术时代时,微软同样给出自己的一个回答,那就是Flat DataCenter Storage。 下文以FDS来代替Flat DataCenter Storage。 微软在Hadoop时代的笼罩下,提出FDS的需求来自哪里、它的特殊之处在哪、以及它背后的设计架构与原理等,本文就一一作答。 FDS是什么? FDS是一个支持容错、对本地性不敏感、高性能的大规模blob数据存储。 使用的策略有: Using a novel combination of full bisection bandwidth networks, data and metadata striping, and flow control FDS对一个大规模的应用实现底层磁盘IO通道的多路复用 FDS做了很多优化的工作,使得数据本地性对于一个应用的性能不再那么敏感。 磁盘与磁盘之间可以实

Tags: , ,