大数据大发展 Hadoop成为关键部件
网界网 12年07月03日 14:22 【转载】 作者:网界网 责任编辑:王振
由于认识到Hadoop的巨大潜力,更多的用户在使用现有Hadoop平台技术的同时,着手研发自有的技术,以对Hadoop堆栈进行补充。
如今,Apache的Hadoop技术在帮助企业管理海量数据的过程中变得越来越重要。包括NASA(美国国家航空航天局)、Twitter和Netflix等用户对这一开源分布式计算平台的依赖性越来越大。Hadoop作为一种处理大数据的机制已经获得了越来越多的支持。因为企业计算机系统中的数据量正在快速增长,企业开始尝试从这些海量数据中获取派生价值。由于认识到Hadoop的巨大潜力,更多的用户在使用现有Hadoop平台技术的同时,着手研发自有的技术,以对Hadoop堆栈进行补充。
Hadoop的使用现状
NASA希望Hadoop能够处理众多项目中的庞大数据,例如SKA(平方千米阵列)星空图像。这些图像在未来十年内的生成速度将达到700TB/秒。NASA的高级计算机专家Chris Mattmann表示,包括Hadoop在内的数据系统和Apache OODT(面向对象的数据技术)等技术将用于应对这些海量数据负载。
Twitter的数据专家Oscar Boykin说:“Twitter是Hadoop的大客户。所有向用户提供定制化推荐的相关产品都在一定程度上与Hadoop进行着互动。”这家公司使用Hadoop的时间已经有四年了,并且研发了Scalding。Scalding是一款Scala库,旨在让编写Hadoop MapReduce的工作变得更加容易。该产品建立在Cascading Java库的顶层,这样做的目的是对Hadoop的复杂性进行概括。
Hadoop的子项目包括MapReduce、HDFS(Hadoop分布式文件系统)和Common。MapReduce是用于处理计算集群上大型数据集的软件框架,HDFS提供了对应用数据的高速访问,Common则为支持其他Hadoop子项目提供了一些实用工具。
电影租赁服务商Netflix已经开始使用用于配置管理的Hadoop相关技术——Apache ZooKeeper。Netflix的高级平台工程师Jordan Zimmerman说:“我们在分布式锁、部分队列排列和领导人选举等所有类型的工作中都使用了这种技术,以优化服务活动。我们针对ZooKeeper开发了一个开源客户端,我们称其为Curator。这个客户端作为一个开发者库与ZooKeeper相连。”