关于Hadoop你不得不知道的12个事实

TT中国 12年06月28日 16:52 【转载】作者：TechTarget中国责任编辑：王振

导读：现如今，Apache Hadoop已经无人不知无人不晓。当年雅虎搜索工程师Doug Cutting开发出这个用以创建分布式计算机环境的开源软件库，并以自己儿子的大象玩偶为其命名的时候，谁能想到它有一天会占据“大数据”技术的头把交椅呢。

事实4：HDFS是文件系统，而不是数据库管理系统。

Russom最无法忍受的，就是人们常常把二者混为一谈。能够对数据集进行管理是数据管理系统很重要的特性之一，这一点HDFS是不具备的。

数据库管理系统中，我们通过查询索引可以实现对数据的随机访问，它往往处理的是结构化的数据，而在Hadoop中不会处理这样的数据类型。

事实5：Hive与SQL类似，却非标准SQL。

传统获取数据的业务工具大多都是基于SQL的，这比较让人头疼，因为Hadoop使用的是一种类似SQL但不是SQL的语言——Apache Hive和HiveQL。

Russom说：“我常听到别人说，‘Hive学起来非常简单，直接学Hive就行。’但这并不能解决与SQL工具兼容的根本问题。”

Russom认为兼容性只是一个短时间问题，但却阻碍了Hadoop的普及。

事实6：Hadoop与MapReduce相互关联，但不相互依赖。

MapReduce早在HDFS出现以前就由Google开发推出。除此之外，诸如MapR一类的厂商一直在宣传MapReduce功能的多样性，无需HDFS支持。

尽管如此，Russom却认为它们具有很好的互补性。HDFS的大部分价值都体现在可层叠到分布式文件系统的工具上。

事实7：MapReduce提供的是对分析的控制，而不是分析本身。

MapReduce是一种通用执行驱动引擎，可协助大数据分析。它能读取手写代码数据，对其进行并行自动处理，并将结果映射到单一集合中。然而我们需要明确一点，MapReduce自身并不进行分析工作。

Russom说：“MapReduce可以看作是升级版的MPP架构。你无论怎样编写代码，它都可以把它们并行化，非常强大。”

微软重拳推出Office 365 2011年07月08日经过大半年的准备，微软终于在今年6月份隆重推出了云计算办公套件Office 365。那么，Office 365作为微软集成了电子邮件、协作软件、字处理软件、电子表格和演示程序的办公套件重要产品之一，Office 365对微软来说到底是福是祸，能否为微软带来实质性的营收，能否让微软在新兴的云计算领域赢得一席之地？
云计算和算计云 2011年06月22日 DOIT特别专题从云的历史进程到目前实施云的厂商，逐一谈起，让读者耳目一新的了解到现在云的现状以及如何不被云所算计。
云端争夺战——IT厂商的盛宴 2010年07月27日云计算到底是如何发迹的似乎已经不再重要了，重要的是它确实炙手可热。

云计算风向标