您好,欢迎您来到DOIT! [ 登录 ] [ 免费注册 ]
您的位置:DOIT云计算> 风:云趋势 > 分析评论 > 正文

关于Hadoop你不得不知道的12个事实

TT中国 12年06月28日 16:52 【转载】 作者:TechTarget中国 责任编辑:王振

导读:现如今,Apache Hadoop已经无人不知无人不晓。当年雅虎搜索工程师Doug Cutting开发出这个用以创建分布式计算机环境的开源软件库,并以自己儿子的大象玩偶为其命名的时候,谁能想到它有一天会占据“大数据”技术的头把交椅呢。

关键词: 大数据 Hadoop 数据管理

事实4:HDFS是文件系统,而不是数据库管理系统。

Russom最无法忍受的,就是人们常常把二者混为一谈。能够对数据集进行管理是数据管理系统很重要的特性之一,这一点HDFS是不具备的。

数据库管理系统中,我们通过查询索引可以实现对数据的随机访问,它往往处理的是结构化的数据,而在Hadoop中不会处理这样的数据类型。

事实5:Hive与SQL类似,却非标准SQL。

传统获取数据的业务工具大多都是基于SQL的,这比较让人头疼,因为Hadoop使用的是一种类似SQL但不是SQL的语言——Apache Hive和HiveQL。

Russom说:“我常听到别人说,‘Hive学起来非常简单,直接学Hive就行。’但这并不能解决与SQL工具兼容的根本问题。”

Russom认为兼容性只是一个短时间问题,但却阻碍了Hadoop的普及。

事实6:Hadoop与MapReduce相互关联,但不相互依赖。

MapReduce早在HDFS出现以前就由Google开发推出。除此之外,诸如MapR一类的厂商一直在宣传MapReduce功能的多样性,无需HDFS支持。

尽管如此,Russom却认为它们具有很好的互补性。HDFS的大部分价值都体现在可层叠到分布式文件系统的工具上。

事实7:MapReduce提供的是对分析的控制,而不是分析本身。

MapReduce是一种通用执行驱动引擎,可协助大数据分析。它能读取手写代码数据,对其进行并行自动处理,并将结果映射到单一集合中。然而我们需要明确一点,MapReduce自身并不进行分析工作。

Russom说:“MapReduce可以看作是升级版的MPP架构。你无论怎样编写代码,它都可以把它们并行化,非常强大。”

  • 人人网
  • 转播到腾讯微博腾讯微博
  • 新浪微博
热点文章排行
  • 微软重拳推出Office 365  微软重拳推出Office 365 2011年07月08日 经过大半年的准备,微软终于在今年6月份隆重推出了云计算办公套件Office 365。那么,Office 365作为微软集成了电子邮件、协作软件、字处理软件、电子表格和演示程序的办公套件重要产品之一,Office 365对微软来说到底是福是祸,能否为微软带来实质性的营收,能否让微软在新兴的云计算领域赢得一席之地?
  • 云计算和算计云 云计算和算计云 2011年06月22日 DOIT特别专题从云的历史进程到目前实施云的厂商,逐一谈起,让读者耳目一新的了解到现在云的现状以及如何不被云所算计。
  • 云端争夺战——IT厂商的盛宴 云端争夺战——IT厂商的盛宴 2010年07月27日 云计算到底是如何发迹的似乎已经不再重要了,重要的是它确实炙手可热。