您好,欢迎您来到DOIT! [ 登录 ] [ 免费注册 ]
您的位置:DOIT云计算> 风:云趋势 > 分析评论 > 正文

大数据的发展与应用:Hadoop的前世今生

IT168 12年06月28日 15:52 【转载】 作者:it168 责任编辑:王振

导读:大数据计算我们把它理解成为一个什么事情呢?目前现在这个时代通信、网络等等这些电子信息技术发展,使数据规模得到了极大的增加。

关键词: 数据管理 Hadoop 大数据

Hadoop HDFS体系结构:

它是多集群处理,利用每个机器硬盘处理。它的数据分成块,这些块是有副本的,这些副本是存在不同的机器上的。为什么要这么做呢?就是因为硬件有可能出故障,如果硬件出故障以后存储在机器上的这个块不可用了,但是因为也副本,所以其他机器上可以把相应的块拿出来用,所以整个系统可靠性非常高。

第二个就是处理流程。处理流程是两个计算过程。第一个计算过程相当于分配任务,我可以把任务分几百万分,分到很多机器上去算,计算完了以后有一个归约过程,把中间结果再归约处理,最后得出结果。这种处理方向很适合做文本处理。再讲一下我们做的实际工作:

我们做的工作是跟Facebook的合作,就是叫行列混合式数据存储技术,英文是RCFile。大家知道关系数据是一张表,这个表怎么存到硬盘上? 有很多种不同的格式,我们选取的格式希望有利于节省存储空间。比他们先进的地方就在于,我们用的是行列混合式,既不是行式,也不是列式,是混合在一起。这 样比纯粹行存储节省20%的空间。比如他们原来600台机器存不下了,用这个模式就存下了。比纯粹列式要节省23%。

第二个技术是CCIndex技术,这个技术是希望在数据模型中间取一个折中,让数据库有查询的能力。它最终的效果就是,我们比它最传统的二级索引快10倍。

总结:大数据计算技术的发展趋势就是三个字“大、快、准”,我们目前处在的阶段是“快”阶段,“准”这个事目前还没有太好的技术能够出现。

第二个就是数据计算模式是有变化的,以前是以计算为中心,以机器为中心,现在以数据为中心。在这样的变化前提下,很多新的技术涌现出来,比如说Hadoop。出现了这些新的技术,新的市场也会出现。目前看起来一些大的软件厂商,比如说Oracle,它直接在它的Big Data里内嵌了一个Hadoop做大数据处理。这些厂商也在关注Hadoop软件。

第三,数据规模对传统的关系型数据库的技术提出了挑战。关系型数据库技术也在经历一些变革。NoSQL技术是对关系数据库的一个有利补充,这是实际 需求导致的结果。实际需求就是量太大了,但是功能并不像SQL那么全,我只需要一个子集,这样技术可以简化,NoSQL技术比关系数据库技术要简单,但是 它的价值取向是快,是可以扩展的,性能要好。

  • 人人网
  • 转播到腾讯微博腾讯微博
  • 新浪微博
热点文章排行
  • 微软重拳推出Office 365  微软重拳推出Office 365 2011年07月08日 经过大半年的准备,微软终于在今年6月份隆重推出了云计算办公套件Office 365。那么,Office 365作为微软集成了电子邮件、协作软件、字处理软件、电子表格和演示程序的办公套件重要产品之一,Office 365对微软来说到底是福是祸,能否为微软带来实质性的营收,能否让微软在新兴的云计算领域赢得一席之地?
  • 云计算和算计云 云计算和算计云 2011年06月22日 DOIT特别专题从云的历史进程到目前实施云的厂商,逐一谈起,让读者耳目一新的了解到现在云的现状以及如何不被云所算计。
  • 云端争夺战——IT厂商的盛宴 云端争夺战——IT厂商的盛宴 2010年07月27日 云计算到底是如何发迹的似乎已经不再重要了,重要的是它确实炙手可热。