您好,欢迎您来到DOIT! [ 登录 ] [ 免费注册 ]
您的位置:DOIT云计算> 风:云趋势 > 分析评论 > 正文

大数据的发展与应用:Hadoop的前世今生

IT168 12年06月28日 15:52 【转载】 作者:it168 责任编辑:王振

导读:大数据计算我们把它理解成为一个什么事情呢?目前现在这个时代通信、网络等等这些电子信息技术发展,使数据规模得到了极大的增加。

关键词: 数据管理 Hadoop 大数据

大数据计算我们把它理解成为一个什么事情呢?目前现在这个时代通信、网络等等这些电子信息技术发展,使数据规模得到了极大的增加。2011年整个全球产生的数据量达到1.8ZT,这样的数据量为传统的处理数据的技术提出了挑战。传统的技术处理不了这样规模大的数据量。所以现在提到了,企业里怎么样才能把数据变成价值?以前我们都说叫业务为王,现在这个时代,我认为它已经转换到了以数据为王的时代。这儿有一个例子,如果我们要处理100TB的数据,如果用一台机器处理的话,假设每秒钟扫描50兆,需要35000分钟,用1000台机器干这个事可以缩到35分钟,这说明这么大的数据只能用多机分布并行的方式处理才能够把时间大大的缩短。在应用领域,比如说数据仓库、日志分析、用户行为分析、在线行为分析,这些都属于大数据应用计算的应用领域。数据的一些具体问题这里有一些数字,去年Facebook已经有6亿用户,现在这个数字已经变成9亿了,每个月这些人上传照片10亿,每天产生300TB的数据,所以什么样的公司能承受这样的数据量?它一定有自己的办法。

国内淘宝大概有3.7亿会员,商品是8.8亿,每天交易近1000万笔,每天会产生20TB数据。从总的全球数据增长趋势看,我们现在2010年是1.8, 20年后会增大44倍。60%创造的数据会因为没有办法存储而丢失,所以整个挑战就是数据报帐对存储效率都会提出一个挑战。

第一个矛盾就是数据的增长太快了,但是想一想,我们如果想把这些东西存储下来必须要有机器,必须要盘阵等等一系列的东西。等你发现数据中心扩容中心和数据增长的速度相比较而言不匹配的时候,就会产生一个很剧烈的矛盾。我们在和Facebook做一些合作的时候,09年的时候他们出现了这样的问题,老的数据已经满了,新的数据正在建还没有建好,这样的空档期所有的数据都有可能被扔掉。大家知道互联网企业对数据价值很重视,所以我们合作的时候发明了一项新技术,使得它在原有600台机器的情况下平滑的迁移。

第二个是业务深度不断加强。但是现在处理性能和处理技术跟不上。我希望从大数据里挖掘更有价值的东西但是没有“金刚钻”,所以归结起来大家看到的矛盾就是这两方面的矛盾。

  • 人人网
  • 转播到腾讯微博腾讯微博
  • 新浪微博
热点文章排行
  • 微软重拳推出Office 365  微软重拳推出Office 365 2011年07月08日 经过大半年的准备,微软终于在今年6月份隆重推出了云计算办公套件Office 365。那么,Office 365作为微软集成了电子邮件、协作软件、字处理软件、电子表格和演示程序的办公套件重要产品之一,Office 365对微软来说到底是福是祸,能否为微软带来实质性的营收,能否让微软在新兴的云计算领域赢得一席之地?
  • 云计算和算计云 云计算和算计云 2011年06月22日 DOIT特别专题从云的历史进程到目前实施云的厂商,逐一谈起,让读者耳目一新的了解到现在云的现状以及如何不被云所算计。
  • 云端争夺战——IT厂商的盛宴 云端争夺战——IT厂商的盛宴 2010年07月27日 云计算到底是如何发迹的似乎已经不再重要了,重要的是它确实炙手可热。