您好,欢迎您来到DOIT! [ 登录 ] [ 免费注册 ]
您的位置:DOIT云计算> 风:云趋势 > 分析评论 > 正文

Informatica郑玮:如何释放Hadoop的潜能

和讯网 12年08月25日 17:39 【转载】 作者:和讯网 责任编辑:唐蓉

导读:近两年,IT业界创造了很多新名词,继云计算之后就是大数据。如果你在谷歌里搜索一下会发现,国内外IT业界提到“大数据(Big Data)”的频率都要远远高于其他名词,甚至其搜索频率高过了“云计算”。其实,云计算不是浮云,大数据也不会是洪水猛兽。

关键词: Hadoop 云计算

第1页:Hadoop的魅力在哪里?

近两年,IT业界创造了很多新名词,继云计算之后就是大数据。如果你在谷歌里搜索一下会发现,国内外IT业界提到“大数据(Big Data)”的频率都要远远高于其他名词,甚至其搜索频率高过了“云计算”。其实,云计算不是浮云,大数据也不会是洪水猛兽。

图 Informatica核心技术部资深产品管理总监郑玮

图 Informatica核心技术部资深产品管理总监郑玮

那么,什么是大数据?郑玮则一针见血地指出:什么是大数据:大交易数据、大交互数据和大数据处理的总称。相对于业界提出大数据的规模性(Volume)、多样性(Variety)、高速性(Velocity)和真实性(Veracity)的“4V理论”,郑玮更加推崇大数据的三个特征(3V:Volume、Variety、Velocity),除了数据总量之外,还有数据的速度和种类。

第三方市场调研IDC公司预测,未来10年,数据总量将增长44倍,达到35ZB(Zettabyte)。这些庞大的数据量、80%的混合结构数据,以及考验CIO神经的数据分析处理能力,都对企业应对大数据综合实力提出了高质量的要求。

Informatica郑玮定义大数据

Informatica郑玮定义大数据

当然,我们看到有很多行业仍然显得风平浪静,远不像互联网、金融、制造业等竞行业竞争那么激烈,但是从行业竞争的角度来说也是“暗流涌动”。 Gartner研究表明,全球500强中85%的企业将无法利用他们的大数据,而且,如果没有得到正确的管理,大数据也可能代表了巨大的成本和法规遵从风险。

Informatica郑玮解读大数据三大特征

Informatica郑玮解读大数据三大特征

对处理数据的平台带来新的压力。采用昂贵的设备进行数据处理当然好,但巨大的成本压力已成为很多企业难以承受的负重。用户希望能够以更经济的方式、更好的性能来处理数据,从而能够经济有效地利用快速增长的数据推动业务创新。在这样的背景下,Hadoop获得了快速发展。

Hadoop的魅力在哪里?

2008年,作为Apache开源项目发布的Hadoop,自问世以来几乎成为了大数据的救世主。Hadoop的两个重要特性:经济性和可扩展性,让其一时间红遍全球IT界。一些开路先锋已经投入很大精力来开发Hadoop,Hadoop取得的成功同时也促使主流市场对其稳定性、成熟的管理等更高的需求。这个群体中有影响力的主要厂商包括Cloudera、亚马逊、MapR、Hortonworks、DataStax、EMC、IBM、Informatica、微软和甲骨文等。

Hadoop的魅力到底在哪里?郑玮指出其中原因,Hadoop结合了成本低、可扩展性、无需构建预定义模式(predefined schema),而且能够灵活地处理任何数据等优点。

当然,能够让Hadoop几乎一夜成名的原因还在于Hadoop能够真正提高大数据的价值。精益原则在大数据时代比以往任何时候都有效,并且是使大数据不成为大债务的关键。Hadoop使企业能够使用精益数据管理,以降低数据成本,这包括:业务成本、硬件成本、人工成本、软件成本、存储成本。此外,通过易访问性、可操作性、权威性、整体性、相关性、安全性、及时性、可信性等特性,Hadoop还能帮助客户增加数据的价值。

第2页:Informatica释放Hadoop的潜能

Informatica释放Hadoop的潜能

“没有数据集成,大数据就仅仅是许多海量数据的孤岛” 郑玮表示。

在IT环境中,Hadoop不能作为一个孤岛存在。为了让Hadoop可以跨越不同平台并成为一种主流技术,用户需要将Hadoop作为他们IT大环境中的一部分来管理,通过Hadoop重复使用他们的开发技巧、资产及数据,并统筹管理全部数据。而在大数据时代,许多人寄希望于Hadoop厂商们能够开发出成熟可靠的工具、功能和技术创新,以更经济的方式、更好的性能实现数据处理和分析。

一直以来,Informatica公司都立足于提供一款单一的平台,借助统一的环境和方法,全面满足数据管理和数据集成方面的要求。特别是,Informatica 9.5的推出为企业用户带来了他们所需的交互性、生产力以及可管理性,以便快速采用Hadoop并最大化他们的大数据投资回报。

其实,早在2011年6月份,Informatica就推出了Informatica 9.1 for Big Data,打造一个专门针对大数据分析而创建的统一数据集成平台。如果说Informatica 9.1 for Big Data还是对大数据功能的一种尝试,那么Informatica 9.5则完全以大数据为核心的新一代大数据平台。

已经拥有近20年数据集成创新经验和领导才能的Informatica,扩展了其数据集成平台以支持Hadoop,最新发布的Informatica 9.5提供了全新及扩展功能,极好的释放了Hadoop潜能,帮助客户实现大数据最大投资回报。

Informatica 9.5释放Hadoop的强大潜能

Informatica 9.5释放Hadoop的强大潜能

那么,具体Informatica怎样来释放Hadoop的潜能的呢?郑玮通过数据处理的六大步骤给予说明。

第一步,是将数据摄入到Hadoop;

第二步,发现Hadoop数据的异常、关系和域类型;

第三步,在 Hadoop中解析和准备数据,这对于Informatica来讲是非常独特和重要的,现在数据类型非常多,要对其进行分析,首先要解析,将其变成可以工作的结构型数据;

第四步,在Hadoop中转换和清洗/标准化数据,数据一旦格式化后就可以进行转换、过滤、集成、分类等等;

第五步,在Hadoop上调用自定义业务分析;

第六步,从Hadoop上读取数据,目前一些大的报告工具,还不能够直接在很多平台上运行,因此需要把计算结果提取出来放到传统数据库中。当然,在一到六步的实现过程中,企业还需要管理整个过程,需要监督、监视系统发生情况。

目前,Informatica 9.5已经实现了上述提到的一、三、六步的功能,而二、四、五步功能则将在2012年底推出的Informatica 9.5.1版本中实现。

编者按:

当前,IT巨头都在通过自己独立的方式化解“大数据”难题,虽然极力避免,但是受到某些IT厂商霸道“绑架”行径却是屡见不鲜。如果厂商提供公开的API还好,如果厂商有意封闭,那么最抓狂的还是企业用户,就等着“一条道走到黑”吧。第三方大数据平台的出现,将在一定程度上打破企业用户担心的“捆绑”危机。

  • 人人网
  • 转播到腾讯微博腾讯微博
  • 新浪微博
热点文章排行
  • 微软重拳推出Office 365  微软重拳推出Office 365 2011年07月08日 经过大半年的准备,微软终于在今年6月份隆重推出了云计算办公套件Office 365。那么,Office 365作为微软集成了电子邮件、协作软件、字处理软件、电子表格和演示程序的办公套件重要产品之一,Office 365对微软来说到底是福是祸,能否为微软带来实质性的营收,能否让微软在新兴的云计算领域赢得一席之地?
  • 云计算和算计云 云计算和算计云 2011年06月22日 DOIT特别专题从云的历史进程到目前实施云的厂商,逐一谈起,让读者耳目一新的了解到现在云的现状以及如何不被云所算计。
  • 云端争夺战——IT厂商的盛宴 云端争夺战——IT厂商的盛宴 2010年07月27日 云计算到底是如何发迹的似乎已经不再重要了,重要的是它确实炙手可热。