大数据 传统业务不适合新形势发展要求
DOIT云计算 12年06月15日 13:39 【转载】 作者:中国软件资讯网 责任编辑:王振
大数据时代,传统的业务模式已经不能适合新形势的发展要求,一次大变革已经悄然拉开序幕。
在日前举行的2012 Teradata天睿公司大数据分析方案研讨会上,Teradata高级解决方案顾问李向前对记者表示,由于SQL和MapReduceSQL各自的缺陷和优势,二者都无法独立承担大数据分析的重任,综合二者之长的SQL—MapReduce,才是大数据分析的趋势。
Teradata认为,当前非结构化的数据增长更快,每天都产生大量的数据,分析的丰富程度也在增加。因此,大数据的分析,需要一个快速的、简单的、scale—up的分析平台。
李向前表示,首先,在大数据时代,传统的SQL已经不能满足所有的业务需求,一些查询不灵活、不直观或者很难准确表述,且DB系统会选择一个较差的执行计划执行,效率低下。其次,传统的UDF存在一定的缺陷,运算函数非常有限,表函数无法做到并行处理,固定的schema限制了重复使用。第三,大数据分析的需求可能用RDBMS无法满足。
正式由于上述原因,在大数据成为最新挑战的今天,始建于2011年在谷歌执行一个大数据处理的Map/Reduce系统逐渐受到关注。Map /Reduce是一种并行编程模式,定义有Map/Reduce两个函数,并且独立于任何特定的实现。MapReduce可以扩展支持到非常大的数据规模,克服了传统数据仓库扩展性限制和难以表达等问题,已经被很多知名的数据规模比较大的互联网公司使用;MapReduce还提供高效的编程模式,简单、移动,并实现最大程度的并行。
然而,Teradata认为,MapReduce有一个致命的弱点,即非常依赖于编程实现。这意味着,MapReduce很难重复使用,随着新的业务问题不断的出现,都需要重新编码,这无疑加大了使用难度和工作量,也间接增加了企业的投入成本。
李向前表示,弥补代沟的最佳选择是SQL—MapReduce。
SQL/MapReduce(简称SQL/MR)是Aster Data的一个框架,支持当前流行的Java和C预言,用户可以将代码安装在nCluster中,可以在数据库中由SQL调用,系统将自动并行执行。
李向前介绍,SQL/MR以“21世纪的UDF(a UDF for21st century)”为目标,致力于提供良好的可扩展性,友好的分析界面和开发界面。
可扩展性:非常容易让数百台服务器的硬件资源发挥作用;容错性由系统自动处理。
分析界面:分析师可以用类似SQL语言灵活表述;开发人员开发被分析师广泛使用的工具;查询的语义无需与具体的实现方式混合在一起。
开发界面:简单易懂的编程模式;便捷的开发平台服务,开发人员尽可能自由发挥。
Aster Data是Teradata收购获得的资产。为将不同渠道的数据放在一起,并且充分利用传统SQL的作用,Aster Data提供了一个支持行列混合存储的机制,并且结构化数据与非结构化数据可以分开存储,聚合分析,其底层有一个高速互联的连接器。
简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。