微软王枫:云计算与大数据时代下的新世界
DOIT云计算 12年10月29日 00:54 【转载】 作者:三水 责任编辑:唐蓉
导读:10月25日,2012云计算架构师峰会在北京召开。近几年,IT技术与互联网的发展影响了整个产业的格局,带来了全新、鲜活的业务模式。面对这些变革,本届大会邀请了百余位行业内精英针对IT技术发展和应用的实践经验等热门话题进行深入探讨。微软亚太研发集团中国云计算创新中心总监王枫先生带来精彩演讲,演讲的主题是“大数据的新世界”,以下为演讲实录:
今天首先很高兴有这样一个机会跟各位领导,还有IT界的同仁们一块共享一下云计算作为现在IT新一轮的潮流。刚才北航的孙院长讲了一句话,现在是IT界的乱世,乱世出英雄。我想大家也很清楚,随着下一代IT趋势作为互联网新的IT技术的发展,大家现在确实进入到IT的新阶段,在这个阶段里,我想最主要的就是三个主要领域,第一个就是云计算,第二是物联网,第三就是大数据。
我想强调一下,其实从云计算来说,它最主要的带给IT、带给人类的三个主要的优势,一个是它的经济性,一个是它的快捷性,一个是它可以通过云计算来让企业实现更多的创新。在这里,一个最主要的就是对资源的整合。大家听到云计算里有一个最关键的词,资源池,它等于把所有的资源数据通过云计算的技术、云计算的理念能够整合起来,在这里面数据是非常非常主要的。云计算咱们刚才听到了不管是IBM的同仁,孙博士讲到了各种各样的应用,其实所有的应用,数据是其中一个主要的核心,不管你是基础设施、不管你的平台、不管你的应用,没有数据,你就是一个空的架子。从物联网角度来说,它实际上主要是对目标的所有属性进行采集,对这些属性进行跟踪、管理和分析,这些属性是什么?就是数据。所以,在开场这一段我想说的,所有的这一切都是数据在云计算和物联网里面最主要的,也是下一代IT趋势的一个最主要的核心。我今天主要的重点是专注于大数据,大概从几个方面,一个是大数据的概念,什么是大数据,为什么是大数据,现在大数据的重要性。接下来,从大数据的生命周期、主要的一些环节、主要有哪些技术去实现大数据给我们IT、给人类和企业所带来的价值,微软在这方面有哪些创新,我们在国内外有哪些案例,大概从这几个方面来介绍。
这个幻灯片刚才徐博士也播放过了,现在为什么在这个时间段大家进入了一个大数据的阶段?我想主要的原因是很多的设备,不管是无线设备、公共互联网,包括各种各样社交网站、各种各样互联网的应用带来的数据膨胀,包括云计算、包括硬件各个方面。随着这些技术,随着这些互联网平台,随着设备不断的成熟、不断的扩大,由此而产生的数据就生长到了一个非常大的程度。同时,为什么大家说大数据这个概念?实际上在10年前,20年前,也有很多数据的膨胀,为什么现在我们要提到大数据是IT趋势里很重要的一个环节呢?因为我想要做到对于数据的处理能够更有效,你还需要硬件,在计算、在存储、在各个方面有足够的就绪,同时它的成本能够降低。就像刚才徐博士讲的,如果说在10年前、20年前,1G硬盘需要花很多的钱,咱们也不需要去谈大数据。云计算也好、大数据也好,其实最主要的给企业和政府带来的利益就是它经济上的价值。从这点来说,我想现在IT进入到了这么一个领域,通过有这么样的一个不管是在硬件、在软件各个方面就绪的这么一个阶段。
大家可能有一个很常见的问题,什么是大数据?从大和数据这两个词语里面大家可能有一个直观体会,第一是数据,第二是大,这个大代表什么意思?从几个方面,第一,所谓的大数据,主要的原因是随着IT的发展,随着互联网的成熟,随着刚才所讲的各种各样数据源的成熟,在这个世界上现在产生了各种各样的数据,这些数据不光是它的数量的大小,同时是它的种类的繁多,不再像传统那样,很多结构化的数据,现在有各种各样非结构化的数据,这些数据可以是视频、可以是音乐、可以是文件、可以是各种版本的文件。这些东西随着这些现有的技术,滋生出来各种各样的数据,它就形成了一个大数据的“大”的概念,所以这个大不简简单单是尺寸的大小,表示了这个数据的复杂性。
大家可以看到,通过这张图,实际上在互联网之前,主要的数据来源是企业内部的数据源,每一个企业有自己的IT中心,有面向企业的应用,通过ERP等各种各样的数据。互联网是一个非常大的创新,通过互联网实际上对应用和数据提供了一个庞大的平台,在互联网上就滋生出各种各样的数据,大家现在听到过一个词IT消费,我们每个人所接触到的数据,或者你作为一个数据的发源体,所产生的数据是无穷无尽的。最近IDC有一个统计,到目前为止,整个世界的数据量是达到了一千个ZD,ZD是一个什么概念呢?ZD相当于10个亿的PD,这个数据量已经膨胀到非常非常大的阶段。在这个基础上,同时,我想根据IDC的报告,在接下来的十年时间里面,这个数据还会继续扩展,可能会扩展到一千个ZD的几十倍,这就带来了大数据它会给我们IT、会给我们企业带来什么样的价值,这一点实际上是大数据最关心的,也是大数据最主要的一个核心。如果我来定义大数据的话,我通过底下的这么一个图表,其实大数据是一个产业链,也就是说数据现在在那里,很多可能是free的,有一千多个ZD的数据,你怎么利用这些数据去发掘它的潜能,必须要有产业链,从数据的产生到数据的采集,到数据的存储,到数据的发送,到数据的处理,到数据的分析,到最后,通过你把这些数据产生出来的分析结果,如何用它去指导你的企业,并制定企业更好的方针和政策,所以它是一个产业链的概念,在每一个环节都是不可缺少的。
随着大数据的趋势和大数据的现状,确实也给企业带来了很多问题,包括一些挑战,大数据在那里,我也知道它的价值,那么我怎么去通过大数据来发掘出它对我企业能够制定更好的方针和政策,如何去更好的处理实时的数据,通过我刚才讲的产业链,采集、存储、处理、分析各个方面,最后如何通过更好的工具去分析,我把这些数据可视化。这些都是摆在企业面前的一个挑战和创新。
大数据确实是给企业、给世界、给IT,包括政府在内,提供了很多的机遇。其中之一,就是对于企业的决策,任何一个企业的决策,他通过什么去保证他能够制定更好的方针和政策,我想这个东西不能只是拍拍脑袋,要根据一些真凭实据,现在有这么好的数据资源,怎么更好的利用,这是很重要的。大家可以看到,将近50%以上,现在在世界的各个企业的领导者都知道怎么去应用大数据来做企业规划和战略的制定。同时,大数据是一个产业链,这个产业链不光是虚拟的概念,它同时也带动了不光是在软件上,IT的服务、软件的开发,包括硬件,我刚才讲了,大数据离不开硬件的基础、计算、存储,也带动了整个IT的商业发展。
刚才讲了一些概念,接下来我会从大数据的生命周期,我们微软认为最主要的三个阶段,来给大家做一些具体的介绍。这三个生命周期,第一,首先你要把这些数据采集起来,通过什么样的方式。第二,这些数据要存储,以什么样的存储技术,能够保证它的安全性,它的不间断性、可持续性、扩展性。在这个基础上,当你也了数据以后,如何去把这些数据做处理,去丰富、去满足你企业所想要的要求。最后,如何在这个基础上,通过你已经处理好的、已经整合的、已经清理干净的数据,来在上面做分析,来做格式化的展现。所以,这三个我想对于实现大数据的价值是非常非常重要的环节。
说到存储,大数据对存储的要求是非常非常高的,我想从简单的技术层面来说,你能够存多大的数据量,你数据的安全性、不可间断性、可持久性、扩展性,是这些数据存储的基本技术。从另一点来说,大家又会面临一个问题,也就是说现在大家说到云计算,一般来说,在一个IT的应用里,在数据存储这块无非有几种方式,一种是传统IT的方式,也就是说每一个企业邮自己的数据中心,这个数据中心既可以是传统的物理机的模式,没有采用云计算的技术,也可以是一个私有云,同时像徐博士也讲了,微软有自己的公有云,不光是微软,还有业界的其他公司也有公有云的这种模式,我也可以通过公有云来存储管理我的数据。这里面有什么区别呢?我想给大家总结一下,比较大的区别,因为刚才徐博士也不断强调安全,我想对于公有云的模式,实际上安全包括网络上的速度可能是一个比起私有云和你自己的数据中心来讲,是一个你需要考虑的因素。因为你一旦放在公有云上,你一旦开放了,你一旦通过很多的网络,通过外网就会很必然的,特别是数据量很大,像大数据这么大的数据量,各种各样复杂的数据,虽然能够帮你节省管理和运营的成本,你不需要自己管理运营数据中心,但是也有它的弊病。从另一点来说,如果是你企业自己内部的一个内网监控下的私有云,或者传统的数据中心来说,你可以通过你自己的控制,来保证它的安全,来提高你的效率,特别是数据中心的效率。
从这个角度来说,混合云,在一种混合的模式下可能是一种最好的方式。也就是说对于大数据的处理,你可以根据企业的业务特性,来制定哪些应用、哪些数据需要通过私有云的方式,哪些需要放在公有云上,来利用公有云的优势,这样对于企业来说,最后是以私有云的方式来管理存储大数据。
从存储的角度,我想再回到核心的技术,最主要的有两点,第一,关系型的数据中心,第二,非关系型数据中心。比如说微软SQLServer已经不简简单单针对结构化的数据,各种各样的数据类型,SQLServer都有这个能力去处理存储,甚至可以自定义自己的数据类型,有些数据类型可以通过它提供的技术自定义,同时因为它是关系型数据库,对于刚才我讲的大数据、复杂的数据,可以利用各种各样的技术进行查询、索引,比如刚才讲的全文本的查询、非结构化的属性的查询,都可以通过它提供的各种各样的技术来管理、存储,来更好的利用这些数据。
另一点来说,叫非关系型数据存储技术,它跟关系型的差别是什么呢?主要的重点是说我只是专注于数据的读取,关系型的数据存储非常复杂,对于非关系型的数据,比如说大的视频、大的音频,其实你更关心的只是我这个数据怎么存储、怎么把它拿出来、做一些简单的属性上的查询,不需要太复杂的关系型的操作。SQLServer的好处,从性能上、从效率上、从操作的简单上,相应来说比关系型数据库有它的优势。但是从这点来说,我想这是两个不同的技术。从微软来说,SQLServer是微软大数据平台,特别是在存储的角度。
再讲一下HADOOP,实际上HADOOP最主要的特性就是它提供了一种世界IT领先的技术,去如何通过这种并行的技术处理各种各样的数据,通过HADOOP自己存储的空间,或者说跟微软的存储集成,但是最主要的它是世界领先的数据处理技术,一千个ZD的数据怎么去处理它,怎么样利用现有的硬件资源去并行的处理,去达到智能性的处理,HADOOP无疑是现在非常领先的IT技术。从微软的角度,我们利用大数据的平台跟HADOOP的集成,更好的去为用户提供这种灵活和方便的技术。
我举几个例子,通过我们的活动目录跟HADOOP的集成,能够更好的提高HADOOP对数据的安全性,通过云计算主要的管理工具跟HADOOP的集成,能够跟HADOOP为主的大数据的处理提供一套最先进、最灵活的管理方式。通过SQLServer,它的存储也好、它的商业智能跟HADOOP的集成,能够把HADOOP处理完的数据更好的展现给大家。所以,我们跟HADOOP的集成也是做到了淋漓尽致的地步,同时从微软的角度,我们也提供了一个对于开元、更开放的平台,跟世界IT领先技术进行了很好的结合。
接下来有一个录像,主要是SQLServer在5月份新发布的2012版本。这个录像主要是从SQLServer大数据的存储平台和BI平台的角度,包括跟HADOOP的集成,给大家有一个介绍,从我们的用户在世界上的一些案例和这些特性,让大家有一个逐步的了解。最主要的就是保证数据的不间断性,这是一个大数据存储必需的条件,大家想想,如果对一个企业来说,你这个数据的存储要下线,对于用户来说是一个什么样的概念。HADOOP跟WindowsAzure的公有云,我们有一个HADOOPonWindowsAzure的集成,所以它在上面可以达到挥淋漓尽致的集成和应用。
刚才讲到数据的采集、数据的管理、数据的存储,接下来,当你有了数据以后,如何去处理、去分析、去丰富,就像一个绞肉机一样,刚才徐博士讲到白菜架,我想怎么把白菜架上的白菜剁成馅包成饺子,接下来我会从这个方面给大家做一个介绍。
数据的处理无非是几个方面,你现在的数据存储起来了,很庞大,虽然它们有一定的结构,存在关系型或者非关系型的数据库里,已经也一定的模式,但是还是很杂乱。即使这些是跟企业相关的数据,如何把它细化,如何把它做成细碎的供企业真正应用的精神和技术上的食粮,我想在如何发现、如何组合、如何转换、如何分类数据,都是下一方面要的主要方面。
首先要了解这些数据的来源,它到底是什么样的数据,是个人的、企业的、互联网的,最后通过数据的整合和分析,你可以从数据里面提出精炼的你想要得到的价值。大家现在都知道应用商店的概念,应用商店什么意思?从微软也好、苹果也好,业界都提供了应用商店的概念,在应用商店里,不光是用户和企业都可以通过软硬件的模式享受应用,同时也可以把自己的应用放在这个商店里共享,提供商业价值。在应用基础上,由于大数据又带来一个新的概念,就是数据商店,也就是刚才我讲到的,从大数据的产业上来说,你需要一个数据商店的平台,这个平台能够让你去把你的数据,不管你是数据的供应商、集成商、采集商、开发商,你都可以通过这个平台去把你的数据放到这个平台上,去跟所有的企业、所有的伙伴共享。同时,你也可以享受在这个平台上所拥有的各种各样的资源。对微软来说,我们在WindowsAzure平台上,除了我们自己的应用商店以外,通过SQLServer的技术跟Azure的集成,跟HADOOP的集成,我们也创建了应用商店,它是一个非常好的模式,同时也是基于公有云上的数据商店这么一个平台。
当我对数据进行很好的处理和丰富以后,接下来要对大数据所做的事情,就是你如何根据企业的需要好好地进行分析,提供可视化的数据,来为这个企业服务。从这点来说,刚才我记得北航孙院长也讲到人才,其实这个大数据不光是带来了整个IT产业链的发展,同时也带来了对新的人才的需要。大家可以看到最左边的数据科学家,实际上数据科学家是随着大数据而产生的,他不一定是一个IT专业人士,但是他要对这个企业有特殊的专业知识,他能够知道摆在我这个白菜架上的这些白菜,哪些是企业需要的,哪些是需要留在那里的。所以,这个数据科学家我认为是伴随着大数据产生出来的一个新的职能,是一个乱世出英雄的机遇。你要通过对商业智能各种各样的工具、各种各样产品的熟悉,来产生你的商业智能分析的模式,然后通过你的技术,把这些分析的模式,怎么把它通过可视化的方式展现给最终的用户。所以,这三位人员实际上他是对整个大数据分析里面必不可少的三个职能。
接下来这个录像主要是给大家展示一下微软SQLServer,我想大家需要看到的就是SQLServer2012在数据展示上有哪些新的技术,通过拉拽过程中,没有用过一次键盘,最右边是大数据各种各样的分类。这是一个汽车租赁公司,他通过这些数据,通过拉拽的方式,产生各种各样类型的展现模式,这些模式是通过Windows、Office等等来展现的,你可以在数据间根据你的需求来自动展现想要达到的数据模式。另外对于一个不懂IT的专业人员,你也是通过这种方式来实现你所要的数据展现。比如我我是一个企业的老总,我想看看这个季度的销售量,哪些人想买什么样的车,我只要把这个拉拽到我的窗口,通过一年的分析,每一个季度的分析,甚至有动态的移动,来显示不同季节之间的数据变化,非常非常酷,也是一个非常非常重要的在大数据里面的一个必不可少的阶段里的一个重要的技术。
我想总结一下从微软的角度,刚才我讲到大数据的生命周期,数据的采集、管理、存储,数据的丰富、处理、数据的分析,我们微软作为一个世界领先的软件公司,我们都有哪些方面的技术、解决方案,能够帮助企业和用户来实现你这个大数据在产业链的每一个过程。从下到上,刚才我给大家也介绍了,以SQLServer这个大数据的平台为主,通过跟HADOOP的集成,通过跟WindowsAzure公有云的集成,来实现在这个产业链里的每一个步骤,可以通过嵌入式的Windows放在每一个设备里。我举个例子,通过Windows嵌入在每一个设备里,来提供每一个设备所产生的各种各样的数据,比如说车载的设备,怎么能够及时跟踪这些数据,这个数据能够通过微软集成的技术,把它通过互联网、通过网络转移的我的数据库,各种各样的数据源,不同的数据库、不同的文件、HADOOP都可以通过微软数据库集成的技术把它通过数据的转换,存储到微软的数据平台上。在这个基础上,通过跟HADOOP的集成,能够利用HADOOP对大数据处理的优势,在跟微软各种各样领先技术的结合展现分析,这样就把整个数据的产业链提供了一个从底到上完全的解决方案,最后,通过刚才我给大家介绍的可视化的工具,也就提供了一种完整的产业链和一套非常合理有效的结构。
微软在大数据上,我们在最近这几年在世界上的各个地区跟很多客户也做了很多成功的案例,中国也是微软很重要的市场,我们也做了很多相应的云计算、大数据的成功案例。接下来,我也想就这个机会给大家展示一段录像,这是我们在中国的一个非常成功的与食品监控有关的案例,实际上它集成了云计算、物联网还有大数据三个最主要的IT趋势的核心。
刚才这个短片我们管它叫猪肉云,成都是全国猪肉最主要的产地,我想给大家说的是,它实际上是给了一个很高的案例,在这个上面大家可以看到,这里面所用到的技术,云计算、虚拟化、高性能计算、管理、数据库、大数据的平台、BI商业智能的分析,包括云加端的概念,这是一个很典型的已经在实用,已经落地,已经被政府正式采用,为市民提供服务的一个很好的案例。
最后,我想总结一下,大数据让我们所有人都很兴奋,但是,对于大数据来说,它还是面临着一些挑战,不管是云计算还是大数据,我们进入到这个乱世,但是这个乱世还是有很多风险,也有很多未知的难题需要我们共同去解决。
简单总结一下,从大数据的角度有几个比较主要的挑战,第一就是专业人员,包括三个方面,数据分析师、商业智能分析人员包括计算机的开发人员,大家看到这个商业里面有很多东西,有基本的技术支撑平台和技术,但是需要很多的开发和操作。第二,公共的常识,大家对大数据是一个什么理解,不同的人、不同的企业有不同的理解,怎么能够统一他的理解,这个很重要。需求的差异,一个大型的企业和中小型的企业对大数据的要求和应用模式是不一样的,怎么能够按需来制定你的大数据技术和方案非常非常重要。最后,产业链的完整性,刚才我所讲的,如果这个产业链缺一个环节,你都不叫大数据,所以,在你想利用大数据挖掘潜力的时候,你要想到这个产业链的每一个环节用什么样的技术去解决。采集的短缺,真正去采集这些数据的企业人员到底有多少,有多少是一个专门的进行数据采集的,这还是一个未知数,而这一点是刚才我所讲的产业链的第一位,接下来才是存储,才去把这些数据整合起来。
标准化,现在五花八门,各种各样的技术,这些技术对大数据处理所带来的劣势是你要经过很多格式的迁移、各种各样非标准化相互之间的集成,这样在不同程度上,对数据的读取中间有很多的环节,不管是存储的技术、开发的技术、整合的技术,这一点也是一个非常大的挑战。我想任何一个IT的新的技术,经过一段时间,大家都会照着一个标准化去发展,不管是像大家知道的互联网、云计算、数据库,虽然有各种各样的厂家,但是大家还是有一个比较一致的标准,我想大数据将来也会朝着这么一个方向去制定它的基本标准。
基础设施,很简单,我想如果没有硬件、没有网络,没有一套很完整的私有云或者公有云,这些东西如果不解决的话,你的数据只能摆在白菜架上,可能甚至摆在地上,因为你没有这个白菜架。
可视化工具非常非常重要,做了一系列的在这个产业链里的采集、存储、处理。最后你需要把这些数据通过简洁易懂的模式展示出来,你需要很好的工具快速的实现可视化,刚才我也给大家演示了微软BI的可视化的工具,我想这个在业界还是一个非常领先的可视化工具。
根据刚才我所讲的,我也大概总结了从产业链最开始到最后的一个大概的解决方案的框架,从数据的采集,利用什么样的技术,利用HADOOP、SQLServer的存储,通过BI,通过这种可视化工具,最后怎么去展现,这个数据里面有这种流媒体等等,我想这个也作为今天演讲的一个总结。这里也有一些资源,我知道明天有一个分会场,我们有一个SQLServer的大数据专家,他也会专门对大数据和HADOOP的集成做一个非常详细的讨论。谢谢大家的聆听!