微软大数据战略的核心:Hadoop
中关村在线 12年03月13日 15:14 【转载】 作者:CBSi中国·ZOL 责任编辑:周晓丽
导读:如今,Microsoft已经将Hadoop作为自身大数据战略的核心。Microsoft此举的理由就是看中了Hadoop的潜力,在大数据领域Hadoop已经成为分布式数据处理的标准。
利用JavaScript API与C#进行Hadoop开发
对于Microsoft推出的Hadoop版本最具特色的特点之一是附加JavaScript API。Hadoop上的编程工作是乏味的,这就是为什么别的高级语言会出现(如Pig)。
Microsoft选择在Hadoop环境中添加JavaScript层,开发人员可以使用它创建MapRedcue的工作,甚至在浏览器模式下与Pig和Hive进行数据交互。JavaScript层所带来的真正优势是将自身集成到Hadoop商业环境中,这使得开发人员能够轻松创建内网分析环境以便于商业用户访问。
Microsoft通过Node.js将JavaScript引入服务器端的Windows Server以及Windows Azure平台之上。同时Microsoft计划将自身的JavaScript API贡献给Apache Hadoop开源社区。这对于Hadoop社区也是一个利好的消息。
更重要的是Microsoft使得使用.NET平台开发Hadoop应用成为可能。Microsoft计划直接利用现有Hadoop API使用.NET平台创建MapReduce任务。更高级别的接口或许将出现在未来的版本中。随着时间的推移,未来在Visual Studio中对Hadoop项目开发的支持将不断提高。同时未来运行在Azure之上的Hadoop项目将允许使用.Net Framework框架之上基于Common Language Runtime (CLR)语言(如C#语言)进行编程。

流数据处理系统与NoSQL
对于大数据人谈论最多的无疑是Hadoop,但流数据处理以及NoSQL对于大数据同样重要。对于Microsoft,他们自然会有所准备。 Microsoft推出了被称之为StreamInsight的流数据解决方案。NoSQL方面,Microsoft也具备了Windows Azure平台上被称之为Azure Tables的NoSQL数据库。
展望未来,Microsoft对Hadoop兼容性的承诺意味着,流数据解决方案StreamInsight以及Azure Tables会作为Hadoop环境的一部分与Microsoft分布式HBase作为核心产品推出。同时现今的流数据解决方案(如Yahoo S4)将会与Microsoft相兼容。

与现有工具集成
Microsoft正倾向与向大数据工具集成现有的主要组件,这是否意味着Microsoft打算为企业提供一个综合数据科学平台?Microsoft大数据资深产品规划负责人Madhu Reddy给出了肯定的答案。Microsoft Hadoop开发工作的主要宗旨就是让人们使用熟悉的工具,Microsoft专注于与现有工具的互操作性。Microsoft此举涉及各个层面的使用人员,包括开发者、分析师、企业用户等。Excel是一个无处不在的软件,Excel与Hive的互联就是一个很好的例子。不过其他的工具也同样重要,如 MATLAB、SAS或R。
总结
Microsoft大数据战略确保Windows平台能够在大数据时代继续发挥自身的作用。并使得在数据中心业务中使自身的云服务具备更强的竞争力。Microsoft的另一个做法是将大数据与自身庞大和多样化软件无缝集成。可以看出Microsoft的重点是进行大力整合。Microsoft 与Apache Hadoop社区的合作确保了新的工具和天才的开发人员向这个平台迁移。