北京华智鑫达科技李宁:云计算与大数据应用
CIO时代 12年08月25日 17:00 【转载】 作者:CIO时代 责任编辑:唐蓉
我们对大数据技术发展也进行了研究。Google在创业阶段,它的想法是把整个互联网内容下载下来,计算分析网站内容。他们是创业阶段没有那么多钱,就买了很多相对便宜的服务器,给集中在一起,将整个互联网数据下载下来,并且计算。2005年Google发表了一篇论文,就是分布式计算跟存储的论文。这个时候Nutch项目的领导人对这个方法很感兴趣,使用这个。最后Yahoo也用了这个方法,研发了几年把研发结果回赠给他们。这个项目就变成现在众所周知的Hadoop项目。
Hadoop特色,刚才嘉宾们也说过了。首先是为大规模数据存储和计算提供可靠、高效、可伸缩的开源软件框架,应用的硬件需要成本低廉。这是其他项目所无法比拟的。刚才中国移动的领导也提到一个对比表,一个是400万投资,一个是25万的投资,这就是Hadoop的魅力所在之一。它有几个假设,最重要的假设就是它的主要节点是要保证运行,如果崩溃了的话,问题很大。DataNode崩溃率是非常高的。这是两个关键的假设,这些假设决定了DataNode可以用很便宜的硬件设施来实施。
下面介绍一下Hadoop的架构。它是一块数据过来,分了很多块(128M或者64M),通过运算产生中间结果然后得到最终结果,这就是一个最简单的Hadoop分布式存储跟计算的架构。
最上面是它的文件结构,下面是map,再下面就是Reduce。我们对这一套开源系统生态系统也主要的看了一遍,现在这个生态系统发展非常非常快,刚才也有专家说,这是一个非常活跃的。我主要想说的一个是APRCHE HBASE,在Hadoop上面建立的一个数据库系统,还有Yahoo用的,这个诺基亚也用的非常多。我们对机器语言的学习能力,比如大规模数据里面找规则、找规律,这种应用深度挖掘的能力实际上现在在开源系统里面有,当然它比较复杂,但它能完成很多我们以前没有办法完成的东西。咱们也有很多人上亚马逊买书,买完书以后你再上去的时候会有很多推荐,这些推荐就是类似协同过滤计算方式,他们会推送给你一些建议。上面的图标所建立的基础都是在Hadoop、HDFS等上面的。
下面我谈两个案例,一个是传统行业大数据的应用。这是我们以前做的一个项目。这个项目是什么呢?这家公司是一个老牌的德国制造企业,他们的数据量非常大。面临的问题一个是查询速度慢,还有就是ERP里面提供的功能不够完善(已经没有办法拓展了),他们的报告已经不能满足需求了。这个项目我们叫做“信用管理项目”,大部分ERP信用系统都是建立在应收账款上面的信用管控体系。而这个信用管控体系不能完全涵盖企业的业务关系。比如说这个公司有一些客户,希望它在做订货的时候就要占用一些信用信息,不然永远不提货就占用我们太多资源。但是在我们的信用管控体系是无法涵盖的,ERP里无法实施。当然它里面还有其他的一些系统,CRM、Logs等等。我们会通过预算机制把ERP系统里数据实时推送到数据聚合和分析系统上,这个系统里包括所有我们所关心的ERP信息,还有CRM里面的很多数据。有了这些数据以后,就可以进行分析,而得到的结果都是实时的分析结果。
下面的图就是实时信用报告。可以分权限开放给相关销售人员。比如说跟某个客户做生意的时候,我会几秒之内全部调入信息,去做一些决定。产品下订单的人也是类似的界面。这个案例就像Hadoop提供了PB级别的数据存储和处理能力。我更加喜欢强调“处理能力”。红山世纪的领导刚才说了,传统行业很少能达到PB级别,但是TB级别你现在有没有能力去实时处理呢,而在Hadoop上面可以提供这样的能力。而我们就是专门做这样的服务。
第二个案例是传统的BI模型架构。这个架构就是比较简单的,从各个地方收集的数据,例如CRM等等数据,我们可以把它存到一个固定的空间,就是原始数据存储这块。但是这一块很有可能是一个很大的数据库的数据。我们从数据库里面收取一些进行ETL计算。