您好,欢迎您来到DOIT! [ 登录 ] [ 免费注册 ]
您的位置:DOIT云计算> 风:云趋势 > 分析评论 > 正文

北京华智鑫达科技李宁:云计算与大数据应用

CIO时代 12年08月25日 17:00 【转载】 作者:CIO时代 责任编辑:唐蓉

导读:而基于大数据BI与数据分析架构里面,是把ETL计算跟复杂计算都放在了存储区域,那么几乎可以以实时的方式把运营数据以及很多的非结构化数据给抽象出来,产生报告。

关键词: 大数据 云计算

我们对大数据技术发展也进行了研究。Google在创业阶段,它的想法是把整个互联网内容下载下来,计算分析网站内容。他们是创业阶段没有那么多钱,就买了很多相对便宜的服务器,给集中在一起,将整个互联网数据下载下来,并且计算。2005年Google发表了一篇论文,就是分布式计算跟存储的论文。这个时候Nutch项目的领导人对这个方法很感兴趣,使用这个。最后Yahoo也用了这个方法,研发了几年把研发结果回赠给他们。这个项目就变成现在众所周知的Hadoop项目。

Hadoop特色,刚才嘉宾们也说过了。首先是为大规模数据存储和计算提供可靠、高效、可伸缩的开源软件框架,应用的硬件需要成本低廉。这是其他项目所无法比拟的。刚才中国移动的领导也提到一个对比表,一个是400万投资,一个是25万的投资,这就是Hadoop的魅力所在之一。它有几个假设,最重要的假设就是它的主要节点是要保证运行,如果崩溃了的话,问题很大。DataNode崩溃率是非常高的。这是两个关键的假设,这些假设决定了DataNode可以用很便宜的硬件设施来实施。

下面介绍一下Hadoop的架构。它是一块数据过来,分了很多块(128M或者64M),通过运算产生中间结果然后得到最终结果,这就是一个最简单的Hadoop分布式存储跟计算的架构。

最上面是它的文件结构,下面是map,再下面就是Reduce。我们对这一套开源系统生态系统也主要的看了一遍,现在这个生态系统发展非常非常快,刚才也有专家说,这是一个非常活跃的。我主要想说的一个是APRCHE HBASE,在Hadoop上面建立的一个数据库系统,还有Yahoo用的,这个诺基亚也用的非常多。我们对机器语言的学习能力,比如大规模数据里面找规则、找规律,这种应用深度挖掘的能力实际上现在在开源系统里面有,当然它比较复杂,但它能完成很多我们以前没有办法完成的东西。咱们也有很多人上亚马逊买书,买完书以后你再上去的时候会有很多推荐,这些推荐就是类似协同过滤计算方式,他们会推送给你一些建议。上面的图标所建立的基础都是在Hadoop、HDFS等上面的。

下面我谈两个案例,一个是传统行业大数据的应用。这是我们以前做的一个项目。这个项目是什么呢?这家公司是一个老牌的德国制造企业,他们的数据量非常大。面临的问题一个是查询速度慢,还有就是ERP里面提供的功能不够完善(已经没有办法拓展了),他们的报告已经不能满足需求了。这个项目我们叫做“信用管理项目”,大部分ERP信用系统都是建立在应收账款上面的信用管控体系。而这个信用管控体系不能完全涵盖企业的业务关系。比如说这个公司有一些客户,希望它在做订货的时候就要占用一些信用信息,不然永远不提货就占用我们太多资源。但是在我们的信用管控体系是无法涵盖的,ERP里无法实施。当然它里面还有其他的一些系统,CRM、Logs等等。我们会通过预算机制把ERP系统里数据实时推送到数据聚合和分析系统上,这个系统里包括所有我们所关心的ERP信息,还有CRM里面的很多数据。有了这些数据以后,就可以进行分析,而得到的结果都是实时的分析结果。

下面的图就是实时信用报告。可以分权限开放给相关销售人员。比如说跟某个客户做生意的时候,我会几秒之内全部调入信息,去做一些决定。产品下订单的人也是类似的界面。这个案例就像Hadoop提供了PB级别的数据存储和处理能力。我更加喜欢强调“处理能力”。红山世纪的领导刚才说了,传统行业很少能达到PB级别,但是TB级别你现在有没有能力去实时处理呢,而在Hadoop上面可以提供这样的能力。而我们就是专门做这样的服务。

第二个案例是传统的BI模型架构。这个架构就是比较简单的,从各个地方收集的数据,例如CRM等等数据,我们可以把它存到一个固定的空间,就是原始数据存储这块。但是这一块很有可能是一个很大的数据库的数据。我们从数据库里面收取一些进行ETL计算。

  • 人人网
  • 转播到腾讯微博腾讯微博
  • 新浪微博
热点文章排行
  • 微软重拳推出Office 365  微软重拳推出Office 365 2011年07月08日 经过大半年的准备,微软终于在今年6月份隆重推出了云计算办公套件Office 365。那么,Office 365作为微软集成了电子邮件、协作软件、字处理软件、电子表格和演示程序的办公套件重要产品之一,Office 365对微软来说到底是福是祸,能否为微软带来实质性的营收,能否让微软在新兴的云计算领域赢得一席之地?
  • 云计算和算计云 云计算和算计云 2011年06月22日 DOIT特别专题从云的历史进程到目前实施云的厂商,逐一谈起,让读者耳目一新的了解到现在云的现状以及如何不被云所算计。
  • 云端争夺战——IT厂商的盛宴 云端争夺战——IT厂商的盛宴 2010年07月27日 云计算到底是如何发迹的似乎已经不再重要了,重要的是它确实炙手可热。