您好,欢迎您来到DOIT! [ 登录 ] [ 免费注册 ]
您的位置:DOIT云计算> 风:云趋势 > 分析评论 > 正文

专访Etu:打造Hadoop一站式解决方案

IT168 12年06月14日 10:50 【转载】 作者:小野 责任编辑:王振

导读:近几年,随着数据量的爆炸式增长,数据挖掘和商业智能也迎来大数据的新时代。单纯的对购买数据进行分析已经不能满足市场的需求,而对潜在客户的行为分析逐渐成为主流。

关键词: Etu Hadoop 大数据

提问:

因为Hadoop架构现在是主重节点的架构,万一主节点坏了怎么办?

陈昭宇:

这是Hadoop目前为止我可以讲它唯一的弱点,为什么一开始架构会这样设计?如果一开始设计这个东西的时候Hadoop不是提供在线处理,通常是 处理离线数据。所以主节点上是不保存任何资料,所有资料都放在工作节点上,主节点崩溃不表示资料不见了,只要主节点重新恢复就可以继续应用。因为主节点不 是做在线分析的,如果主节点失效一两个小时他们认为可以接受,但是结构比较简单,所以第一版就开始这样做。

但是后来状况慢慢改变,很多人拿它来做运营或者在线服务,现在Etu可以再加一台主节点,它不是动态负载均衡,可以两个主节点并行。应该今年下半年官方版本会有主节点高可用性的设计。我们比Google早一个季度可以提供这样的应用给客户。

提问:

刚才谈到了数据量的问题,但是事实上数据量本身不是数据库,对Oracle数据库来讲数据量不是问题,用大数据主要原因我认为是数据类型太复杂?

蒋居裕:

我刚才说了三个“V”的PPT,是可以画三个椭圆的。

陈昭宇:

举一个简单的例子,很多电信业都有非常大的数据仓库,数据量不是问题,但是问题是这些数据库的数据是重合的,一定是从前端设备采集进来的,经过一些 结构化的过程,比如通过一些脚本处理这些数据。很多电信公司可能有不同的电信应用用的不同的数据公司,这些必须要统一,就是极大的问题。有一个问题是数据 量及时进来,每天录一次库,所以报表一天才能看一次,今天看昨天的数据。所以如果从数据库观点来看不是数据库的问题,可是从端到端来看就是有一些问题需要 解决。非结构化或者海量数据其实Hadoop就是一个很适合的工具。

查礼:

数据量也是问题。比如GPS-LBS系统,GPS系统一秒钟更新一个数据,每个人手里都有一个设备,假设我有一个应用,实时跟踪任何一个人的行为, 这个数据量非常大。我们做过一个实验,My-SQL数据库,撑到1000万以上,慢的不得了了。如果GPS数据容易达到这个数据量的,每秒钟发一个数据 的。

另外一个场景,现在数据计算,一个是数据大,另外一个要快。快不是说处理速度快,是整个数据生产过程,比如说从一天缩短到秒级,这个事我们做不了, 用数据库绝对不可能。因为我今天的PPT时间关系少了一张,就是ETL过程,就是数据差距到入库可以查到时间是一天到两天,现在改成10秒钟了。这些都是 新的技术,必须要做一些技术上的变革才有可能做到时间间隔从天到秒的变革。

蒋居裕:

大数据应用非常强调的应用场景就是提高客户满意度。很多电信运营商把传统的打电话行为数据放到数据仓库里,可是因为这个过程越来越多的数据,客户有 一个问题,比如现在为什么电话打不通,或者短信发不出去,打到客服中心,客服中心要一层一层的找客户的问题出现在哪儿。如果回到处理时间一天才有办法更新 一次,那客户会定在那里了,客服会说你的原始还没有处理,我不知道哪出了事情。有时候企业想象Hadoop能带给他什么价值的时候,不用想什么应用,光是 把做的环节有所提高就是很有价值的。

陈昭宇:

比如电信传统的帐单计算过程,比如有一些CDR数据进来,现在是先算出每一个人的秒数,总通话的秒数,配合什么时段、什么费率。现在台湾最大的运营 商,一个用户分六批算帐,一个月,每算一个要花6到8个小时,我们做的方式是把从CDR这边进来,用Hadoop计算秒数,我们用了大概是12个节 点,150G的数据用了(1.5小时)。

查礼:

现在那么多应用,能把他的用户体验从天提高到小时,已经有一大把的事情要做了。比如移动他们自己就有这样的例子,以前做省一级的经分,原来是小型 机,还不能够用全量数据,只能采样数据,现在不用小型机,用一个PC服务器,成本比那个小型机少,用全量数据,比那个时间还少,这都是Hadoop能够做 到的。

蒋居裕:

我们针对中国市场是更能凸显我们的价值了。

回过头来我们现在定义的用户方案和用户对象,他们能不能很快的有知觉,我们跟他讲的事情,对他来讲,什么时候他可以想要开始做了。

提问:

现在在国内有案例吗?

蒋居裕:

不能说太多。

  • 人人网
  • 转播到腾讯微博腾讯微博
  • 新浪微博
热点文章排行
  • 微软重拳推出Office 365  微软重拳推出Office 365 2011年07月08日 经过大半年的准备,微软终于在今年6月份隆重推出了云计算办公套件Office 365。那么,Office 365作为微软集成了电子邮件、协作软件、字处理软件、电子表格和演示程序的办公套件重要产品之一,Office 365对微软来说到底是福是祸,能否为微软带来实质性的营收,能否让微软在新兴的云计算领域赢得一席之地?
  • 云计算和算计云 云计算和算计云 2011年06月22日 DOIT特别专题从云的历史进程到目前实施云的厂商,逐一谈起,让读者耳目一新的了解到现在云的现状以及如何不被云所算计。
  • 云端争夺战——IT厂商的盛宴 云端争夺战——IT厂商的盛宴 2010年07月27日 云计算到底是如何发迹的似乎已经不再重要了,重要的是它确实炙手可热。