专访Etu:打造Hadoop一站式解决方案
IT168 12年06月14日 10:50 【转载】 作者:小野 责任编辑:王振
导读:近几年,随着数据量的爆炸式增长,数据挖掘和商业智能也迎来大数据的新时代。单纯的对购买数据进行分析已经不能满足市场的需求,而对潜在客户的行为分析逐渐成为主流。
提问:
因为Hadoop架构现在是主重节点的架构,万一主节点坏了怎么办?
陈昭宇:
这是Hadoop目前为止我可以讲它唯一的弱点,为什么一开始架构会这样设计?如果一开始设计这个东西的时候Hadoop不是提供在线处理,通常是 处理离线数据。所以主节点上是不保存任何资料,所有资料都放在工作节点上,主节点崩溃不表示资料不见了,只要主节点重新恢复就可以继续应用。因为主节点不 是做在线分析的,如果主节点失效一两个小时他们认为可以接受,但是结构比较简单,所以第一版就开始这样做。
但是后来状况慢慢改变,很多人拿它来做运营或者在线服务,现在Etu可以再加一台主节点,它不是动态负载均衡,可以两个主节点并行。应该今年下半年官方版本会有主节点高可用性的设计。我们比Google早一个季度可以提供这样的应用给客户。
提问:
刚才谈到了数据量的问题,但是事实上数据量本身不是数据库,对Oracle数据库来讲数据量不是问题,用大数据主要原因我认为是数据类型太复杂?
蒋居裕:
我刚才说了三个“V”的PPT,是可以画三个椭圆的。
陈昭宇:
举一个简单的例子,很多电信业都有非常大的数据仓库,数据量不是问题,但是问题是这些数据库的数据是重合的,一定是从前端设备采集进来的,经过一些 结构化的过程,比如通过一些脚本处理这些数据。很多电信公司可能有不同的电信应用用的不同的数据公司,这些必须要统一,就是极大的问题。有一个问题是数据 量及时进来,每天录一次库,所以报表一天才能看一次,今天看昨天的数据。所以如果从数据库观点来看不是数据库的问题,可是从端到端来看就是有一些问题需要 解决。非结构化或者海量数据其实Hadoop就是一个很适合的工具。
查礼:
数据量也是问题。比如GPS-LBS系统,GPS系统一秒钟更新一个数据,每个人手里都有一个设备,假设我有一个应用,实时跟踪任何一个人的行为, 这个数据量非常大。我们做过一个实验,My-SQL数据库,撑到1000万以上,慢的不得了了。如果GPS数据容易达到这个数据量的,每秒钟发一个数据 的。
另外一个场景,现在数据计算,一个是数据大,另外一个要快。快不是说处理速度快,是整个数据生产过程,比如说从一天缩短到秒级,这个事我们做不了, 用数据库绝对不可能。因为我今天的PPT时间关系少了一张,就是ETL过程,就是数据差距到入库可以查到时间是一天到两天,现在改成10秒钟了。这些都是 新的技术,必须要做一些技术上的变革才有可能做到时间间隔从天到秒的变革。
蒋居裕:
大数据应用非常强调的应用场景就是提高客户满意度。很多电信运营商把传统的打电话行为数据放到数据仓库里,可是因为这个过程越来越多的数据,客户有 一个问题,比如现在为什么电话打不通,或者短信发不出去,打到客服中心,客服中心要一层一层的找客户的问题出现在哪儿。如果回到处理时间一天才有办法更新 一次,那客户会定在那里了,客服会说你的原始还没有处理,我不知道哪出了事情。有时候企业想象Hadoop能带给他什么价值的时候,不用想什么应用,光是 把做的环节有所提高就是很有价值的。
陈昭宇:
比如电信传统的帐单计算过程,比如有一些CDR数据进来,现在是先算出每一个人的秒数,总通话的秒数,配合什么时段、什么费率。现在台湾最大的运营 商,一个用户分六批算帐,一个月,每算一个要花6到8个小时,我们做的方式是把从CDR这边进来,用Hadoop计算秒数,我们用了大概是12个节 点,150G的数据用了(1.5小时)。
查礼:
现在那么多应用,能把他的用户体验从天提高到小时,已经有一大把的事情要做了。比如移动他们自己就有这样的例子,以前做省一级的经分,原来是小型 机,还不能够用全量数据,只能采样数据,现在不用小型机,用一个PC服务器,成本比那个小型机少,用全量数据,比那个时间还少,这都是Hadoop能够做 到的。
蒋居裕:
我们针对中国市场是更能凸显我们的价值了。
回过头来我们现在定义的用户方案和用户对象,他们能不能很快的有知觉,我们跟他讲的事情,对他来讲,什么时候他可以想要开始做了。
提问:
现在在国内有案例吗?
蒋居裕:
不能说太多。