专访Etu：打造Hadoop一站式解决方案

IT168 12年06月14日 10:50 【转载】作者：小野责任编辑：王振

导读：近几年，随着数据量的爆炸式增长，数据挖掘和商业智能也迎来大数据的新时代。单纯的对购买数据进行分析已经不能满足市场的需求，而对潜在客户的行为分析逐渐成为主流。

提问：

因为Hadoop架构现在是主重节点的架构，万一主节点坏了怎么办?

陈昭宇：

这是Hadoop目前为止我可以讲它唯一的弱点，为什么一开始架构会这样设计?如果一开始设计这个东西的时候Hadoop不是提供在线处理，通常是处理离线数据。所以主节点上是不保存任何资料，所有资料都放在工作节点上，主节点崩溃不表示资料不见了，只要主节点重新恢复就可以继续应用。因为主节点不是做在线分析的，如果主节点失效一两个小时他们认为可以接受，但是结构比较简单，所以第一版就开始这样做。

但是后来状况慢慢改变，很多人拿它来做运营或者在线服务，现在Etu可以再加一台主节点，它不是动态负载均衡，可以两个主节点并行。应该今年下半年官方版本会有主节点高可用性的设计。我们比Google早一个季度可以提供这样的应用给客户。

提问：

刚才谈到了数据量的问题，但是事实上数据量本身不是数据库，对Oracle数据库来讲数据量不是问题，用大数据主要原因我认为是数据类型太复杂?

蒋居裕：

我刚才说了三个“V”的PPT，是可以画三个椭圆的。

陈昭宇：

举一个简单的例子，很多电信业都有非常大的数据仓库，数据量不是问题，但是问题是这些数据库的数据是重合的，一定是从前端设备采集进来的，经过一些结构化的过程，比如通过一些脚本处理这些数据。很多电信公司可能有不同的电信应用用的不同的数据公司，这些必须要统一，就是极大的问题。有一个问题是数据量及时进来，每天录一次库，所以报表一天才能看一次，今天看昨天的数据。所以如果从数据库观点来看不是数据库的问题，可是从端到端来看就是有一些问题需要解决。非结构化或者海量数据其实Hadoop就是一个很适合的工具。

查礼：

数据量也是问题。比如GPS-LBS系统，GPS系统一秒钟更新一个数据，每个人手里都有一个设备，假设我有一个应用，实时跟踪任何一个人的行为，这个数据量非常大。我们做过一个实验，My-SQL数据库，撑到1000万以上，慢的不得了了。如果GPS数据容易达到这个数据量的，每秒钟发一个数据的。

另外一个场景，现在数据计算，一个是数据大，另外一个要快。快不是说处理速度快，是整个数据生产过程，比如说从一天缩短到秒级，这个事我们做不了，用数据库绝对不可能。因为我今天的PPT时间关系少了一张，就是ETL过程，就是数据差距到入库可以查到时间是一天到两天，现在改成10秒钟了。这些都是新的技术，必须要做一些技术上的变革才有可能做到时间间隔从天到秒的变革。

蒋居裕：

大数据应用非常强调的应用场景就是提高客户满意度。很多电信运营商把传统的打电话行为数据放到数据仓库里，可是因为这个过程越来越多的数据，客户有一个问题，比如现在为什么电话打不通，或者短信发不出去，打到客服中心，客服中心要一层一层的找客户的问题出现在哪儿。如果回到处理时间一天才有办法更新一次，那客户会定在那里了，客服会说你的原始还没有处理，我不知道哪出了事情。有时候企业想象Hadoop能带给他什么价值的时候，不用想什么应用，光是把做的环节有所提高就是很有价值的。

陈昭宇：

比如电信传统的帐单计算过程，比如有一些CDR数据进来，现在是先算出每一个人的秒数，总通话的秒数，配合什么时段、什么费率。现在台湾最大的运营商，一个用户分六批算帐，一个月，每算一个要花6到8个小时，我们做的方式是把从CDR这边进来，用Hadoop计算秒数，我们用了大概是12个节点，150G的数据用了(1.5小时)。

查礼：

现在那么多应用，能把他的用户体验从天提高到小时，已经有一大把的事情要做了。比如移动他们自己就有这样的例子，以前做省一级的经分，原来是小型机，还不能够用全量数据，只能采样数据，现在不用小型机，用一个PC服务器，成本比那个小型机少，用全量数据，比那个时间还少，这都是Hadoop能够做到的。

蒋居裕：

我们针对中国市场是更能凸显我们的价值了。

回过头来我们现在定义的用户方案和用户对象，他们能不能很快的有知觉，我们跟他讲的事情，对他来讲，什么时候他可以想要开始做了。

提问：

现在在国内有案例吗?

蒋居裕：

不能说太多。