专访Etu:打造Hadoop一站式解决方案
IT168 12年06月14日 10:50 【转载】 作者:小野 责任编辑:王振
导读:近几年,随着数据量的爆炸式增长,数据挖掘和商业智能也迎来大数据的新时代。单纯的对购买数据进行分析已经不能满足市场的需求,而对潜在客户的行为分析逐渐成为主流。
提问:
怎么处理呢?
蒋居裕:
这里有一些仪器设备的参数,这不是我们自己理解的,他们自己的工程师自己知道。我们负责的只是让Hadoop集群运作环境能够长时间完整无误。但是至于它在上面做的自成分析是他自己完成的,这个我们没有办法介入。
提问:
这对用户要求太高了,用户需要了解Hadoop才行。
查礼:
他们所扮演的角色就是打掉中间的这个沟,你不用太知道Hadoop是怎么样的原理,用户直接对接他的业务就可以。而且原来做数据就是两种形式,一种 是文件,一种是数据库。Hadoop应该是给你增加了一种方式,增加了一种存储数据的手段。因为原来不管大大小小的应用后面都接一个数据,其实可以想象你 的需求多么的多样,为什么只有一种技术在后台做处理,为什么会这样?肯定会有一些技术的变革,适应应用的需求。
而且目前主要问题是,原来你的数据量都很小,所以可以说就这两个可以处理了,现在数据变的特别大,而且每年增长都是翻番的。数据库这样的东西原来价 值取向就是做成一个很通用的东西,在上面干什么都行。这样的一个东西不太可能去应对这么大的数据量,必然会变成各种各样的系统。这相当于是一个东西要变成 很多种东西,每一种新的东西会应对一个更极端的处理。
今天讲的一个是Hadoop本身,可能Hadoop上面还有很多组成部分,这些组成部分应对的场合是不太一样的。不可能拿这个东西再去应对它并不适合的应用,这是不太可能的。每一个“小玩意”对应的都是很细的,很小的。
蒋居裕:
我比较愿意强调,从整个世界Hadoop技术在每个不同地区采用的状况来看,在亚洲地区,我觉得现在还不是说我卖一个标准的Hadoop一体机,企 业就能够直接用的时候。需要一个解决方案,而且是一站式的,我把原始数据接法弄好了,处理完去哪里也接好,企业可以直接用。他希望我们帮他建新的应用,或 者希望存到原本ERP能够借鉴的数据库都可以。用户把需求明确,我们把整合的工作都做完,之后就需要增加节点就可以了。
提问:
现在有解决方案吗?刚才就介绍了产品本身?
陈昭宇:
我们刚才介绍只有一个产品,但是Etu品牌并不是卖标准化Hadoop的时候,我们有一个精准的推荐引擎,它有一个特殊的应用,是涉及很多中国很多 电子商务网站,你们在这样的网站上购物,点了这个,下面会推荐你大概看到的东西,你买过什么,搜索过什么?这样的东西我们会它变成一个精准的推荐引擎。电 子商务网站可以直接把数据导进一体进,他需要设定几个参数,比如需要关注用户的哪些行为,比如点击、放入购物车、搜索,有一些动作你可以挑选,挑选好之后 这个引擎可以根据你每天实时进来的数据,它会每个小时一直帮你计算,然后选择一个推荐的列表,再放到产品的一个数据库,让前台购物网站可以直接取得这样的 推荐清单。这跟一般的传统差别是,很多电商在做推荐的时候是人为的,他做的推荐可能不是你喜欢的,是他想卖你的,但是可能不是用户真正需要的。所以他们后 来发现我也推荐了,首页也到处都放了,可是就是看不到营收的增长,所以利用Hadoop这样的技术可以从客户真实的流量行为和点击行为里面知道客户在找什 么,从而提高营收率。
中国电子商务网站使用者随便上,日志量太可怕,一般数据处理不了,Hadoop出现以后,很多互联网公司发现这是一个很好的工具,所以才让这个工作变得可能。
我们在中国以外的地区,在海外,比如说像IP溯源解决方案我们也已经都做了,这个工作首先要知道你上的网官和电话号码内部IP地址的介入,另外内部 路由户有内部和外部IP的定制,这两个关联起来,每一家用户都是一样,我们可以做成标准的解决方案,花几个礼拜把这些数据导进来,基本可以用了。
提问:
为什么咱们采用一体机的形式为用户提供数据分析?
陈昭宇:
因为Hadoop,即使是Oracle数据库也有一体机,企业存在的目的是为了赚钱,为了盈利。所以他宁愿投入最多的人力成本在一些应用上,比较少 的愿意投入在IT上。可是数据库的规模越来越大,这需要很专业的IT让这些机器可以跑,所以不只是软件的问题,也不只是硬件的问题。Hadoop以现在来 讲,它的应用已经有人看到了它的价值,可是缺少运维,除非互联网公司,其他大部分公司都没有这个能力。所以开始去公司装就遇到了问题,我们希望用一体机, 看到刚才的示范,装的一体机比装一个Windows还要简单。我们想替客户解决的是,当你有一个Hadoop的时候,你的机器坏了怎么办?你好不容易培训 了一个IT人员能够装它,这个人走了怎么办?一体机的概念就是所有的逻辑都在这个盒子里面,那个盒子在你家,人走了,你的生意也可以照样做,就是把企业 IT风险降到最低。你保证机房有电、有网络、有冷气,工作就可以完成。