专访Etu:打造Hadoop一站式解决方案
IT168 12年06月14日 10:50 【转载】 作者:小野 责任编辑:王振
导读:近几年,随着数据量的爆炸式增长,数据挖掘和商业智能也迎来大数据的新时代。单纯的对购买数据进行分析已经不能满足市场的需求,而对潜在客户的行为分析逐渐成为主流。
提问:
我问一下查博士,目前为止我跟踪了Hadoop一段情况,我个人感觉,Hadoop目前为止最常用的场景有两个,一个是把它作为一种存储,相当于一 种数据库一种存储一些非结构化的数据。第二个,通过它的处理把数据换到数据库里,进行商业智能分析和挖掘,您觉得我的理解对吗?这是Hadoop的主要用 途吗?
查礼:
应该说没错,但是我自己的理解,光它拿做存储只用了它一半的功能。它的特点是存储和计算组合在一起,融合在一起,如果用在一个方面都不是一个比较好的实用的典型案例。
第二个问题,这么用主要是因为有一些功能,Hadoop目前还提供不了。并不是说它没有这个能力,是没有这方面的工具。如果作为一个公司来讲要尽快 能够产生生产力的话,肯定是有这些东西,把它尽量组合在一起。这是它的价值取向。所以说,像Facebook这种做法,我讲的是09年的时候的材料,那时 候还没有很多BI的工具在Hadoop上面,能够Work,能够运行。主要是因为这个原因,并不是Hadoop本身不具备这个能力。
提问:
在你看来Hadoop这款软件或者分布式计算平台也好,应该怎么用?还有其他用途吗?可以举几个例子吗?
查礼:
我先简单讲一下,最好的用途,因为它本身的起源是来自于Google,所以我自己认为它最适合的就是文本的处理,就是非结构化、半结构化的。文本是最核心的,用别的不是不可以,比如做其他的开发,比如多媒体的处理不是不行,但是说实在的它并不是很适合,目前看起来。
所以我们现在感觉到类似像现在的这种系统,逐渐的向专门化发展。就是我这个系统够大可以从上到下的重新构建一个,只做这一件事的对应的架构比如视频或者多媒体处理,有可能会出现另外一个Hadoop专门做这个事。
可想而知,Google刚出来的目前只做搜索那一件事,Google有上百万的服务器,但是它就只做搜索,就做这一件事。这么多台机器完全有可能从 硬件、到软件、到操作系统都可以达到的系统,这是一个很明显的趋势。所以我的观点就是要干好一件事,如果那个事够大,可以从上到下自己全部去干。
蒋居裕:
我举一些例子,以电信行业来讲。亚洲地区目前台湾、香港、泰国、印尼、新加坡、Etu都已经去过这些地方。用我们东西最多的就是电信运营商,电信运 营商用我们的时候第一个是做IP溯源的工作,就是找出用户的真实身份。另外一种是AP溯源,就是不同的应用软件,他要找出企业里各种不同德应用背后的使用 者的动作。现在有一些安全监控软件有办法,在应用软件上做的动作写日志,我们就是负责分析处理日志,以便哪个时间点哪个用户做了哪些应用。这些追溯不是主 要来自于安全上的东西,现在因为3G移动网络、上网的行为很多,所以电信商很想在上面有一些价值的提升,所以他想了解他的哪个用户在哪个时间点最常上哪个 网站,而且是用手持网站。光把这个搞清楚就有很大的理解,他可以根据用户的理解跟广告商合作。
比如金融行业保险、银行,他们有很多文件扫描存起来的图档,比如一个保险业,一个客户签一张保单,保单要扫描存起来,投保期间跟客户往来行为,都跟 保单有关的,这些资老都会扫描存起来,这么多用户日积月累,这些图档的数量会达到上亿,有一个事件检索的时候要能很快的找出来。这也是一个典型的案例。
比如制造业,尤其是高科技制造,比如台基电,他们现在也用Hadoop做这样的事情,因为传统上的生产设备,在生产过程轴会把运作的数据往外送,传 统商会用数据去接,当Oracle撑不住的时候,现在有了Hadoop技术,他们就把这些资料往Hadoop这边存储,处理。他们的目的是提高利用率。