大数据的发展与应用:Hadoop的前世今生
IT168 12年06月28日 15:52 【转载】 作者:it168 责任编辑:王振
解决这个问题的思路就是先要能存下来这些数据,要尽量多的存更多的数据。第二个思路就是怎么能够加快海量数据计算的速度和性能。举一个例子 Facebook的09年的例子,(PPT)红框里是核心业务,最核心的是Hadoop,这是一个很大规模的集群,09年的时候大概是600到1000台的规模,现在规模更大了。Hadoop就是把所有的数据全部存到这个集群里,这个集群不光是存储,它是一台一台的机器,利用每台机器硬盘存储空间存储数据。这些数据包括哪些?第一用户的信息、前端服务器和用户信息服务器和所有的日志就是用户在上面点击产生的数据都会放到Hadoop集群里。放到这里干什 么用呢?就是要挖掘关联关系,分析用户行为。比如说举一个简单的例子,我通过用户日志的分析能够判别你的偏好,你喜欢哪些方面的内容?或者说你本人是什么 性别、年龄段,都可以通过这种方式分析。所以可想而知,这些数据对于像Facebook这样的互联网公司是多么的重要。这些数据除了直接可以在上面做分析 以外,还可以给BI工具提供一个输入。这是09年的架构。这个架构到现在为止应该有一些变化,但是Hadoop核心定位是没有变的。包括国内一些大的很著 名的互联网公司都借鉴了这样的架构。所以可想而知Hadoop在互联网公司的作用是多么的重要。
下面讲一下Hadoop的来源。Hadoop 是Doug做的这么一个软件,02年他打算做一个网页检索软件,没有任何思路。03年Google发表了两篇论文,他受到这两篇论文的启发,把这两篇论文主要的思想借鉴过来,形成了现在的Hadoop的雏形。06年的时候他命名这套软件是Hadoop,这套软件最早开始的是06年开始的。08年的时候 Hadoop软件成为了Apache的基金项目,雅虎在后面支撑这个软件的开发。Hadoop它有一些特点,是全部用JAVA来写的,它可以跑在我们常见的商用的高故障率的服务器上甚至PC上。
雅虎内部人说Hadoop是继Linux以来最成功的开源软件。Hadoop组成部分,包括克隆了Google的GISI系统,包括克隆了 并行计算框架,上面有很多不同的组成部分。它上面有MapReduce它可以提供一个接口,DBA可以利用这个接口写数据处理。此外还有多其他的组成部 分,整个这样一套东西叫Hadoop。目前现在看起来这些所有上的东西都一个一个逐渐的变成了一些Apache的顶级项目了,但是我们通常把这一套叫 Hadoop。