大数据的发展与应用：Hadoop的前世今生

IT168 12年06月28日 15:52 【转载】作者：it168 责任编辑：王振

导读：大数据计算我们把它理解成为一个什么事情呢?目前现在这个时代通信、网络等等这些电子信息技术发展，使数据规模得到了极大的增加。

解决这个问题的思路就是先要能存下来这些数据，要尽量多的存更多的数据。第二个思路就是怎么能够加快海量数据计算的速度和性能。举一个例子 Facebook的09年的例子，(PPT)红框里是核心业务，最核心的是Hadoop，这是一个很大规模的集群，09年的时候大概是600到1000台的规模，现在规模更大了。Hadoop就是把所有的数据全部存到这个集群里，这个集群不光是存储，它是一台一台的机器，利用每台机器硬盘存储空间存储数据。这些数据包括哪些?第一用户的信息、前端服务器和用户信息服务器和所有的日志就是用户在上面点击产生的数据都会放到Hadoop集群里。放到这里干什么用呢?就是要挖掘关联关系，分析用户行为。比如说举一个简单的例子，我通过用户日志的分析能够判别你的偏好，你喜欢哪些方面的内容?或者说你本人是什么性别、年龄段，都可以通过这种方式分析。所以可想而知，这些数据对于像Facebook这样的互联网公司是多么的重要。这些数据除了直接可以在上面做分析以外，还可以给BI工具提供一个输入。这是09年的架构。这个架构到现在为止应该有一些变化，但是Hadoop核心定位是没有变的。包括国内一些大的很著名的互联网公司都借鉴了这样的架构。所以可想而知Hadoop在互联网公司的作用是多么的重要。

下面讲一下Hadoop的来源。Hadoop 是Doug做的这么一个软件，02年他打算做一个网页检索软件，没有任何思路。03年Google发表了两篇论文，他受到这两篇论文的启发，把这两篇论文主要的思想借鉴过来，形成了现在的Hadoop的雏形。06年的时候他命名这套软件是Hadoop，这套软件最早开始的是06年开始的。08年的时候 Hadoop软件成为了Apache的基金项目，雅虎在后面支撑这个软件的开发。Hadoop它有一些特点，是全部用JAVA来写的，它可以跑在我们常见的商用的高故障率的服务器上甚至PC上。

雅虎内部人说Hadoop是继Linux以来最成功的开源软件。Hadoop组成部分，包括克隆了Google的GISI系统，包括克隆了并行计算框架，上面有很多不同的组成部分。它上面有MapReduce它可以提供一个接口，DBA可以利用这个接口写数据处理。此外还有多其他的组成部分，整个这样一套东西叫Hadoop。目前现在看起来这些所有上的东西都一个一个逐渐的变成了一些Apache的顶级项目了，但是我们通常把这一套叫 Hadoop。

最新专题

微软重拳推出Office 365 2011年07月08日经过大半年的准备，微软终于在今年6月份隆重推出了云计算办公套件Office 365。那么，Office 365作为微软集成了电子邮件、协作软件、字处理软件、电子表格和演示程序的办公套件重要产品之一，Office 365对微软来说到底是福是祸，能否为微软带来实质性的营收，能否让微软在新兴的云计算领域赢得一席之地？
云计算和算计云 2011年06月22日 DOIT特别专题从云的历史进程到目前实施云的厂商，逐一谈起，让读者耳目一新的了解到现在云的现状以及如何不被云所算计。
云端争夺战——IT厂商的盛宴 2010年07月27日云计算到底是如何发迹的似乎已经不再重要了，重要的是它确实炙手可热。

云计算视频

云计算风向标

云计算厂商