直面挑战：大数据存储服务选择最佳做法

IT168 12年05月03日 14:16 【转载】作者：剑鱼责任编辑：王振

导读：磁盘存储就像是衣橱，永远不够用，在大数据时代，这一点尤为突出。“大数据”意味着需要比传统存储平台处理更多的数据。那么这对于CIO意味着什么呢?意味着他们将需要做出更多的努力，而可供参考的信息却很少。

磁盘存储就像是衣橱，永远不够用，在大数据时代，这一点尤为突出。“大数据”意味着需要比传统存储平台处理更多的数据。那么这对于CIO意味着什么呢?意味着他们将需要做出更多的努力，而可供参考的信息却很少。

不过，在为大数据选择存储服务时也并不是完全无迹可寻。

何谓大数据

首先，我们需要清楚大数据与其他类型数据的区别以及与之相关的技术(主要是分析应用程序)。大数据本身意味着非常多需要使用标准存储技术来处理的数据。大数据可能由TB级(或者甚至PB级)信息组成，既包括结构化数据(数据库、日志、SQL等)以及非结构化数据(社交媒体帖子、传感器、多媒体数据)。此外，大部分这些数据缺乏索引或者其他组织结构，可能由很多不同文件类型组成。

由于这些数据缺乏一致性，使标准处理和存储技术无计可施，而且运营开销以及庞大的数据量使我们难以使用传统的服务器和SAN方法来有效地进行处理。换句话说，大数据需要不同的处理方法：自己的平台，这也是Hadoop可以派上用场的地方。

Hadoop是一个开源分布式计算平台，它提供了一种建立平台的方法，这个平台由标准化硬件(服务器和内部服务器存储)组成，并形成集群能够并行处理大数据请求。在存储方面来看，这个开源项目的关键组成部分是Hadoop分布式文件系统(HDFS)，该系统具有跨集群中多个成员存储非常大文件的能力。HDFS通过创建多个数据块副本，然后将其分布在整个集群内的计算机节点，这提供了方便可靠极其快速的计算能力。

从目前来看，为大数据建立足够大的存储平台最简单的方法就是购买一套服务器，并为每台服务器配备数TB级的驱动器，然后让 Hadoop来完成余下的工作。对于一些规模较小的企业而言，可能只要这么简单。然而，一旦考虑处理性能、算法复杂性和数据挖掘，这种方法可能不一定能够保证成功。

最新专题

微软重拳推出Office 365 2011年07月08日经过大半年的准备，微软终于在今年6月份隆重推出了云计算办公套件Office 365。那么，Office 365作为微软集成了电子邮件、协作软件、字处理软件、电子表格和演示程序的办公套件重要产品之一，Office 365对微软来说到底是福是祸，能否为微软带来实质性的营收，能否让微软在新兴的云计算领域赢得一席之地？
云计算和算计云 2011年06月22日 DOIT特别专题从云的历史进程到目前实施云的厂商，逐一谈起，让读者耳目一新的了解到现在云的现状以及如何不被云所算计。
云端争夺战——IT厂商的盛宴 2010年07月27日云计算到底是如何发迹的似乎已经不再重要了，重要的是它确实炙手可热。

云计算视频

云计算风向标

云计算厂商