您好,欢迎您来到DOIT! [ 登录 ] [ 免费注册 ]
您的位置:DOIT云计算> 风:云趋势 > 分析评论 > 正文

直面挑战:大数据存储服务选择最佳做法

IT168 12年05月03日 14:16 【转载】 作者:剑鱼 责任编辑:王振

导读:磁盘存储就像是衣橱,永远不够用,在大数据时代,这一点尤为突出。“大数据”意味着需要比传统存储平台处理更多的数据。那么这对于CIO意味着什么呢?意味着他们将需要做出更多的努力,而可供参考的信息却很少。

关键词: 大数据 存储 存储服务

你的存储架构

这一切都归结到所涉及的存储结构和网络性能。对于经常分析大数据的企业而言,可能需要一个单独的基础设施,因为随着集群中计算节点的数量的增长,带 宽开销也会增长。通常情况下,使用HDFS的多模计算集群在处理大数据时将会产生大量流量。这是因为Hadoop在集群的成员服务器间传输数据(以及计算 资源)。

在大多数情况下,基于服务器的本地存储并没有高效率的优点,这也是为什么很多企业转向使用高速光纤结构的SAN来最大限度地提高吞吐量。然 而,SAN方法本身并不一定适合大数据部署。尤其是那些使用Hadoop的大数据部署,因为SAN承担集中硬盘上数据的责任,这反过来意味着每个计算服务 器将需要访问相同的SAN来恢复正态分布的数据。

然而,当比较本地服务器存储和基于SAN的存储时,本地存储在两个方面占据优势:成本和整体性能。简而言之,没有在每个计算成员放置RAID的原始磁盘在处理HDFS请求时将胜过SAN,然而,基于服务器的磁盘存在缺点,主要是在可扩展性方面。

问题是当服务器依赖于本地存储时,你如何在必要的时候增加更多的容量。通常,有两种方式来处理这种困境。第一种方法是增加具有更多本地存储的额外的 服务器。第二种方法是增加集群服务器的容量。这两种方法都需要购买和配置硬件,这将导致停机时间,可能还需要重新设计架构。然而,无论使用哪种方法都要比 向 SAN增加容量要便宜,可以说,这是一个显著的成本优势。

然而,当涉及到Hadoop时,还有其他存储选择。例如,一些领先的存储厂商都在建立专门针对Hadoop和大数据分析的存储设备。这些供应商包括EMC,目前提供Hadoop解决方案,例如Greenplum HD Data Computing Appliance。甲骨文正在考虑进一步深化Exadata系列设备,提供计算能力以及高速存储。

最后一个存储选择是云形式的存储,Cloudera、微软、Amazon和很多其他供应商都在提供基于云的大数据解决方案,这些解决方案能够提供处理能力、存储和支持。

在选择大数据存储解决方案时需要考虑究竟需要多少空间,分析频率如何以及需要处理什么类型的数据。这些因素,以及安全、预算和处理时间都是选择大数据存储解决方案时需要考虑的因素。

可能站在保险的角度来看,一个试点项目可能是一个不错的开始,商品硬件也是大数据试点项目的低成本投资选择。

  • 人人网
  • 转播到腾讯微博腾讯微博
  • 新浪微博
热点文章排行
  • 微软重拳推出Office 365  微软重拳推出Office 365 2011年07月08日 经过大半年的准备,微软终于在今年6月份隆重推出了云计算办公套件Office 365。那么,Office 365作为微软集成了电子邮件、协作软件、字处理软件、电子表格和演示程序的办公套件重要产品之一,Office 365对微软来说到底是福是祸,能否为微软带来实质性的营收,能否让微软在新兴的云计算领域赢得一席之地?
  • 云计算和算计云 云计算和算计云 2011年06月22日 DOIT特别专题从云的历史进程到目前实施云的厂商,逐一谈起,让读者耳目一新的了解到现在云的现状以及如何不被云所算计。
  • 云端争夺战——IT厂商的盛宴 云端争夺战——IT厂商的盛宴 2010年07月27日 云计算到底是如何发迹的似乎已经不再重要了,重要的是它确实炙手可热。