IBM新版并行文件系统增加大数据功能
DOIT云计算 12年05月22日 13:00 【编译】 译者:bill 责任编辑:王振
导读:随着高性能计算、大数据和数据仓库互相融合,IT领域内巨大的碰撞正在发生。IBM增强它的General Parallel File System(GPFS:通用并行文件系统)以加强自己在这个领域的存在。
DOSTOR存储在线 5月22日国际报道:随着高性能计算、大数据和数据仓库互相融合,IT领域内巨大的碰撞正在发生。IBM增强它的General Parallel File System(GPFS:通用并行文件系统)以加强自己在这个领域的存在。除了客户元数据和更高的性能外,这个3.5版本的发布增加了大数据和异步复制功能。
GPFS是一个大型文件系统,运行在网络共享磁盘(NSD)服务器节点上。它的文件数据可以分布在各种类型的存储设备中,用户可以享受并行访问。通过Basingstoke的IBM高性能计算架构师Crispin Keable,我们得知了GPFS 3.5的消息。
新的发布有Active File Management(主动文件管理),一种异步版本的GPFS多集群同步复制功能,可以让中央GPFS站点镜像到其他远程站点,让远程站点的用户可以本地访问镜像数据而不用通过广域网。这种链接是双重的,因此任何一方的更新都会导致另一方的更新。
如果这个链接离线了,远程站点可以继续操作并使用有效高速缓存后的GPFS数据。任何更新也都会被高速缓存。作为一种防止老数据重写入最新数据的方法,来自离线远程站点的对中央站点的更新在恢复在线后可以被限制为只能用特定日期和时间之后的新数据。
一个需要记住的事情是GPFS没有内置重复数据删除功能。如果你希望数据通过这个镜像连接的时候减少数据量,你将需要一些东西,比如用一对Diligent重复数据删除设备配置在两个站点的两端,或使用WAN(广域网)优化/数据缩减技术。
RAID和大数据
在PB级GPFS的部署中,用户可能会有1000个以上的磁盘——这个数量的磁盘故障频率足以让部署过程中进行RAID(独立磁盘冗余阵列)重建进程。在重建进行的时候,它会把GPFS的性能限制到设备的性能。
Keable表示,在非集群化的RAID中,NSD服务器会把GPFS分配给客户端并拥有空闲CPU能力。它们可以利用这个能力来运行软件RAID。Keable表示,GPFS部署可以将数据块随机分布在JBOD(简单磁盘捆绑)磁盘上,这样可以提供比RAID 6更强的RAID架构。这里的好处是它将RADI重建工作分散到整个磁盘场上,可以提高GPFS性能。Keable表示这个功能是块层次的算法,可以处理更大的磁盘容量。该功能已经发布在Power 7上。
他表示IBM预计GPFS客户将使用非集群化RAID下的闪存存储来“承载它的特定元数据——即所谓的V磁盘”。
GPFS相当独立于底层的变动,即物理存储。
GPFS 3.5还可以运行在无共享Hadoop类型集群上,是POSIX(可移植操作系统接口)兼容的,不想Hadoop的HFS。Keable表示GPFS 3.5是可以处理大数据的,并可以从所谓的“卓见集群”提供“卓见”。不过,这次发布的GPFS没有任何HFS导入设施。