IBM新版并行文件系统增加大数据功能
DOIT云计算 12年05月22日 13:00 【编译】 译者:bill 责任编辑:王振
导读:随着高性能计算、大数据和数据仓库互相融合,IT领域内巨大的碰撞正在发生。IBM增强它的General Parallel File System(GPFS:通用并行文件系统)以加强自己在这个领域的存在。
文件集和元数据
在GPFS 3.5之前,系统管理员可以将GPFS文件系统树的一部分,一个文件集,放在特定集合的磁盘中以提供特定的服务质量,比如为某个集合的高速光纤通道驱动器 提供更快的响应速度。文件集可以动态迁移,不会影响文件系统。系统管理员可以按天或按其他时间周期将数据在磁盘的各个层中迁移。
文件集有一个“i节点”与它相关联——一个i节点可以是一个标签或一个块的数据——这个i节点指向实际文件数据并包含元数据,比如组织日期、首次访 问时间。GPFS将所有的文件集元数据存放在一个系统上。在3.5上,文件集元数据不再是混合的,而是分隔的,这样系统可以应用基于文件集的备份、快照、 引用以及群组引用政策。以前的备份政策是应用在文件系统层次,现在,Keable表示,“我们可以在文件集层次上使用不同的备份政策,它让GPFS系统管 理员的工作更加简单和灵活”。
由于这个变化,GPFS获得了POSIX.0的兼容性,意味着i节点可以在元数据外包含小型文件。因此你不需要进行两次访问来获得这些小型文件——例如,一个访问针对i节点指针,然后另一个访问针对实际数据——因为i节点的元数据和小型文件数据是并存的。
更好的是,客户自己的元数据也可以添加到i节点。Keable表示你可以将文件的经纬度添加到i节点上,从而实现基于位置的功能。你以前也可以这么做,但是这个进程很慢,因为必须的元数据不在i节点上。
GPFS对象存储和超级计算
一位英国的GPFS客户表示这样做让GPFS也可以用于对象存储,因为客户插入的元数据可以是基于文件内容的散列值。这种散列文件可以通过散列值来定位和访问,实际上就是把一个对象存储架构放在了GPFS上。
我们还听说GPFS参与了Daresbury超算项目。Daresbury有三个系统:一个大型的SMP系统,一个传统的X86集群,以及蓝色基因超级计算机——拥有大约7PB的磁盘驱动器数据。GPFS被用于一个拥有15PB容量的大型TS350磁带库。
GPFS是一个成熟而强大的并行文件系统。随着向外扩展文件系统、大规模非结构化数据仓库、高性能计算数据存储、数据仓库、商业分析和对象存储互相碰撞和融合,GPFS也在扩展和调整为能够和日益扩大的大数据系统协同工作。
IBM正在努力推动GPFS的发展,目的是在这场碰撞中不止是保持GPFS的地位——实际上IBM是扩展了GPFS。