大数据背后的偶然与必然
至顶网 12年06月06日 10:20 【转载】 作者:存储时代 责任编辑:王振
导读:说到大数据,是一个现在经常被提到的流行词汇,它包含了很多行业的很多领域。在业务分析中,大数据通常意味着使用从客户中获得的信息,销售预测、供应商和很多别的投入的信息,对业务做出最优决策,既包括短期的也包括长期的。
说到大数据,是一个现在经常被提到的流行词汇,它包含了很多行业的很多领域。在业务分析中,大数据通常意味着使用从客户中获得的信息,销售预测、供应商和很多别的投入的信息,对业务做出最优决策,既包括短期的也包括长期的。大宗商品的交易员可能会用完全不同的方式使用大数据,也许他们会从气候数据中寻求分析,这需要查看卫星和相关文本信息的其它图像数据,来决定哪种交易适合长期或者短期。这些事例需要一套完全不同的分析工具,十分有效,且使用完全不同的计算类型和存储环境,作为将处理数据将它变成信息的算法是非常不同的。
最近,我和Jeff Layton在晚餐的时候会面,讨论了一些来自图表分析的不同类型的算法,到MapReduce,到图像变化监测,和其它的,以及一些框架,例如 NOSQL和有效运行这些算法的系统架构。当然,有来自很多供应商和即将成为供应商的专业设备。所以大数据对我来说就是将数据变成信息的过程,然后再变成知识。
这不是一个新现象。这不是我的名言。大约400年前,Francis Bacon先生就说过“知识就是力量。”当我们从数据中提取越来越多的信息和知识时,我和Jeff相信系统架构将会有很大的变化。没有提取和分开档案的信息,你将不会有静态档案。
我和Jeff讨论了如何解决这个问题,什么类型的数据很重要以及如何移动到新计算时代。晚餐期间,我们通过两种不同的方向,自上而下和自下而上,想到了解决大数据的方法。我和Jeff讨论了写数据本身和采取哪种提取方式取决于数据类型,以及光谱的哪一端,哪种硬件需要用来分析数据。当然,我们晚餐中间讨论了操作系统、文件系统和其它的大数据架构所需要的系统软件。得到编辑的批准,我和Jeff准备开展“Jeff 和Henry的大数据探险。”
我将会开始讨论大数据算法所需要的硬件和大数据架构的问题。例如:
• 未来需要哪种架构解决MapReduce难题,未来的图表问题或者图像改变监测问题?
• 你是否需要SSD,SAS驱动或者企业SATA驱动?
• 需要哪种类型的存储控制器?
• 关键数据归档问题是什么?
• 在将来,需要哪种接口——SAS、Fibre Channel Ethernet 或者其它的?
• 计划的CPU会满足需求吗,或者需要GPGPU、FPGAs 或者一些不太显眼的东西?
• 内存要求呢?未来是否DDR-3/4/5内存计划能够满足需求?
• 你需要存储分层和更大的内存?例如通过扩展CPU渠道,如SGI Ultraviolet一连接机器,或者专业的内存系统和处理器,例如Cray uRIKA?
• CPU建设是否需要缓存一致性检查,缓存一致性带宽对于你需要的数据类型分析有用吗?
• 操作系统高于设备寻址底层硬件的任务吗?
• 语言、编译器、调试器和需要运行系统硬件的整个生态系统如何?
• 不要忘记数据的安全性,因为现在的数据已经成为信息和新建的知识,如何从你的竞争对手、敌人和不应该访问的雇员中保存信息?