大数据管理：PB、EB级数据存储和分析

TT中国 12年06月27日 10:14 【转载】作者：TT存储责任编辑：王振

导读：供应商在每发布一款产品时都往往会有这样一种偏好，将其产品和最新的一些热炒的话题结合起来。而这次，厂商们又开始在每项产品中增加“大数据”的概念。

区别大数据分析和传统的数据仓库的不同

大数据分析中包含了各种快速成长中的技术。因此，简单用某一种技术尝试对其定义，比如分布式计算，会比较困难。不过，这些定义大数据分析的通用性技术可以用如下特征阐述：

对于传统数据仓库处理流程效率和扩展性方面限制的感知。将数据，不论是结构化还是非结构化数据从多个数据源汇聚的能力。以及认识到数据的及时性是扩展非结构化数据源的关键，其中包括移动设备，RFID，网络和不断增长的自动化感知技术。

传统的数据仓库系统通常从现有的关系型数据库中抓取数据。然而，据估计超过80%的企业数据是非结构化的，即无法关系型数据库管理系统 (RDBMS)，比如DB2和Oracle完成的数据。一般而言，处于此次讨论的目的，非结构化数据可以看成所有无法简单转化到结构化关系型数据库中的所有数据。而企业现在希望从这些非结构化数据类型中抽取有价值的信息，包括：

邮件和其它形式的电子通讯记录

网站上的资料，包括点击量和社交媒体相关的内容

数字视频和音频

设备产生的数据(RFID，GPS，传感器产生的数据，日志文件等)以及物联网

在大数据分析的情况下，查看远多于RDBMS的数据类型十分必要——这代表了各种重要的新信息源。并且随着每年非结构化数据存储总量较结构化数据增长率高出10到50倍，从业务角度看这些数据也变得更为重要。

为什么需要更新的技术?

从大数据分析角度看，业务主管的挑战在于从各种数据源获取信息，并执行分析流程以打开信息的价值。传统数据仓库技术并不是设计在很短的时间内(5秒钟甚至更少)用于处理海量的非结构化数据，因此市场上产生了管理大数据的需求。

进入分布式计算集群。分布式计算集群的观念出现了数十年，不过绝大部分时间都处在IT的边缘化地带。在2004年，Google出版了一张名为 MapReduce的流程，应用了这一结构。在MapReduce流程中，查询被分割并分布在并行结点上同时处理(Map步骤)。其结果在随后被收集并传输(Reduce步骤)。由于Google如此之成功，很多人想要复制这一方法。MapReduce源自一个Google拥有的开源Apache框架，称为分布式计算(Hadoop)。

最新专题

微软重拳推出Office 365 2011年07月08日经过大半年的准备，微软终于在今年6月份隆重推出了云计算办公套件Office 365。那么，Office 365作为微软集成了电子邮件、协作软件、字处理软件、电子表格和演示程序的办公套件重要产品之一，Office 365对微软来说到底是福是祸，能否为微软带来实质性的营收，能否让微软在新兴的云计算领域赢得一席之地？
云计算和算计云 2011年06月22日 DOIT特别专题从云的历史进程到目前实施云的厂商，逐一谈起，让读者耳目一新的了解到现在云的现状以及如何不被云所算计。
云端争夺战——IT厂商的盛宴 2010年07月27日云计算到底是如何发迹的似乎已经不再重要了，重要的是它确实炙手可热。

云计算视频

云计算风向标

云计算厂商