数据海洋:大数据未来世界的新石油
DOIT云计算 12年06月11日 17:00 【转载】 作者:《商业价值》杂志 责任编辑:王振
自古至今,从未有一个时代出现过如此大规模的数据爆炸。如今的商业世界,已经变成了飘浮在数据海洋上的巨轮,而那些通过大数据能力驶入蓝海的企业,将会赢得丰厚的回报。
大数据的特点
对于大数据的特点,业界通常用Volume、Variety、Value、Velocity这4个V来概括。大数据的特点包括:第一,数据体量巨大。从TB级别跃升到PB乃至EB级别。要知道目前的数据量有多大,我们先来看看一组公式。 1024GB=1TB;1024TB=1PB;1024PB=1EB;1024 EB=1ZB;1024ZB=YB。到目前为止,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB。
第二,数据类型繁多。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,越来越多的非结构化数据的产生给所有厂商都提出了挑战。拜互联网和通信技术近年来迅猛发展所赐,如今的数据类型早已不是单一的文本形式,除了网络日志、音频、视频、图片、地理位置信息等等多类型的数据对数据的处理能力提出了更高的要求。
第三,价值密度低。价值密度的高低与数据总量的大小成反比。以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题。
第四,处理速度快。这是大数据区分于传统数据挖掘最显著的特征。根据IDC的一份名为“数字宇宙”的报告,预计到2020年全球数据使用量将会达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
还记得10年之前风靡一时的美国情景喜剧《六人行》(又名《老友记》)吗?在这部美国NBC电视台从1994年开播到2004年落幕的经典之作中,6位主人公从姓名、职业到个人喜好至今都还能被粉丝们津津乐道。
这部美剧中有一个颇受观注的传奇谜团,那就是钱德勒到底是干什么的?——虽然他解释过很多次自己的工作,但是从来没有人真正弄明白过他所做的那个全称叫做“an executive specializing in statistical analysis and data reconfiguration”是个什么东西。