大数据挑战:我们是否需要新技术?
DOIT云计算 12年05月25日 17:10 【转载】 作者:畅享网 责任编辑:王振
大数据的来临是势不可挡的。而我们今天所要重点探讨的是,我们是否就已经到了应该全面进攻大数据的时代了?
大数据挑战:我们是否需要新技术?
如果光从字面上去理解“大数据”,我们通常会认为大数据就是数据的大爆发,侧重于强调数据的量。但是如果你去总结IBM、ORACLE、EMC对于大数据的定义话,它的外延还包括了数据的多样性已经分析的实时性。
大数据的其中两个特性是数据量大跟实时性,这是企业目前处理大数据所面临的最主要的两个挑战。我们可以看到数据的这两个属性,是传统关系型数据库也一直在处理的问题。如果说传统关系型数据库目前尚不能够满足企业的业务需求,那么技术的研究方向也应该是按照关系型数据库这种技术架构进行进行下去。要知道,传统关系型数据库跟目前针对大数据的非结构化数据库的架构类型是完全不一样的。关系型数据库已经存在了40多年,对于数据处理也已经显得非常成熟,如果企业要用新兴的非结构化数据去取代它,那么会不会面临“捡了芝麻,丢了西瓜”的结局我们也不得而知。
那再让我们来看大数据的第三个特性:“数据的多样性”。这里的“多样性”意味着非结构化数据变得越来越多。
事实上,全球产生的数据中85%以上的确是非结构化的数据。但企业主要处理的还是结构化的数据。大多数厂商的非结构化数据分析工具也是转换成结构化数据之后再进行处理。那么大数据的真正之“大”在于如何将非结构化数据处于成结构化数据,以及之后的对于大量结构化数据的并行处理能力。这跟许多厂商的强调的“非结构化”数据本身并无太大关联。
退一步来论证,如果数据这些非结构化的数据确实需要新的技术架构来实现,那么大数据是否就是我们马上需要去攻克的方向?
一些非常资深的数据库专家认为:能把最简单的业务,简单的数据形态挖掘深入才能体现功底,电商这类复杂业务挖掘出一点成果容易,深入难,许多企业不去强调对于数据的挖掘,而在强调工具和技术。这些专家也在提醒,结构化数据相对小,但是富矿,非结构化数据大,但是贫矿,如果富矿还没开始采就转攻大贫矿,后果可想而知。