中小企业解决之道:大数据如何从小做起
DOIT云计算 12年06月01日 16:00 【转载】 作者:博客 责任编辑:王振
导读:本文将首先给大家介绍一下在我眼中的大数据,以及大数据的意义和特点,再给大家聊聊大数据的常见处理流程,之后将会和大家分享一下我是如何帮助一些中小企业实施大数据相关的解决方案,也就是大数据如何从“小”做起。
下面通过几个行业来和大家举例讲解一下大数据有那些意义和作用?
互联网企业
我们有一些客户,他们主要是做网络舆情或者网络广告,他们明天都会处理和收集TB级别日志或者网页,结构化和非结构化都有,他们就是通过分析这些数据来给其客户提供价值,比如分析一下一个男性护肤品广告是在世界杯期间投放好,还是在亚洲杯那段时间播出好?还有,在电子商务方面,国外eBay的分析平台每天处理的数据量高达100PB,超过了纳斯达克交易所每天的数据处理量。为了准确分析用户的购物行为,eBay定义了超过500种类型的数据,对顾客的行为进行跟踪分析,并且通过这些分析促进eBay自身的业务创新和利润增长。
智能电网
我们有一个合作伙伴,他们是做智能电网相关的解决方案。对那些电网而言,如果无法准确预估实际电力的使用情况,将会使电网要求电厂发出过量的电力,虽然这些过量电力可以通过某种模式进行保存,但是大量的电力浪费已不可避免。而通过他们智能电网的解决方案,每隔一刻钟会采集一个省几千万用户的用电数据,之后他们会根据这些数据来精确分析用户的用电模型,最后通过这个用电模型来优化电力生产,从而有效地减少电力资源的浪费。
车联网
在车联网方面,我们也有一个客户,他们在一个城市有几十万台基于Android的终端,而这些终端会每隔一段时间会发送具体位置的GPS消息给后端的数据集群,接着这些集群会分析一下这些海量的GPS信息,分析出那些路段在什么时候比较堵,之后将这些非常有价值的信息不断地推送给客户,从而帮助用户减少在路上所消耗的时间。
医疗行业
在这个方面,大数据的用例有很多。首先,通过分析大量的病例信息,将有效地帮助医生治病;其次,假设在一个病人身体的多个节点加入探针设备,而且每个探针每天会采集GB级别关于人体细胞和血液运行状态的数据,之后计算集群可以根据这些数据来来进行分析,这样能更精确地判断病因,从而让医生对病人进行更具针对性地治疗。
机器学习
在这方面,最出名的例子莫过于最近很火的Siri,它后台有一个庞大的HBase集群来对类似语言这样的文本数据进行分析和管理,从而使Siri变成一位越来越老练的个人助手,为iPhone 4S的用户提供了日期提醒、天气预报和饭店建议等服务。除此之外,还有IBM的Watson,它通过一个基于Hadoop UIMA框架的集群来挖掘海量的文本信息来实现一定程度的人工智能,并在美国著名知识问答节目Jeopardy中战胜多位出色的人类选手。
国家安全
这方面最出名的例子,莫过于美国的联邦情报局(CIA)。在过去10年中,他们通过无人侦察机收集了大量阿富汗那边地理相关的视频资料,之后通过分析这些海量视频资料,来对极具危害性的恐怖组织团伙进行定位。