中小企业解决之道：大数据如何从小做起

DOIT云计算 12年06月01日 16:00 【转载】作者：博客责任编辑：王振

导读：本文将首先给大家介绍一下在我眼中的大数据，以及大数据的意义和特点，再给大家聊聊大数据的常见处理流程，之后将会和大家分享一下我是如何帮助一些中小企业实施大数据相关的解决方案，也就是大数据如何从“小”做起。

导入/预处理

虽然有采集端本身会有很多数据库，但是如果要对这些海量数据进行有效地分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作，也有一些用户会在导入时候使用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。

在特点和挑战方面，主要是导入数据量大，每秒导入量经常达到百兆，甚至GB级别。

统计/分析

统计与分析主要利用分布式数据库或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC 的GreenPlum、Oracle的Exadata以及基于MySQL的列式存储Infobright等，而一些批处理或者基于半结构化的需求可以使用 Hadoop。

统计与分析这部分，主要特点和挑战方面是分析涉及的数据量大，其对系统资源，特别是I/O会有极大地占用。

挖掘

与前面统计和分析不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测(Predict) 的效果，这样实现一些高级别数据分析的需求，比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的Naive Bayes，主要使用的工具有Hadoop的Mahout等。

在特点和挑战方面，主要是挖掘的算法复杂，并且计算涉及的数据量和计算量都很大，还有，常用数据挖掘算法库以单线程为主。

最新专题

微软重拳推出Office 365 2011年07月08日经过大半年的准备，微软终于在今年6月份隆重推出了云计算办公套件Office 365。那么，Office 365作为微软集成了电子邮件、协作软件、字处理软件、电子表格和演示程序的办公套件重要产品之一，Office 365对微软来说到底是福是祸，能否为微软带来实质性的营收，能否让微软在新兴的云计算领域赢得一席之地？
云计算和算计云 2011年06月22日 DOIT特别专题从云的历史进程到目前实施云的厂商，逐一谈起，让读者耳目一新的了解到现在云的现状以及如何不被云所算计。
云端争夺战——IT厂商的盛宴 2010年07月27日云计算到底是如何发迹的似乎已经不再重要了，重要的是它确实炙手可热。

云计算视频

云计算风向标

云计算厂商