Hadoop+至强——Hold住医学领域的大数据

DOIT云计算 12年09月03日 09:34 【原创】作者：蓝调责任编辑：唐蓉

导读：生物医学研究领域，大数据处理的速度有时候直接关系到生死存亡。例如，在一些新型的传染病爆发时，如何快速发现病因，并控制疾病的传染，这时，数据处理的速度将直接关系着无数生命的存亡。

关键词： Hadoop 至强英特尔大数据

可以说，没有大规模数据处理的能力，就没有当今生物医学研究的飞速发展。

在发现新基因的研究中，需要基于群体，找到个性化的不同。这需要对大规模的基因数据进行数据处理和分析。

当人体的好几百种微生物群落的比例失调时，我们就会得病，到底是哪种微生物引起的疾病?这需要把所有的样本跟人的基因组比对，不断筛选，最后筛到很少的量，来判断疾病的原因。这也需要大规模的数据处理。

据介绍，一个高增量测试仪产生一天的数据就可以达到数百个GB

……

从上述例子和数据，我们不难得出一个结论——随着新一代医学技术的出现，医学研究已经进入了“大数据”时代。麦肯锡报告指出，排除体制障碍，大数据分析可以帮助美国的医疗服务业一年创造3000亿美元的附加价值。那么，如何这些数据进行快速处理?如何通过对大数据的分析和处理来拯救千千万万的生命?如何借助大数据分析来为医疗服务业创造附加值?这已经成为当前医学研究领域的一大热点课题。

Hadoop——开源云计算框架的最佳选择

“传统数据工具一方面存在一定的弱点，另一方面，大家都建立大规模数据分析处理中心，成本也是一个问题。因此，如何使用云计算的技术或者直接在云端处理这些数据是现在研究的热点。”军事医学科学院网络信息中心及解放军CDC数据中心主任、研究员赵东升表示。

赵东升谈道，Hadoop已经被证明是比较好的开源云计算框架：一方面，Hadoop对于建设内部的数据分析是很好的，因为它把Google所有的商业技术基本上按照它的理念重新实现，可以实现在大量集群上的分布式的数据存储和处理，并且不需要十分高端的存储。

另一方面，很多云计算服务提供商也都支持Hadoop，比如亚马逊的EC2弹性计算服务。这让用户可以根据自身的应用需求进行选择，到底是搭建私有的Hadoop集群，还是借助公有的云服务(如EC2)进行Hadoop集群的搭建。比如在做药物研发的时候，就应该选择搭建私有的Hadoop平台，因为如果把敏感的药物数据放到云端的亚马逊EC2上，一旦被别人窃取掉了数据，可能会造成高达几十亿美金的损失。

同时，在使用Hadoop框架进行数据处理时，用户只需要通过Map Reduce并行编程模型进行编程，通过数据的分割或者任务的分割规约机制实现并行计算，这个并行计算的过程有点像过去中间件的概念，不需要了解并行计算的细节，只需要了解任务分割。

当然，活跃的社区也是推动Hadoop在生物医学研究领域发展的重要原因。赵东升指出，如果一个开源平台的用户很少，支持的厂商也很少，用户就会产生质疑，这个平台能否存活下去?反之，就会有越来越多的用户开始研究并加入到其中。