您好,欢迎您来到DOIT! [ 登录 ] [ 免费注册 ]
您的位置:DOIT云计算> 云:云资讯 > 产业资讯 > 正文

亚马逊服务中断一年后:我们更安全了吗?

CSDN 12年05月03日 14:10 【转载】 作者:网界网 责任编辑:周晓丽

导读:去年四月,亚马逊遭遇了被很多人认为是迄今为止最严重的云服务中断事故,这次中断导致Reddit、Foursquare、HootSuite、Quora等脱机,有的脱机时间长达四天。

关键词: 云服务 云安全 事故

去年四月,亚马逊遭遇了被很多人认为是迄今为止最严重的云服务中断事故,这次中断导致Reddit、Foursquare、HootSuite、Quora等脱机,有的脱机时间长达四天。

那么,在亚马逊服务中断事故的一年后,这个领先的基础设施即服务和云供应商作出了必要的调整来防止又一次中断吗?如果再次出现中断,企业做好准备应付了吗?专家称,答案并没有什么新意。

从部分来讲,很难回答这些问题,因为众所周知,亚马逊对于其庞大的云业务的内部运作总是守口如瓶,他们不仅在去年四月遭受了中断,在八月份也遭遇了短时间的中断。而且,很难获取个别云客户的私人计划,虽然行业观察家(例如IDC分析师Stephen Hendrick)表示很多企业在处理供应商服务中断方面仍然有很长的路要走。

“有些客户没有受到什么影响,有些客户则受到严重冲击,”IDC分析师Stephen Hendrick回顾去年亚马逊服务中断时表示,“一定要吸取经验,问题是客户是否真的会采取措施来保护他们自己。”

首先,让我们回顾一下去年发生的事情:在亚马逊服务中断的几个星期后,该公司发布了一份报告详细说明了是什么原因导致中断以及该公司立即采取了哪些措施。基本上来说,人为失误是该事件联锁反应的起源。在2011年4月21日凌晨,当试图升级该公司东海岸地区的EBS服务(与该公司弹性云产品链接的存储功能)时,部分EBS网络被切换到没有做好准备处理EBS系统流量的较低容量基础设施。EBS节点试图自己来纠正问题,导致网络塞车,并且很快蔓延到另一个亚马逊服务—关系数据库服务(RDS),这是另一个日志存储产品。最终,受感染区域的13%的EBS节点受到服务中断的影响,在事故发生的四天后,0.07%的受影响数据永久丢失。

专家称,自那时以来,亚马逊对其系统进行了改善,但我们并不清楚他们进行了何种程度的改善。例如,在该公司的报告中,亚马逊审计了其调整过程,并且增加了自动化工具的使用,以避免人为错误。 追踪云行业和亚马逊的Gartner分析师Drue Reeves表示,该公司提高了其主要和次要EBS网络来处理高网络容量。“这让EBS更具弹性,”他表示,“他们采取了一些措施来改善情况,以确保这种事故不会再发生,但这并不意味着我们不会面对其他服务中断。”

该公司称他们已经采取了措施以确保一个区域的问题不会波及到其他服务,并且亚马逊表示现在其客户可以使用亚马逊产品更容易地建立容错系统。但Reeves表示,该公司云业务架构的秘密性质让其难以评估安全漏洞。

亚马逊承诺在未来将对中断事故更加公开化。在去年四月份的停机期间,该公司表示只是发生了一个“网络事件”,这让很多想知道发生了什么事情以及什么时候服务会恢复的客户感到受挫。亚马逊的一位发言人在一封电子邮件中写道,检验报告中详细说明了该公司采取的一些措施:“这包括软件修复以及新功能(包括EC2 Instance Status Monitoring和EBS Volume Status),为客户提供他们需要的信息来了解其资源在亚马逊运行的全面的情况。”

该公司还强调了客户应该采取怎样的措施来保护自身免受中断的影响,这里的关键就是可用区(AZ)。亚马逊在全球拥有八个区客户可以存储数据,包括美国东海岸地区,每个区都有可用区,它们都是物理隔离的,独立的基础设施意味着数据的高可用性。亚马逊很明确地表示,在多个可用区备份数据的客户受中断的影响更小。对于使用亚马逊关系数据库服务的客户而言,使用单个可用区的客户有45%受到中断影响,而使用多个可用区的客户只有2.5%受到影响。

Hendrick表示,每个客户都应该进行风险评估以确定应该投入多少来确保服务的高可用性。在多个可用区拥有数据备份将会增加使用亚马逊云服务的成本,也许高达50%。“我不知道有多少企业真正知道高可用性意味着什么,”他表示。一个经验法则就是客户应该确保云中的关键任务应用程序和数据的高可用性。对于有些客户而言,多可用区的方法并不够。“我们经常将数据存储在多个区来避免中断,”Reddit高级产品开发人员Jeremy Edberg表示,“最终仍然失效的原因是在多个区域都失效了。”

除了采用多可用区的方法外,Gartner分析师Reeves表示,还可以采取跨地区存储数据的战略。这可能更加复杂,因为亚马逊允许单个地区内可用区之间共用API,而跨多个地区则需要单独的API调用。这是Quora自去年服务中断事故以来所采取的措施,Quora工程师指出,该公司正在采取“跨地区数据库复制”的战略来分布其内容。

Reeves表示,客户还可以采取非技术性的方法。客户可以与供应商进行谈判来确保可用性,并规定如果不符合服务级协议(SLA)所需要承担的后果。在亚马逊的中断事故中,使用受影响可用区的用户都收到了10天的费用,不管他们是否遭遇了停机时间。

总是会存在风险和中断事故,Reeves表示从某种程度上来看,这是一件好事:能够使公司和最终用户始终保持警惕。“我认为中断事故能够进一步推动云计算,而不是阻碍其发展,”他表示,“如果我们能够从这些失误中学习教训,将会让我们的系统更加安全,这对于整个行业来说,不失为一件好事。”

  • 人人网
  • 转播到腾讯微博腾讯微博
  • 新浪微博
热点文章排行
  • 微软重拳推出Office 365  微软重拳推出Office 365 2011年07月08日 经过大半年的准备,微软终于在今年6月份隆重推出了云计算办公套件Office 365。那么,Office 365作为微软集成了电子邮件、协作软件、字处理软件、电子表格和演示程序的办公套件重要产品之一,Office 365对微软来说到底是福是祸,能否为微软带来实质性的营收,能否让微软在新兴的云计算领域赢得一席之地?
  • 云计算和算计云 云计算和算计云 2011年06月22日 DOIT特别专题从云的历史进程到目前实施云的厂商,逐一谈起,让读者耳目一新的了解到现在云的现状以及如何不被云所算计。
  • 云端争夺战——IT厂商的盛宴 云端争夺战——IT厂商的盛宴 2010年07月27日 云计算到底是如何发迹的似乎已经不再重要了,重要的是它确实炙手可热。