盘点2012年“泰囧”数据中心宕机事件

中关村在线 12年12月29日 00:26 【转载】作者：zol 责任编辑：唐蓉

导读：2012年度最为典型的例子是云中断，一些领先的云计算平台供应商经历了惨痛的停机，最值得注意的是亚马逊网络服务。该事件使得人们对于先进的云供应商的可靠性提出了质疑，也促使人们更多地着眼于构建多个区域和位置的云应用，创造更大的弹性。同时，超级飓风桑迪所遗留的影响才刚刚开始显现，并将在2013年继续。

关键词：云计算数据中心

5、7月1日澳大利亚机场混乱：“闰秒Bug”，一个单一的一秒加入了世界原子钟，成为了7月1日的头条新闻。该变化造成的电脑问题使得Amadeus航空公司预订系统触发了长队，造成澳大利亚各地机场的旅客被迫延迟，停电肆虐直接影响了澳大利亚快达航空公司和维尔京的登机系统。

6、2月29日WindowsAzure云停运事件：这是由“闰秒”的安全证书日期相关的故障所引发的，2月29日的“闰日Bug”每四年发生一次。该事件造成Azure客户无法管理他们的应用程序长达大约8个小时，并且还造成了北美的一些基于Azure的用户服务离线。微软的比尔?莱恩说：“这个问题似乎是由于不正确的闰年时间计算造成的。”微软后来在其服务水平协议中为客户提供了服务信用服保证。

7、7月10日Salesforce.com停运事故：六月和七月往往是事故频频发生的一段时间。Salesforce.com在这两个月均发生过停运事故。最重要一次发生在7月10日，是由Equinix公司在硅谷数据中心操作的一个简短功率损耗造成的。通常情况下，恢复数据中心的供电是及时的，但随后为客户提供数据库和应用程序需要一个较长的恢复期。Equinix公司在一分钟内便恢复了电力，但Salesforce.com影响却超过了9个小时。

8、11月29日叙利亚互联网管制停机事件：停机事件有时也可能是由于政治原因造成的。在过去两年中，我们已经了解到很多在埃及、利比亚以及最近的叙利亚由于“拉闸限电”造成互联网连接中断。11月29日，网络监控服务报告说，叙利亚的84个IP地址模块不可访问。CloudFlare的监测表明，当地政府声称，恐怖主义和电缆削减缺乏说服力。该系统路线被撤回的方式表明，这是路由器配置更新，而不是通过物理故障或电缆切断造成的。

9、7月28日Azure“安全阀”事件：有时系统设置是为了保护您的网络在不经意间受损。在7月28日WindowsAzure云计算平台中断事故中，一个“安全阀”功能旨在扼杀流量高峰中的不正确连接配置，以处理西欧地区容量升级，而洪水般的网络管理消息刷爆了Azure系统。其结果是西欧地区的用户经历了长达2小时24分钟的停运。

10、7月28日Hosting.com停运事件：人为错误通常被认为是数据中心停机的主导因素之一。7月Hosting.com中断事件造成1100名客户服务中断就是一个例子。停机事故的发生是由于该公司位于特拉华州纽瓦克的数据中心正进行UPS系统预防性维护，“服务供应商执行断路器操作顺序不正确造成的UPS关闭是造成数据中心套房内的设施损失的关键因素之一。”Hosting.com首席执行官ArtZeile说。“没有任何重要的电力系统或备用电源系统出现故障，完全是一种人为的错误造成的。”