1月24日,Google服务中断造成30至60分钟的中断,这是一个软件错误的核心,该错误影响了Gmail,Google +,日历,文档和其他应用程序的用户。事件发生后,谷歌工程副总裁本·特雷诺(Ben Treynor)在1月24日发表在Google官方博客上的帖子中,提供了导致问题的详细技术解释,该问题影响了全球用户。
在停机期间,“大多数使用已登录服务(例如Gmail,Google +,日历和文档)的Google用户发现他们无法在大约25分钟内访问这些服务,” Treynor写道。“对于大约10%的用户,问题持续了30分钟之久。无论是短暂的还是持续了一个小时以上,请接受我们的道歉,我们努力为Google提供所有服务,并迅速提供您,一直以来,我们都错过了今天的成绩。”
Treynor写道,导致服务中断的问题被归结为“一个内部系统,该内部系统生成配置-本质上是告诉其他系统如何运行的信息”。他写道,配置系统发现了一个软件错误,然后生成了一个错误的配置,使整个事情陷入混乱。
他写道:“错误的配置在接下来的15分钟内发送到了实时服务,导致用户对其数据的请求被忽略,而这些服务又产生了错误。” “用户从[2:02 pm]开始在受影响的服务上看到这些错误,当时我们的内部监控提醒Google的站点可靠性团队。工程师仍在调试12分钟后,该系统自动清除了原始错误,一个新的正确配置在[2:14 pm]并开始发送;错误从此开始迅速消失。到[2:30 pm]正确的配置已在所有地方使用,并且几乎所有用户的服务都已恢复。”
Treynor写道,现在已经确定了问题所在,Google正在努力寻找防止此类错误再次发生的方法,并寻求加快从类似错误中恢复的方法。
为此,谷歌正在纠正配置生成器中弹出的原始错误,以防止再次发生,并且还审核所有其他关键配置生成系统,以确保它们不包含类似的错误。Google工程师还为配置添加了更多的输入验证检查,以便将来生成的不良配置不会导致服务中断。他还写道,该公司还加强了针对性的监控,以更快地检测和诊断服务故障的原因。
在1月24日停运后约下午2点12分东部时间。Google Gmail,Google +环聊和其他服务的用户遇到了关机和运行缓慢的问题。有关Google服务问题的报告使许多用户经常抱怨中断的社交媒体网站变得光彩照人。某些在中断期间尝试使用其Gmail帐户的用户收到了Server 500错误消息,并且不得不稍后尝试重新发送其消息。
Google的Apps Status Dashboard很快包含了有关中断的有限详细信息,包括受影响的服务列表。当时尚不了解有关问题原因的解释。根据应用程序仪表板的报告,一长串Google服务遇到了延迟和其他问题,其中包括Google Talk,云端硬盘,表格,幻灯片,工程图,站点和组。
东部时间下午3:23,即原始中断后一个小时左右,Google发布了一条更新,称Gmail问题已修复。笔记说:“应该解决Gmail问题。” “给您带来的不便,我们深表歉意。感谢您的耐心配合和一如既往的支持。请放心,系统可靠性是Google的重中之重,我们正在不断改进以使我们的系统更好。” 不久之后,下午3:47,Google向eWEEK发送了一封电子邮件更新,内容为:“与Google服务有关的大多数问题都已解决。”
Google 过去也面临过类似的服务问题。2013年9月,当Gmail服务由于当时称为双网络故障的缘故而减速长达10个小时之久时,该公司向用户道歉。这次事件的放缓是由Google所说的公司网络架构中罕见的两管齐下的故障引起的。当两个单独的冗余网络路径同时停止工作时,发生中断。