灾难和设备故障可能随时随地发生,企业IT管理员需要适当地做好准备。在过去的一周中,NASA修复了国际空间站(ISS)上的设备故障,尽管它在与地球上的数据中心不同的环境中运行,但其操作可以作为地面最佳实践的指南。
NASA宇航员Rick Mastracchio和Mike Hopkins于12月21日离开国际空间站,进行了五个半小时的太空行走,以拆除故障的氨泵。12月24日,两名宇航员又进行了一次太空行走,这次安装了新的氨泵,以使国际空间站恢复正常运行。
这里有趣的是,新的氨泵已经作为国际空间站的备品备件。在空间有限的敌对环境中,冗余不是一个选择,而且备件也不容易从远程位置获取。对于备用氨泵,还存在一个问题,即NASA及其ISS合作伙伴如何将新的氨泵运送到该站。大部分的国际空间站,包括氨泵,最初都是通过NASA航天飞机运送到太空的,该航天飞机于2011年随着航天飞机亚特兰蒂斯号的最后飞行而退役。
从灾难恢复和冗余的角度来看,NASA及其ISS合作伙伴必须从一开始就计划要有很多维修和更换站台组件的选择。简而言之,如果没有机上处理某些类型设备故障的能力,国际空间站就不会是今天的成功,生命将面临危险。
将相同的消息传递到地球,数据中心甚至分支机构IT和小型办公室都可以从NASA的示例中学到东西。虽然地球上的人类可能不需要在现场保留额外的氨泵,但在内部放置其他类型的备用设备确实有意义。
关键任务服务器和网络组件可以并且应该具有冗余电源和风扇以进行冷却。电源和风扇的确会发生故障,即使在地球上很容易获得额外电源或风扇的地方,它仍然需要时间,而关键任务环境可能无法承受。
自动故障转移是当今企业IT中另一个普遍部署的功能。自动接管发生故障的组件的群集和镜像服务器部署是现代数据中心的必备条件。
实际上,像NASA一样,手持额外的设备似乎很奢侈,但这也很有意义。对于较小的分支机构和办公室IT环境,仅需准备一个额外的(也许是较旧的)WiFi接入点或路由器以备不时之需,这不是一个坏主意。在存在用于备份和应用程序交付的云的现代时代,重要的是要记住,您仍然需要访问云,并且仍然需要某种形式的现场或移动设备来执行此操作。
计划失败意味着您可以选择。如果没有冗余和备件,则设备故障的可能性更大。