新闻中心
加强机房弹性应注意哪些方面?
2018-05-08
阅读()
来源:互联数据

人类是一种体质虚弱但却具有强大弹性的生物。对于人类来说,可以本能地知道如何在地球各个地方生存和繁衍。而与人类一起发展的物种是机器,更具体地说,是智能机器。

从亚马逊的Alexa到可穿戴技术,从边缘技术驱动的智能传感器到功能强大的机器人,物联网以指数速度增长,并正在与人们的生活方式完全融合。摩尔定律似乎适用于技术进步的所有方面。

嵌入在软件中的逻辑和数据使机器设备变得更加智能,而且所有这些关键设施都集中在的机房。随着墨菲定律(凡是可能出错的事都有很大几率会出错)永远潜伏在机房运营的阴影中,机房比以往任何时候都需要有弹性,就像人类一样。因此,作为机房设计师、运营商、IT设施经理来说,机房可以从人类强大弹性的特性中学到什么?

机房的弹性

无论出于何种原因,人类由于生存而自有的随机应变的基因被编码到DNA中。这是机房应变能力的起点:设计。机房必须设计成在多个层面上具有弹性(电力、冷却、网络、通信以及潜在的内部和外部威胁)。

而目前机房行业的人士想到弹性时,会想到部署冗余的设备,尤其是基于Uptime Institute的层级而设定的。机房拥有两条主动基础设施支持路径,为机房业主提供99.995%的可用性,最终成为容错站点基础设施,换句话说,每年大约有48分钟的计划内或计划外停机时间。

与人类的基因不同,Tier IV级机房弹性设计非常低效。这就好像效率和弹性是完全相反的。由于拥有有冗余设计,将会部署成本高昂的冗余基础设施。而在Tier Ⅲ机房空间内可以找到更有效和更具成本效益的折中方案。在经典的2N配置中,不是采用两个镜像的冗余输入电源,而是可以选择三条输入电源,每个电源可以在2N分布式配置下承载2N负载的一半。换句话说,在分别为150VA的三个负载下,三个输入电源共同承载100%的300kVA负载都是低效的,每个负载的利用率为66.6%。如果其中一个输入电源中断,另两个输入电源仍然可以提供300kVA的负载容量。除了这种配置成本更低的部署和操作之外,如果三个输入电源是100%独立的,它还提供了改进的正常运行时间可用性。

机房的选址

人类通常会仔细考虑在哪里定居,并建立他们的社区。选址对人类的生存至关重要,机房也是如此。如果发生地震,洪水或飞机撞击等最为严重的自然灾害和人为灾难,最有弹性的机房设计都将很难应对。人们应该规划和应对潜在的威胁,以及围绕电力和冷却可能带来的好处。替代能源的可用性以及利用自然开发创新方式来冷却机房(不管是自然空气冷却还是自然水源等),这将增加弹性,并提高效率,节省成本。

共同工作

如果机房变得真正独立,人工智能,预测分析和机器学习可以进行计算、合理化并做出决策,那么该怎么办?

人类居住的社区通常适宜生存和生活。如果在一个地方发生灾难,通常会很快得以恢复。就像人类分布在世界各地形成集群一样,可以利用整个机房的集群优势,企业都能够抵御灾害对电力和冷却的威胁。在研究跨越机房网络的基础设施时存在这种逻辑,这些机房可能位于一个地区或全球各地,而且每个机房设施在基础设施体系结构、外观和感觉方面都完全相同。而多机房的弹性拓扑意味着每个机房设施都运行相同的应用程序,并可访问N个数据库副本,并在机房内复制所有更改。因此,用户可以随时与任何机房进行通信,而不会有失败的风险。

从过去的错误中学习

人类具有弹性的强大特征是在可能威胁到人们生存的情况中学习的能力。同样,了解运营中的机房是一项应该延续机房设施寿命的努力。其起点是监测,机房的一切都需要监控。例如,机架内部温度、机架前部、机架上方、机架后部、UPS/电池空间、地板、冷通道和热通道内的温度和湿度、气压、电路、流量和回水温度、返回空气,以及烟雾探测等,都需要进行监测。人们永远无法获得足够的监测资源。

然后,重点应该是在相当长的一段时间内收集数据,并通过创新地创建设施数据的子集来寻找趋势和周期。每个机房都是独一无二的,需要工作人员对机房设施所提供的数据有了持续的了解,并且所创建的正确信息可以持续规划恢复能力。一个良好的机房基础设施管理(DCIM)工具应该对此有所帮助。

机房的独立

人类需要自己思考,可以离开社区并适应外部环境生存和发展。而一些调查研究将机房的大部分停机时间直接或间接归因于人为错误。将人排除在外可以提高机器的适应能力吗?当然,人工智能正在进入机房领域。目前情况是网络运营中心通过DCIM工具与机房进行交互。如果机房真正独立,人工智能,预测分析和机器学习可以计算,合理化并为机房的利益做出决策,那该怎么办?如果机房变得自我复原呢?

机房自我保护系统已经取得了一些进展,它可以通过面部识别和空间意识消除有关安全访问控制的决策过程。很快,人们希望机房能够根据设施内的问题进行预测,并对环境和基础设施参数进行调节,以实现完全优化,这不仅在机房内,而且还代表机房网络。DeepMind工具已经将谷歌公司的机房能源成本降低了高达40%(不包括能源损耗和冷却效率)。

当摩尔定律与墨菲定律发生碰撞时会发生什么?看起来,面对即将到来的大量数据和应用程序以及管理它们所带来的一切问题,机房保持弹性的能力可能超越人类,而人们也要在某些时候必须让机器来管理机器。

相关阅读