- 2018-07-26
- 阅读()
- 来源:互联数据
昨日上午,腾讯旗下云计算服务在广东地区宕机,导致部分用户资源访问失败,控制台登录异常,多家网站无法访问。故障持续3个小时,目前,此次故障带来的损失及其用户赔偿问题尚无定论。据悉,该事故系运营商光缆中断所致,截止昨日11时40分,腾讯云表示故障已经恢复。
然而,这不是个案。一个多月时间里,接二连三地爆出了一桩桩惊心动魄的事故:
6月初,北京亦庄某数据中心机房柴油机发生起火;
6月28日,阿里云官网控制台和使用部分产品功能出现问题;
7月17日,AWS管理控制台间歇性失灵;
7月18日,谷歌云平台全局负载均衡服务发生中断;
……
以阿里云故障为例,其事后声明直指,这也是其在运维上的一个操作失误。结果导致阿里云的多个产品在约1个小时期间均无法使用,有用户直言:中国互联网半壁江山,惊魂整整一小时!
看来,高温模式之下,数据中心与云计算领域也在经受着前所未有的运维考验。
智能化自动化运维,并非无人介入,还要借力人工智能
运维无小事,尤其是对于充当重要基础设施角色的数据中心而言,运维工作更是丝毫不能懈怠。近十多年来,数据中心已从只有UPS、空调和IT设备的普通机房时代,进入到囊括各种新技术和应用的新时代。这样一来,规模化之下,风险集中,数据中心的运维管理面临更大的挑战,运维难度也“更上一层楼”,特别是面对不断扩充和升级的数据中心,基础设施安全、稳定的运行显得日益重要。
在数据中心领域,讲究的是“三分技术,七分管理”。因此,数据中心如何减少人为参与的机会,并对人为行为进行科学管控,正是当下运维工作的重中之重,而近年来建设投产的新一代数据中心往往对此颇有发言权。其中,8月底投产运营的中国电信开普勒(佛山)数据中心在智能自动化运维之路上进行了积极探索。
如今,大数据、物联网、自动化和机器学习等创新技术改变了数据中心传统的运维管理模式。新一代数据中心运维离不开信息系统的支撑,建立一套高度智能化的信息系统,是提高运维效率、实现运维智能自动化的关键。
其中,运行监控平台是实现运维管理系统的基础和前提。为了保障数据中心的安全,运营商需要对数据中心里面的温湿度、电能、水流及风量等进行全面实时的监控,以期发现潜在问题。在开普勒数据中心里,监控中心执行了红外温度监测、电能质量监测、超声波水流监测、风量监测等资源的监控,并额外增加关键设备监控,告警信息直接在监控中心展示,确保关键设备告警信息第一时间被运维人员获取,有备无患,少故障处理时间,提升工作效率;与此同时,防患于未然,科学运用这些数据还可以为应急措施及节能措施提供可靠的指导依据。
以人工智能技术为依托,监控中心采用了统一规范编码、名称、数据类型、单位精度、更新频率、储存要求等数据源标准,数据中心各种资源与设备的运行状况一目了然,既提升了运维的工作效率,又很大程度上避免了机房出现局部热点、机房冷热不均、局部热点等不良现象发生。
只有监控平台仍是远远不够的,想要实现更精细化的管理,还少不了智能管理平台,由此PC端搭配移动APP的智能管理方式应运而生。据悉,开普勒数据中心在业界首创性地采用了全自动化二维码巡检系统,可自定义巡检路线,自动生成巡检任务,手机APP自动接收巡检任务,并一键生成巡检报告,自动评估巡检健康度,实现了流程自动化与智能巡检,与此同时,提升了数据中心的安全性,提升整体的运行效能。
需要指出的是,数据中心的智能自动化运维并非意味着运维中不需要人,而是约有30%-40%的运维是标准化工作,不需要人工干预,只要设置好了参数和步骤,就能解决问题、实现自动化。然而,数据中心完全采用人工智能还有一段很长的路要走——数据中心设备厂商施耐德电气公司专家指出。
此外,另外60%-70%的工作仍需要有人工介入,因为这一部分工作涉及到非标准化运维,此时考验