“网络运维再怎么智能都不为过”。
每一个运维人恐怕都有这样的心声,因为加班熬夜、奔波救火常常是运维人的工作常态。Gartner曾有一项调查显示,运维人员90%的时间都在定位问题,运维效率低下是普遍面临的难题。
为运维植入智能,从被动运维转向主动运维,从过度依赖经验到数据驱动,提升运维效率,替代传统人拉肩扛的运维工作就显得尤为重要。
向AI演进,电信网络告别传统运维
电信网络作为信息通信的基础设施,近年来在新技术的运用上展开了一场升级跃迁。5G、SDN/NFV、IoT、边缘计算、网络切片等技术的应用在增强网络能力的同时,也让这张网络变得更加复杂。同时,电信网络之上承载的业务也愈加多样化,网络应用场景越来越丰富,这让运维的难度提升了不止一个等级。
同样来自Gartner的报告指出,基础网络四代共生 (2/3/4/5G)、核心网十域并存(CS/PS/IMS/ IoT等)带来的网络复杂度指数的增长,让网络的运维管理已远远超过人的能力。换句话说,人工积累的经验已经难以应对网络复杂化带来的新问题,或者让故障处理的时间拉得更长。显然,作为承载众多业务和用户体验的关键基础设施,网络的频繁故障及长时间修复是不能被接受的。
如何化解这一矛盾?如同开文所讲,解开这一问题的关键钥匙是“智能”。从2018年开始,为实现网络自动化和智能化,电信行业组织、运营商和设备商纷纷启动技术探索。在网络智能运维方面,将大数据与机器学习功能相结合的AIOps是提升运维成熟度的下一阶段,成为业界运维智能化转型的共识。
华为AIOps服务发布商用,加速AI运维
作为电信网络建设的赋能者,华为在2018年即提出电信行业迈向ADN五级演进标准,为实现自动驾驶网络提供了参考;2019年,华为网络人工智能引擎(NAIE)正式商用发布,向运营商和第三方业务应用开发者提供各项AI服务,让网络AI开发更简单;2021年4月,作为NAIE的核心能力,华为NAIE AIOps服务发布公测;今日,在正在召开的华为全联接大会上,华为AIOps服务正式发布商用。
商用发布的华为AIOps服务将加速行业AI网络运维的落地,顾名思义,AIOps服务作为一项服务,定位于为运维系统的智能化演进提供AIOps平台能力支持。这意味着AI运维的开发门槛进一步降低,从而能够助力各专业运维系统的应用快速上线,加速AI应用落地,让AI落地难、AI应用开发周期长的问题成为过去。
华为网络人工智能产品部AI模型与训练服务部部长王晶表示:“华为AIOps致力于为合作伙伴提供一站式零编码开发平台,通过四大能力,将AI技术带入运维预测、检测、诊断、识别、优化等每个环节,赋能合作伙伴创新,共同建设智能运维生态,实现商业成功。”
华为AIOps服务预集成丰富的AI原子能力,结合一站式的数据采集治理能力,支撑用户零编码开发AIOps应用,实现灵活的场景定制。同时,服务沉淀了MBB/FBB、园区网络、数据中心网络、IT应用四大领域的10+开箱即用的智能APP模板,满足用户开箱即用,提升运维效率。
华为AIOps四大能力升级
2年前,华为NAIE的发布,业界便对AIOps服务丰富的AI原子能力、 组合编排与DevOps能力、ADN解决方案预集成和支持电信领域通用数据源四大能力称赞不已。
如今,商用发布的华为AIOps服务在四大核心能力上进一步升级:
首先,华为AIOps服务支持SFTP、Kafka、Rest等通用采集协议,支持华为30类网元、跨厂家100多种主流设备的自动对接,从而满足ICT网络领域端管云的数据采集需求。这对复杂的网络而言,意味着网元种类多、接口复杂不统一等数据采集治理的问题不再是瓶颈。
其次,华为AIOps服务沉淀数十个经过专家调优与局点验证的APP,用户只需配置数据源,即可启动APP运行,将AI应用的开发部署过程缩短到分钟级,从而帮助伙伴快速上手,轻松部署运行AI应用。
第三,华为AIOps服务提供了零编码APP开发能力,基于丰富的原子能力,简单拖拽式设计APP,系统自动完成节点间的数据衔接,自动推荐下个节点,规避了用户从组件库中反复筛选验证的过程,从而显著降低AI应用开发门槛。
第四,华为AIOps服务提供了80多个2D/3D可视化组件,轻松DIY出包含趋势、报表、网络关系等元素的可视化大屏,通过自定义SQL灵活检索数据。基于此,用户可以进行可视化大屏按需定制,做到一屏洞察全局。
最后,华为AIOps服务提供了20多个原子能力,覆盖预测、检测、诊断、识别等网络运维场景,通过超过100个现网局点验证,异常识别与故障诊断准确率达90%,从而有效提升运维效率。
AIOps在行业网络运维场景中绽放
目前,华为AIOps的服务能力已经在多个行业领域和客户的运维实践中得到验证。举例来说:
在华为南方工厂5G智能制造园区,通过AIOps服务实现了智能运维。园区内网络设备类型多,跨核心网、无线、传输多领域,网络质量对设备生产制造意义重大,这对故障处理和运维效率提出了很高的要求。通过AIOps服务提供的数据对接能力、AI原子能力、业务编排能力、可视化大屏编排能力,华为南方工厂园区的数据对接效率提升1倍,KPI异常检测查全率&查准率达到90%以上,跨域问题定位实现了从天级到分钟级的提升,面向新场景的智能运维应用开发效率提升2倍以上,显著提升了网络运维效率。
在某运营商核心网,面对海量KPI指标、人工难以监控,传统静态阀值检测存在漏报、误报等问题,利用华为AIOps服务实现了预测性运维。这一能力在一次网络事故中得到了充分体现:2020年7月10日,某供应商将DNS脚本的指向配置错误,影响此运营商8个城市2000多5G用户数据业务,华为核心网KPI异常检测APP,提前5小时发现问题,并发送告警短信,最终将业务损失降到最低,并保障了5G高端用户的上网体验。
事实上,这些看得见的能力在MBB/FBB、园区网络、数据中心、IT应用等网络领域得到了众多体现。截止目前,华为AIOps服务已经在110多个现网局点规模应用,帮助客户管理10万多个KPI,API调用次数每月达6亿次,每天处理1000万告警。
也许有人问,为什么华为能做到这一点?其实不难理解,其一,华为在网络领域积累了数十年的经验,懂网络是华为的最基本优势;其二,近几年来,华为在AI领域进行了压强投入,这使得其利用人工智能算法在网络中发挥强大的分析、判断、预测能力游刃有余。两者能力的叠加,缺一不可,这是其他厂商不具备的。
如今,华为AIOps服务的正式商用,无疑将进一步推动网络向自动、自愈、自优和自治的自动驾驶网络迈进。尤为重要的是,AIOps服务的落地让AI不再高高在上,通过降低开发门槛,AI运维也将从“土豪专属”进入“寻常百家姓”。