作为一家城市商业银行的IT运维负责人,老金最近有些焦虑。
2年前行内规划启动云平台建设,目前已全面上线。云平台的建成带来了计算、存储等资源的池化,让生产资源的交付时间由数周缩短到1天,并加快了业务的上线和创新速度。
云带来了效率的显著提升,但却对老金所负责的IT运维工作带来了新的挑战。以前老金团队经历过无数次熬夜奋战,虽苦点累点,但根据多年的经验和利用运维工具还能保证金融IT系统的稳定。然而如今的云化环境下,让IT运维对业务的感知和对故障的发现与定位愈加困难起来,老金的焦虑来源于此,似乎总有一股劲使不出来的感觉。
特别在网络运维方面,以业务感知遇到的挑战来说,目前网络业务的配置方式从传统的人工配置演变为由云平台和控制器配置的方式,使得很难实时感知到网络的变化;在故障发现上,网络的连接状态、资源使用状态和策略状态对于运维人员来说逐渐呈现“黑盒”,在遭遇故障时,运维人员无法第一时间感知,从而不得不面临巨大的压力。
但对于金融业来说,保证业务稳定运行和实现故障发生时快速恢复,是运维的生命线。在金融业快速发展和数字化转型愈发深入的今天,老金的焦虑在很多金融机构普遍存在,基于传统的工具和运维方法已不能满足日趋复杂的金融IT环境。
“老金们”该怎么办?
金融业的运维转型之变
随着金融科技发展趋势愈演愈烈,金融业的竞争逐渐演变为服务与创新力的竞争。在数字化浪潮的时代变革中,随之而变的IT运维也需从以设备为中心转变为以业务和用户体验为中心。
这其中蕴含三个转型变化:
第一,从关注网络到关注服务质量。网络的连通与否只是运维的初级目标,服务质量的保障才是运维的终极目的。关注服务质量就需要更敏锐地感知运维指标细微的变化,如网络的丢包等。业务部门反映应用有卡顿现象,这就需要运维人员拿出更精细的数据去进行分析,以准确定位故障。
第二,从被动维护到主动性维护。IT系统的稳定是金融企业正常运营的基石,所以应急处置能力是运维强调的一个关键词,但这光靠被动响应是远远不够的。这就要求运维主动出击,提早发现问题,例如通过部署自动化工具定期对系统进行健康检查,结合AI算法对业务运行状态进行准确预测,提升业务感知能力。
第三,从依赖经验到依赖数据驱动运维。人的经验固然可贵,但不得不说通过查看日志的方式从海量的故障告警和日志信息中根据个人经验排查定位问题,效率低下。况且,过去以来因为人的“经验”问题导致的运维事故也不在少数,只有以数据为基准帮助精细化决策才是运维的正确“姿势”。
为IT运维“注入智能”
如何实现运维转型,让金融业以更高的运维效率提升业务?在华为看来,随着AI的深入应用,唯有为IT运维“注入智能”才能铺就金融业数字化升级的未来之路。
Gartner认为,将大数据与机器学习功能相结合的AIOps是提升IT运维成熟度的下一阶段。AIOps可以应用到广泛的IT运维流程及场景中,并被认为是提升运维智能化水平的重要方式。
实现智能运维最核心的基础是数据,但它往往却成为短板,尤其在网络方面,SNMP盘据运维市场十几年,其协议限定了每5分钟收集一次网络信息,周期长、效率低。华为网络智能分析器采用Telemetry技术实现秒级的数据获取,其具备的实时获取数据的能力,从而为分析器挖掘数据提供了坚实基础,并消除了智能运维的关键障碍。
华为推出的iMaster NCE自动驾驶网络管理与控制系统通过植入独有的AI算法和AI引擎,将传统的网络管理功能、SDN控制功能和网络数据分析功能融为一体,从而支撑对金融网络全生命周期的智能运维管理。
iMaster NCE从业务视角出发,实时评估网络健康度:首先通过Telemetry实时采集网络数据,进而快速感知故障的发生;其次基于AI算法进行深度特征挖掘和学习,实现分钟内精细化定位故障根因;最后在快速定位故障根因的基础上,智能推荐故障恢复方案,并实现业务故障分钟级自愈。
金融网络运维瞄向智慧、可靠与安全
将传统的人工运维模式转变为智能运维模式是AIOps的目标,通过机器学习不断从运维大数据如日志、运行信息、应用信息等中提炼和总结规则,进而做出智能化的分析决策,以机器自判、自断和自决提升智能运维水平,是包括金融业在内的每一个行业想实现的运维目标。
华为致力于打造面向自动驾驶的智能网络时代,通过“自动化驾驶”的技术解决复杂网络的运维,把人做的一些操作交给机器去做,减少人为操作的复杂性,降低失误,提升网络质量。
金融业有其鲜明的行业特点,减少业务中断时间,实现业务高可用是其运维的核心。华为企业服务从品质服务到卓悦服务,致力于打造智慧、可靠、安全的金融网络,提升运维效率和网络安全,实现业务“永不掉线”。