『云计算』

当深化上云遇到疑难杂症,云上综合治理如何破局?

“老想不出事但就是出事,越专注控制成本,最后发现感动了自己,却没有感动服务对象。”面对越来越复杂的云上治理难题,邹轶道出了自己的困惑和求索心路历程。

随着业务规模的快速增长和深入云化改造,系统的复杂度不断提升,涉及安全、故障、开发、成本等各种疑难杂症接踵而至,云上治理和运维的挑战逐渐显现出来。作为途游游戏运维安全总监,邹轶和许多正在经历深化上云的企业IT负责人一样,不断思考和寻找着新的云上综合治理解决之道。

当云业务高速发展遇到云上治理疑难杂症

来自Gartner的报告显示,2021年全球公有云市场规模达到3307亿美元,增速为32.5%。由此可见,云计算虽已历经十余年发展,但仍处于高歌猛进的发展阶段。

在此过程中,云计算应用已从互联网拓展至千行百业,特别对于众多生于云、长于云的企业而言,云上系统成为驱动业务发展的核心生产力。我们知道,越是深入进行数字化转型,运维以及进行IT治理越有必要。同样,企业上云、用云越深入,越是要考量云上系统的稳定运行,以高质量的云上治理管控云上系统风险,提升云上运维能力保障业务连续性,确保业务目标达成。

无疑,构建一套完善的面向云端应用的运维和治理体系成为众多企业面临的普遍课题。为了更好地解决云上综合治理疑难杂症,近日,华为云联创营-云上综合治理研讨班(北京站)正式开班,来自数十家知名企业技术负责人与华为云技术专家,围绕企业云上治理、SRE运营探索和华为云运维解决方案等进行了一次思维碰撞,共探云上综合治理之道。华为云北京总经理李亚为表示,在“一切皆服务”的战略下,华为云希望将积累的综合治理经验开放出来,更好地帮助企业用好云、管好云、提升云效能。

打造确定性运维,云上综合治理水平迈上新台阶

“原来云下的时候,我们更多关注底层的风火水电,现在云上则更多聚焦于应用,满足业务的快速迭代、开发,保障业务用好云。”“原来我管IDC资源,现在变成管云化的资源,以前IDC机房几十台、几百台服务器已经很多了,密码、账号也就几百个,云化之后虚拟机几千台、几万台,加上账号密码成千上万,对治理的要求更精细化。”“上云、用云的过程要考虑组织、流程的变革,例如上云是什么规则、资产怎么管理等,这对于互联网企业相对简单一点,但是对传统企业上云来说挑战很大,需要进行很多变革”……

在研讨班的互动讨论中,几十位企业技术负责人结合自身实际情况道出了云上治理面临的痛点、难点和方法探索。不难理解,在全面上云的背景下,各行业的正常运转高度依赖云上系统,但和传统IT治理不同,云端涉及的开发模式、系统架构、部署模式和基础设施大为改变,云原生技术、DevOps等重塑了治理模式,云上综合治理面临的是系统性改变。

在变化中如何保证云上与云下治理的价值目标不变,这带给了行业全新挑战,也涌现出了治理模式的新探索。例如,最新版本的ITIL 4将IT组织内的运维、研发、测试与IT组织外的业务、客户的进行协同整合,提供了一个数字服务的新管理模式;SRE(Site Reliability Engineer)强调研发和运维团队的组织级协作,用工程的方法解决运维治理难题;可观测性(observability)面向业务,强调将业务全过程透明化的理念,将监控指标、事件日志、链路追踪关联在一起,实现全景监控、智能运维和自修复能力等体系化的服务能力。

博采众长,结合自身实践,华为云在涉及云上综合治理的架构规划、IT治理、安全管理、业务高可用、容灾备份以及运维管理等领域,提供了一套完善的治理架构。尤其面对研讨班中企业技术负责人最为关心的云上运维难题,华为云分享了打造确定性运维的核心理念。

确定性运维意在通过高质量的产品开发,严谨的运维流程和制度降低故障的概率,并挑战零故障,同时也有技术手段对可能发生的故障,将间隔、影响范围及故障恢复时间做到可防、可控、可治,最终把云化带来的不确定性,通过运维变成确定性。

确定性运维符合“持续韧性”的价值主张,在此背后,华为云打造了确定性高可用架构、动态清零风控方法和低复杂度运维框架,并构建了一套质量管理机制、一套运维平台和一支庞大的SRE专家队伍,从而通过面向云服务全生命周期的质量看护,实现现网可预期的高可用质量结果。对于确定性运维的价值体现,华为云SRE运维使能中心专家举例道,面对故障处理挑战,华为云定义了P1、P2等不同故障级别的185个场景,对于不同的场景,管理者可以清晰地洞察相对应的能力,如几分钟故障发现、几分钟定界、几分钟恢复,这就是确定性运维的体现,针对这些已知的能力,企业还可以针对性进行能力设计和提升,从而提升更好的服务体验,助推云上综合治理水平迈上新台阶。

完善的云上治理体系,加速云上创新

当然,无论是多么好的理念,最终一定要落地在实践中才能发挥价值,背后也离不开工具、运作机制的支撑。

在云上运维,聚焦可观测性分析和自动化运维,华为云运维解决方案专家分享了华为云运维解决方案实践。首先,作为面向云上应用的立体化运维管理平台,全新的AOM2.0提供应用资源管理、可观测性分析和变更管理一站式运维平台,其中涵盖CMDB、应用洞察、统一监控大盘、变更管理4大能力,通过对各类资源可实现多维度实时监控、并利用应用与资源关联分析技术,实现问题快速诊断和修复;其次,华为云持续打造智能运维场景的AIOps平台,从异常检测、智能告警、智能故障定位、智能故障自愈等层面,将云上运维不断推向智能,减少运维人员重复性劳动,提升运维效率,保障云上应用持续稳定运行。

此外,容灾备份是保障业务连续性的关键抓手,是云上综合治理的重要组成部分。在研讨班上,华为公有云持续运营专家分享了华为消费者云双活部署实践,例如整体采用跨Region双活容灾云分布式数据库建设方案,单集群同城跨AZ部署,实现RPO=0、RTO<60s,AZ级故障数据不丢失。并且,源自华为消费者多云应用高可用的实践和方案,华为云还打造了多云高可用服务(Multi-cloud high Availability Service),提供从流量入口、数据到应用层的端到端的业务故障切换及容灾演练能力,保障故障场景下的业务快速恢复,提升业务连续性。

总之而言,为了助力企业用好云、管好云、提升云效能,华为云提供了一整套治理架构,解决综合治理的实操难题,包括在上云阶段帮助企业精细规划上云方案、用云阶段为企业应用提供持续和稳定性保障、运营阶段持续提升云效能构建长效运作机制。这些方案为包括途游游戏、顺丰科技、蜻蜓FM等不同企业在内的众多行业客户构建了云上综合治理能力,不断释放出云端价值。

如同与会嘉宾们在研讨班中的充分讨论,云上治理一直是一项复杂的综合性工程。秉承“智者·同行·创想”的理念,华为云联创营为行业客户、伙伴打造了一个技术交流的阵地,在思维碰撞中探索新思路,新的视野被打开,也就容易迸发出应对新挑战的新智慧、新举措。

在此次华为云联创营-云上综合治理研讨班(北京站)上,“北京京云先锋”发布,华为云北京总架构师刘静表示,京云先锋将打造成为北京区域内企业用户上云、用云的最佳分享交流平台,并向成员开放提供技术协助、新产品体验、联合运营等一系列福利。助推企业全面拥抱云,使能云上创新,华为云始终在路上。

奇安信代码安全实验室三人入选“MSRC 2022全球Top 100最具价值研究者”榜单

上一篇

首次上榜!奇安信Q-SASE入选2022年ICT报告代表供应商

下一篇

你也可能喜欢

热门标签

微信扫一扫

微信扫一扫