科技让美更简单,在美图,2.4亿月活跃用户一起变美。作为一家以“美”为内核、以人工智能为驱动的科技公司,美图打造的美图秀秀、美颜相机、Wink等移动互联网产品,深受广大用户的喜爱。
基于对影像科技的研发创新专注,美图持续领跑影像赛道,满足了用户在图片美化、拍照摄影、视频美化等影像美的需求,并产出着月均约60亿的照片和视频。在面向用户的前端,美图深入洞察前沿趋势,了解用户需求,不断探索更多“变美”的功能,迭代产品,致力于让用户“美”实时在线。不过面对用户遍及全球、产品线众多、服务发布频率高的现状,要做到业务稳如泰山并不容易,这有赖于一个稳固的大后方为业务运行提供保障。
2019年,美图全量业务搬上华为云,将业务底座升级为云原生基础设施,实现性能、弹性伸缩能力的极大提升,从而轻松应对超10亿用户量级的海量突发业务请求。美图高级技术总监王关胜指出,两年多以来,美图携手华为云联合共创积累了丰富的云上综合治理经验,并希望与行业展开技术交流,共同探索长效运维新思路。日前,华为云联创营•云上综合治理研讨班走进厦门,美图分享了云上综合治理实践,为行业企业用好云、管好云、提升云效能提供了有益借鉴。
稳定、效率、成本,做美图服务最稳的大后方
易变性、不确定性、复杂性、模糊性,“乌卡(VUCA)”一词描绘了当今世界的时代特征,亦体现在数字化转型的过程中。“我们所做的稳定性保障工作,就是在和VUCA做对抗,即在一个复杂的、不确定性的环境下,去追求确定性的结果。”美图高级运维经理石鹏道出了SRE的挑战和目标,并指出了美图SRE(Site Reliability Engineer,站点可用性工程师)的核心工作职责,在稳定性、效率和成本之间的“矛盾”中寻求平衡,从而做美图服务最稳的大后方。
很明显,保障线上服务的稳定性,建设工具/平台/基础设施提升效率,用技术手段控制、优化服务的运行成本,成为美图SRE开展工作的中心。
其中,“全生命周期覆盖”成为贯穿三大目标的一个关键词。在稳定性保障方面,从故障的预防到故障的发现、定位,再到故障的恢复与改进,SRE要做的事情就是要在建设/演练/OnCall,到应急响应,再到复盘/改进/OnCall的过程中不断迭代和优化;在效率提升方面,美图构建了Dev-X-Ops的工具体系,X意在覆盖了更长的应用生命周期的链条和场景,并打破轮子众多、工具间数据割裂、不成体系的瓶颈;在成本优化方面,从财务角度进行云服务的预算制定、成本核算、成本归集和成本优化变得越来越重要,只有完成成本管控的流程闭环,才能实现对云服务的精细化管理、客观评价和科学决策。
所以,美图的确定性运维体系构建出一个清晰的思路和路线,即从数据化到自动化、体系化,再到智能化的演变,美图SRE希望不断拓宽能力边界,进行运维生命周期的左移和上移,即更早介入保障、更关注上层业务,下层则交给华为云的一站式运维平台,实现多维度实时监控和问题的快速诊断与修复,从被动应对到主动出击,不仅用好云、管好云,更在提升云效能上做到更进一步。
3大方向、2个基础、1些探索,美图的云上综合治理实践
为此,美图围绕“3大方向、2个基础、1些探索”进行了一系列云上综合治理的实践。
首先,美图做的就是围绕稳定性、效率和成本3大核心方向梳理流程和体系、开发工具、搭建平台。在稳定性方面,美图面向用户端和服务端梳理出了全面的质量监控体系,建设了监控大盘,从而拥有一个全局视角来查看整个业务各个链路环节的状态;并附以图文告警快速感知服务整体状态、缩短故障定位时间;当然,监的目的是为了更好地控,进一步地,美图搭建了应急响应平台,把对服务的干预手段抽象为原子性的动作,并对这些动作进行编排,形成应对不同场景的保障预案。在效率提升上,得益于华为云提供的OpenAPI与一键WarRoom机制等,从而实现运维效率工具的自动化覆盖和敏捷响应,命令行&移动端工具的建设大幅降低了使用门槛,并实现随时随地处理运维信息。在成本优化方面,FinOps的探索让成本管控贯穿在服务的整个周期中,为此,美图建设了MTCC平台,并与OKR挂钩,从目标、人员、流程和工具多方面入手来进行成本的可视化、分析和优化。
其次,围绕运维元数据和团队建设,美图深化了2个基础建设。CMDB+Service Directory的构建,用统一的运维元数据串联工具系统、打破数据壁垒,从而形成统筹的能力;打造学习型组织,开展SRE-Pharos项目,推进AB岗覆盖,不断强化团队健壮性。
再者,在云上综合治理方面,美图亦进行了一些有意思的探索。例如利用机器人来自动化发布监控告警和服务巡检报告;建立SRE权威消息发布通道来树立和强化团队品牌;创建SRE官方群组来收敛固定运维支撑的渠道;构建稳定性运营平台来挖掘、分析稳定性数据,解读隐藏在数据背后的含义。
总之而言,面对人手不足的问题,在华为云的助力下通过效率工具的开发和流程梳理,美图大幅提升了治理效率;面对稳定性压力大的挑战,监控大盘、应急响应平台的建设和监控告警治理等,让美图云上综合治理的自动化水平显著提高;面对工具不称手的问题,通过建设运维元数据、借助华为云能力,提供了更易用和高效的工具;面对成本管控压力大的挑战,FinOps体系推进、借助OKR共同推进目标,构建了相对完善的成本管控系统。
数据库运维和治理,为云端确定性加码
作为存放数据的“仓库”,数据库的稳定是保障系统稳定运行的重中之重。在数据库稳定性治理方面,美图亦进行了大量探索与实践。
在研讨班上,美图DBA负责人肖维分享了美图云上数据库运维和治理实践。美图通过平台层DBA小秘书、操作平台MTDAS、云管平台实现对后端资源全生命周期的管控。同时深入建设数据库容灾系统,并且已经介入到SRE的编排系统,针对不同场景,只需要输入相关参数,系统就会自行处理工单系统,依据故障诊断系统和日志系统,并做出相应预案。
此外,面对数据的持续扩张带来的容量管理难题,美图DBA建立了智能压测系统,更准确的做好云上的容量管理。 在大规模数据库集群,美图DBA搭建异常检测、异常分析和异常处理体系,为快速定位问题、解决故障、恢复业务提供基础能力。这其中,异常检测,实现对监控指标的数据变化进行快速识别;异常分析,则针对异常业务变化进行量化分析;异常处理,是通过自动扩容、SQL限流、相关预案处理等操作实现。系统之间严密的配合,保证了美图云上服务的持续稳定运行。
从组织、流程到工具,看得出,美图的云上综合治理进行了诸多前瞻性的实践,在DBA的治理中同样得到体现。从上云以来,美图尤为重视数据库稳定性治理,并设立了DBRE(数据库可靠性工程师),组成SRE团队的重要成员,并与产品一起开发解决方案,在华为云的助力下致力于相关数据库指标的可观察性。
从IT治理到云上综合治理,虽然IT的架构进行了改变,但治理的体系一脉相承,目标一致,并同样具备较高的复杂性。好在华为云提供了全流程专业服务,并有一套完善的云上治理架构支撑,这为美图不断夯实云端系统稳定性提供了保障。
虽非生于云,但长在云上的未来美图,携手华为云不断创新与能力升级,在用好云、管好云、提升云效能的基础上,精准洞察年轻用户需求,并深入探索更多“变美”功能与创新,聚焦产品、聚焦用户、聚焦服务,与华为云一起用云上综合治理的确定性让用户一直“美”下去。
当然,随着业务发展,云上综合治理没有终点,是一项复杂的工程。秉承“智者·同行·创想”的理念,华为云联创营为行业客户、伙伴打造了一个技术交流的阵地,共探云上综合治理新思路、新路径,让企业云上创新不止步。