“蓝色的部分,我去年没敢多说。”博睿数据COO吴静涛指着“数据链DNA+”的框架图。框架图的底层是数据链DNA,去年没敢多说的蓝色部分位于上层,它是博睿数据的“ONE平台”,两者共同构成了“数据链DNA+”。
博睿数据留下的“扣子”
2021年的博睿数据,全路径地打通了从代码到用户的企业数据链,并最终实现以用户为中心的“服务可达”。这就是数据链DNA,即外事不决问DEM(用户数字化体验管理),内事不决问APM(应用性能管理),网事不明问NPMD(网络性能管理),三者紧密衔接,共同构成一体化“应用监控运维平台”。
这是一次巨大的突破,数据链DNA让运维服务走出了数据中心,实现了“业务洞察、数字化体验管理、VIP用户追踪、AIOps自动化”四大价值,但博睿数据当时也留下一个悬念“扣子”,全路径数据打通的前提是,从代码到用户的全路径数据分类、数据采集、数据关联,这又究竟体现出哪些价值?
解释此问题,可先看IT架构和运维体系面临的挑战。以金融行业为例,To C为主的互联网金融正在转向To B和To VIP,以支持三农、支持“双碳”的发展。但此前瑕不掩瑜的小错误也不再被容忍,银行由此面临实时数据关联、实时数据缝合的挑战。这也是运维服务面临的第一个挑战。
IT架构此时也在改变,而且改变的速度相当之快。网银的渗透率从1%增长到80%,用了整整10年,但手机银行只用了3年,就取代了传统互联网银行。这背后是从传统数据中心到私有云、从公有云到混合云,从云原生到API的一系列IT架构变化。而且当庞大的数据中心,转向微服务架构时,此前所有的运维经验都将不再好使。这也是运维服务面临的第二个挑战。
第三个挑战来自于当前的疫情。此前数据中心里的工程师,还可以两班倒、三班倒,现在基本没这种待遇。此前如遇重大项目上线,百余位“外脑”专家,还可以帮一把,现在也没有任何一家企业敢让外部专家进现场。所有的工作都要自己扛,所有的责任都要自己背,这样的挑战真是大到没边。
博睿数据的No.1工程
“一体化智能可观测平台ONE是业界第一个,将所有运维监控需求‘All in ONE’的统一平台。”吴静涛给出了解决方案。“为此,博睿数据投入了70%的研发资源,这也标志着公司整体战略正式进入数据链DNA+时代。”
其实,相比博睿数据研发深度,70%的资源投入并不夸张,这也不愧是博睿数据上市之后的No.1工程。博睿数据联合艾瑞咨询发布的《2022企业应用运维管理指标体系白皮书》,就解读了其中的难度。《白皮书》梳理出的企业应用运维管理指标体系就达2000多项,涉及业务端、用户端应用端、网络监控等7个方面。
针对上述指标体系,逐一完成数据分类、数据采集、数据缝合,难度可想而知,但这又是ONE平台必须完成的工作。对此,博睿数据CTO孟曦东解释了原因:“企业对于可观测的视野不再局限于应用程序,而是需要从全局的角度洞察混合IT基础设施、数据源、网络、云和边缘端的应用状况,更加主动化、自动化和智能化地提升企业运维的效率。”
“ONE平台”的三大升级
但这也是知易行难。
目前,监控平台存在五方面挑战:
- 其一,监控平台不统一,技术债与重复建设导致了孤岛式的监控体验;
- 其二、云计算、容器、微服务、物联网等新技术带来了对监控的挑战,监控的可见性不足;
- 其三、监控系统的建设与业务目标脱节;
- 其四、智能运维尚不成熟;
- 其五、有限的自动化与DevOps的敏捷开发理念产生冲突。
不难看出,未来的监控要具备的能力是统一、系统、智能、敏捷、面向业务,而这也正是博睿数据建设一体化智能可观测平台ONE的初衷。即实现从孤立的工具到统一的能力平台;从监控到可观测;从人工分析到智能见解的全新升级。
具体而言。
ONE平台从“ITOM统一监控、AIOps智能运维、BizOps业务运营、DevOps效能提升”四个应用场景出发,帮助客户走出数据中心,打通云管边端,通过代码到客户的全数据链DNA采集能力,结合ONE平台的大数据及AI能力,实现传统的产品工具到平台+架构的转型,构建以用户为中心的新运维体系。
其中,All in ONE的“ONE平台”,实际包括两个统一,即统一运维监控技术栈和统一运维数据治理体系,这几乎满足了所有监控需求。同时,面向业务与用户体验运维,也囊括了系统的所有观测数据,进行统一管理,并提供丰富的集成扩展,解决因竖井式的监控带来的数据割裂、重复建设、可观测性差的问题。
而“两个统一”的目的是数据关联。“ONE平台”能完整复刻出数字化系统的数字孪生,内置CMDB引擎在保证全面可观测的同时也能掌握监控实体间的关系及其属性信息,实现关联追踪,解决排障难,检索追查难,现场还原不全面的问题。大大提升了排障效率,实现了系统之间的真正融合。
正是基于“两个统一”和“数据关联”,ONE平台还已实现智能见解。其具备信息、经验、智能决策融合的智能见解能力,能够基于AI和规则自动发现问题,实现根因分析-智能见解-故障预测-故障修复等一系列智能分析过程,预置经验规则和AI共同提出见解,发现问题并给出根因,解决虚假问题扰乱运维、告警风暴、根因定位效率低的问题,助力运维人员快速排障,提出解决办法,进而提高运维效率。
当然,一切技术创新都将落地于业务实践。“ONE平台将打通业务和运维,明确业务指标、转化率、客户留存率、客户流失率等,高效可视化故障域,降低业务客户流失率。”博睿数据资深售前总监常旭最后说。