一方面,5G的背景下,数据产生的场景将横跨从数据中心到边缘,巨量的数据将会带来新的对于数据运算、传输、存储、分析、挖掘等一系列的新需求。另一方面,由大数据、算力和算法叠加后产生的智能化的能力差异,形成了数字原生企业和非数字原生企业间不可逆且不可逾越的鸿沟。
在笔者看来,数据的在不断变“大” 的同时,对企业的考验还有如何让数据变“快”。数字化时代的商机稍纵即逝,如果不能更快速、更灵活的分析数据,挖掘数据,就很难实现真正意义上的“数据之美”。
11月19日,华为在深圳举办2019全球数据基础设施论坛,宣布全面启动数据基础设施战略,并开源数据虚拟化引擎HetuEngine(河图引擎)。这对企业更快,更容易的掌握数据的力量,带来了哪些启示?
很多企业为了让大数据变快,都将目光投向了一个最热门的概念“中台”。
我们知道, “中台”的本质还是平台,它是平台的平台。但这个平台并不是用来提供服务,而是沟通前台的业务部门和后台的支持部门的桥梁,所以被称为“中台”。
马歇尔·埃尔斯泰恩在《平台革命》中,将平台企业内部的这种平台化结构称为“嵌套平台”。当一个企业平台成为了“嵌套平台”,那么新业务和新服务的上线,就无需推倒重来,而是变成了简单的加减法,这也是中台的魅力所在。
简单的理解,企业可以通过数据中台,从后台将数据流入,完成海量数据的存储、计算、产品化包装过程,能够让数据更加“懂业务”,并以此来构成企业的核心数据能力。
实际上,数据中台的逻辑本质上,是要缩短前台业务调用数据的时间,加快数据的利用效率,并由此推动业务的效率和灵活性。
试想一下,如果能够在底层就可以打破,数据与数据之间的壁垒,让数据的存、取、用可以智能化的联接,这是否就可以做到跨越中台,直接让数据推动业务的发展呢?
答案是肯定的,但数据的底层涉及到数据“采-存-算-管-用”的全生命周期,跨越了计算,存储,数据库,管理软件等多个范畴,要打通所有的数据链条,复杂性和难度之大可想而知。
所谓知易行难,其实这就是华为启动数据基础设施战略的初衷,直接从底层让数据“飞”起来。
根据预测,全球数据量将从2018年的33ZB快速增长到2025年的180ZB。但是,产生的数据中仅有不到2%被保存,而被保存的数据中仅有不到10%被应用。这些海量数据的增长背后是需要海量存储和计算的资源,数据增长是无限的,而存储资源却是有限的。
如何利用有限的存储资源,让无限增长的数据飞起来呢?
对此,华为Cloud & AI产品与服务总裁侯金龙说:“正是为了让数据的采、存、算、管、用实施端到端的整合和优化,让数据在全生命周期内好用,数据的每比特发挥价值最大,数据的每比特成本最优。华为打造融合、智能、开放的数据基础设施,让数据系统从孤立走向融合,从复杂走向智能,从封闭走向开。”
首先,数据应用的核心存储和分析过程中,存在4堵看不见的墙。分别是存储内部系统墙,数据库与存储链路墙,大数据与存储配置墙,以及数据库与大数据协同墙。
而华为通过10余年技术积累和创新,在存储、数据库和大数据技术上实现了一系列突破,打破了这4堵墙,让数据融合更彻底,让每比特价值最大化。进而让TCO降低30%以上,数据访问和处理性能提升2倍,分析效率提升100%。
其次,过去的存储系统主要依靠人来完成设备配置和运维,运维人员经验和能力的高低决定了管理效率的优劣。那么,华为基于AI芯片、存储和华为云的三层架构,通过云上训练和云下推理,让系统越用越快、越用越省。
例如,依托昇腾处理器的AI能力,自动学习和识别IO流,提升Cache预取命中率,让系统整体性能提升20%。同时,依托鲲鹏处理器的多核算力,根据不同的数据类型,实时优化数据缩减算法,TCO降低25%。再结合华为云自身大规模运维运营经验,当前可以实现提前14天预测硬盘故障,提前60天预测性能瓶颈,提前365天预测容量不足,其中30%的故障可以自我修复。
第三,随着业务类型日益增多,大量业务需要跨平台、跨数据源协同分析。这种场景下,最突出的3个问题是:找数难、取数难、用数难。
为了解决这个具体问题,华为推出了HetuEngine“河图引擎”。侯金龙表示,我们将数据虚拟化引擎命名为河图,就是为了屏蔽数据基础设施的复杂度,让开发者像使用“数据库”一样使用“大数据”,复用现有的生态、工具和技能,提升开发效率2到10倍。
候金龙表示,“大禹得河图后始见清明”,大禹通过河图掌握河流山川复杂的地形地貌,顺利完成治水大业。河图引擎,就是要让数据治理简单,使用简单,让更多的伙伴和我们共同挖掘数据价值。
这是华为以“河图”命名HetuEngine主要逻辑,而在我看来,河图的意义还不止于此。
河图的另一个含义,是中国古代流传下来的神秘图案,这个神秘图案源于天上星宿,蕴含了深奥的宇宙星象密码,被誉为"宇宙魔方"。“河图”的这个“河”,指的是“星河”,河图本是星图。
从企业底层ICT基础设施的角度看,经历了信息化时代、互联网化时代和数字化时代的历程当中,其实构建了大量的软硬件基础设施,这些基础设施都产生或处理着无数的数据,这些数据就像是一个又一个的“星星”,它们之间缺乏有机的联系。而“星图”,就是将这些星点,汇成星河,并通过一个“河图”,产生完整的数据价值。
-
一个目录:通过元数据在线感知,构建1000+异地异构数据源全局虚拟数据视图,打破数据孤岛,数据全局可视,解决企业找数难问题
-
一个入口:通过开放的连接框架、5000节点SQL引擎,实现30种异地异构数据源统一SQL访问,秒级获取,数据全局可得,解决企业取数难问题。
-
一份数据:通过CarbonData技术,实现一份数据多场景分析,多应用共享,数据0搬迁,数据全局可用,解决企业用数难问题。
-
统一安全:通过细粒度动态授权、敏感数据自动感知技术,实现异地异构数据源集中式安全配置与管控,数据全局可控,数据授权时间从天到秒,解决企业数据安全与合规问题。
其一,河图引擎提供的业务逻辑是,企业可以通过河图引擎,并结合华为全面的数据基础设施,跨越中台,直接走向数据驱动的业务发展。
其二,河图引擎面向开发者,这是一个完整的基于数据价值挖掘的开发者工具。华为还宣布对河图引擎进行开源,开发者可以基于开源代码进行定制、优化,实现更快、更好的业务系统对接。
短短两个月的时间,华为从HC上公布的计算战略之后,又发布了数据基础设施战略。这其中有什么深意?候金龙告诉我,“实际上数据基础设施战略还是计算战略的延伸,在华为发布的‘一云两翼双引擎’的整体布局当中,数据也是非常重要的一部分,而面向数据的战略更能解决用户数字化进程中的实际问题。”
的确,华为公司的愿景是“构建万物互联的智能世界”,而让智能世界最底层的数据“飞”起来,发掘“数据之美”,做到无需建设数据中台,就可以做到让业务的价值飞起来。