『大数据』

筑牢数字经济运行基础能力,怎能少得了数据“基建”

细想一下,不久的将来,当我们享受畅快的自动驾驶、便捷的智慧医疗、超乎想象的AI服务时,背后是什么支撑了这一切的实现?毫无疑问,数据是一项关键要素。

智能时代,数据已成为生产资料让智能无所不及。所以,怎么挖掘数据潜能、释放数据价值变得格外重要。在正在进行的数字化浪潮中,虽然已经产生了巨量的数据,但却是处于粗放式利用的阶段。而下一阶段,是围绕数据进行智能化、精细化耕耘的阶段,它决定了是否能够发挥新生产力效用的关键。

两个月前,华为发布全面的计算战略,并打造“一云两翼双引擎”的产业布局。作为其中关键一翼,今天,华为宣布全面启动数据基础设施战略

华为Cloud & AI产品与服务总裁侯金龙宣布启动数据基础设施战略

数据基础设施可以视为华为面向数字经济时代打造的“新基建”,就像石油的“采-运-炼-储-用”是工业经济的核心命脉一样,面向海量数据的“采-存-算-管-用”是支撑数字经济运行的基础能力。通过构建“融合、智能、开放”的数据基础设施,它将进一步激活数字化发展活力。

当然,华为将数据基础设施提升至战略级高度的原因还在于,同与其紧密相关的算力一样,数据基础设施也正迎来变革浪潮。

数据基础设施之变

数据基础设施变革可以总结为三个方面:存的问题、算的问题和用的问题。

首先以数据的“存”来说,根据预测,全球数据量将从2018年的33ZB快速增长到2025年的180ZB。但是,产生的数据中仅有不到2%被保存,而被保存的数据中仅有不到10%被应用。以深圳举例,城市中共有超过200万摄像头,每天将生产80PB数据,平均保存30天,未来显然关于存储的需求不仅于此。所以,让数据存得下是数据基础设施变革的第一个体现。

其次以数据的“算”来说,传统数据基础设施存在围墙,这包括算力墙、网络墙、介质墙等。以算力墙举例来说,由于各个存储系统的CPU能力,仅供本系统使用,无法将算力资源共享使用,形成各存储系统之间的“算力墙”。未来的数据基础设施要求是“以数据为中心”的计算,也就是说需摒弃数据的差异化,用一个数据湖,支持上层各种计算模式、计算工具,如spark、Hadoop、MongoDB、Tensorflow等,从而降低存储成本、提升数据计算效率。

第三以数据的“用”来说,随着业务类型日益增多,大量业务需要跨平台、跨数据源协同分析,这时找数难、取数难、用数难成为一个难题。例如,多业务分析需要多引擎协同,这将依赖多种数据访问技术,就需要开发人员掌握多种开发工具和语言,显然这对开发门槛和开发周期形成了挑战。

推倒墙,以融合、智能、开放构建新型数据基础设施

智能时代,到底该如何定义数据基础设施?

拥抱数据基础设施的变革浪潮,迎接数据黄金时代,华为给出的答案是:融合、智能、开放

华为Cloud & AI产品与服务总裁侯金龙表示,“面向鲲鹏计算产业,华为全面启动数据基础设施战略,我们希望对数据的采、存、算、管、用实施端到端的整合和优化,让数据在全生命周期内好用,数据的每比特发挥价值最大,数据的每比特成本最优。”

华为数据基础设施包括数据存储、数据处理、数据管理系统、数据虚拟化引擎等,通过融入融合、智能与开放特性,数据基础设施的价值得以提升,具体来看:

融合:通过10余年技术积累和创新,华为在存储、数据库和大数据技术上实现了一系列突破。传统来说,数据基础设施存在4堵墙,这包括存储内部系统墙、数据库与存储链路墙、大数据与存储配置墙、数据库与大数据协同墙。现在,华为将这4堵墙打破,让数据融合更彻底。

通过打破存储内部系统墙,以一套架构实现生产、分析、备份、归档统一管理,一份数据在各个系统中平滑流动,减少拷贝,TCO降低30%以上。此外,通过采用存算协同、算子下推、融合分析等技术,实现了数据访问和处理性能提升2倍、数据0搬迁、分析效率提升100%。

智能:从原有依靠人来完成设备配合和运维,到融入智能基因,华为基于AI芯片、存储和华为云的三层架构,通过云上训练和云下推理,让系统越用越快、越用越省。

众所周知,华为打造了“昇腾”与“鲲鹏”双引擎,以此为依托,前者助推实现自动学习和识别IO流,提升Cache预取命中率,系统整体性能提升20%;后者可根据不同的数据类型,助力实时优化数据缩减算法,TCO降低25%。此外,华为云还进一步提升了数据基础设施的智能特性,例如提前14天预测硬盘故障、提前60天预测性能瓶颈、提前365提案预测容量不足,并让30%的故障可自我修复。

开放:像使用数据库一样使用大数据是每一个企业追求的目标,为此,华为重磅发布数据虚拟化引擎HetuEngine(河图),这是业内第一个商业性的数据虚拟化引擎。“大禹得河图后始见清明”,大禹通过河图掌握河流山川复杂的地形地貌,顺利完成治水大业。河图引擎,向上接入海量应用,向下接入海量数据,通过一个标准、统一的接口,降低了客户和合作伙伴接入数据基础设施的复杂度。

侯金龙指出,河图引擎具备四大核心能力:“一个目录”构建1000+异地异构数据源全局虚拟数据视图;“一个入口”实现30种异构数据源统一SQL访问;“一份数据”实现多场景分析,多应用共享,数据0搬迁;“统一安全”实现异地异构数据源集中式安全配置与管控。

拥抱数据基础设施变革,华为对于开放的决心并没有止步于此。为了更好地发展数据产业,华为还宣布开源河图引擎,称为openHetu,并将于2020年6月上线。华为将开源内核,开发者可以基于开源代码进行定制,包括数据源扩展、SQL执行策略等,实现应用快速对接,提升开发效率。

可以说,openHetu让生态体系中的利益主体通过建立产业链间高效的协同机制,形成良性互动的有机合作关系,将推动产业的持续扩大。

三大数据应用场景重新定义

进一步来说,如果融合、智能、开放是华为重构数据基础设施的核心理念,那么在产品方案层面如何去承接这一理念。

华为智能数据与存储领域总裁周跃峰

在华为智能数据与存储领域总裁周跃峰看来,当下数据基础设施主要包括三大场景,生产交易场景、智能数据湖场景和边缘场景,针对这三大场景,华为分别推出了不同的解决方案,这包括OceanData、FusionData和FusionCube 2.0。

OceanData的目标是重定义生产交易基础设施,其采用一套架构同时解决了极致可靠和极致扩展,通过打破数据库与存储壁垒,大幅提升效率。同时,华为把GaussDB和OceanData深度融合起来,采取存算分离、算子下推、100GE RoCE等技术,让业务查询效率提升10倍。

FusionData重定义数据湖基础设施,通过融入鲲鹏、昇腾等多样性的计算到存储和数据库中,华为将数据库和大数据融合起来,并以融合分析和算子下推技术,打破数据孤岛,使分析效率提升100%,TCO节省20%。

在整个重定义数据湖基础设施的过程中,河图引擎发挥着关键作用,“不同于数据中台理念,华为希望真正打造一个数据平台,践行’平台+生态‘战略,让伙伴能够像使用数据库一样方便地使用大数据,这将有利于创造共赢的生态环境。”周跃峰强调说。

FusionCube 2.0重定义边缘基础设施,一台设备集成计算、存储、网络、安全、人工智能,全栈集成,即插即用。并且具备极简、智能运维等特性,通过实现云边协同,云上利用大数据特征进行算法训练,算法模型在边上推理和执行,以此实现AI算法永新,进而让边缘充满智慧。

总之来说,无论是打造打造融合、智能、开放的数据基础设施,还是重新定义数据应用场景,华为让数据使用更简单。通过破解传统上数据存不下、流不动、用不好的难题,华为让数据价值得以更低成本、更高效率的展现。

更重要的是,华为以打造开放产业生态的视角投入计算和数据基建,这将催生中国自己的IT产业生态,让中国IT产业迸发新的活力

华为:让数据“飞”起来,跨越中台通向“数据之美”

上一篇

一手好牌

下一篇

你也可能喜欢

热门标签

微信扫一扫

微信扫一扫