筑牢数字经济运行基础能力，怎能少得了数据“基建”

细想一下，不久的将来，当我们享受畅快的自动驾驶、便捷的智慧医疗、超乎想象的AI服务时，背后是什么支撑了这一切的实现？毫无疑问，数据是一项关键要素。

智能时代，数据已成为生产资料让智能无所不及。所以，怎么挖掘数据潜能、释放数据价值变得格外重要。在正在进行的数字化浪潮中，虽然已经产生了巨量的数据，但却是处于粗放式利用的阶段。而下一阶段，是围绕数据进行智能化、精细化耕耘的阶段，它决定了是否能够发挥新生产力效用的关键。

两个月前，华为发布全面的计算战略，并打造“一云两翼双引擎”的产业布局。作为其中关键一翼，今天，华为宣布全面启动数据基础设施战略。

数据基础设施可以视为华为面向数字经济时代打造的“新基建”，就像石油的“采-运-炼-储-用”是工业经济的核心命脉一样，面向海量数据的“采-存-算-管-用”是支撑数字经济运行的基础能力。通过构建“融合、智能、开放”的数据基础设施，它将进一步激活数字化发展活力。

当然，华为将数据基础设施提升至战略级高度的原因还在于，同与其紧密相关的算力一样，数据基础设施也正迎来变革浪潮。

数据基础设施之变

数据基础设施变革可以总结为三个方面：存的问题、算的问题和用的问题。

首先以数据的“存”来说，根据预测，全球数据量将从2018年的33ZB快速增长到2025年的180ZB。但是，产生的数据中仅有不到2%被保存，而被保存的数据中仅有不到10%被应用。以深圳举例，城市中共有超过200万摄像头，每天将生产80PB数据，平均保存30天，未来显然关于存储的需求不仅于此。所以，让数据存得下是数据基础设施变革的第一个体现。

其次以数据的“算”来说，传统数据基础设施存在围墙，这包括算力墙、网络墙、介质墙等。以算力墙举例来说，由于各个存储系统的CPU能力，仅供本系统使用，无法将算力资源共享使用，形成各存储系统之间的“算力墙”。未来的数据基础设施要求是“以数据为中心”的计算，也就是说需摒弃数据的差异化，用一个数据湖，支持上层各种计算模式、计算工具，如spark、Hadoop、MongoDB、Tensorflow等，从而降低存储成本、提升数据计算效率。

第三以数据的“用”来说，随着业务类型日益增多，大量业务需要跨平台、跨数据源协同分析，这时找数难、取数难、用数难成为一个难题。例如，多业务分析需要多引擎协同，这将依赖多种数据访问技术，就需要开发人员掌握多种开发工具和语言，显然这对开发门槛和开发周期形成了挑战。

推倒墙，以融合、智能、开放构建新型数据基础设施

智能时代，到底该如何定义数据基础设施？

拥抱数据基础设施的变革浪潮，迎接数据黄金时代，华为给出的答案是：融合、智能、开放。

华为Cloud & AI产品与服务总裁侯金龙表示，“面向鲲鹏计算产业，华为全面启动数据基础设施战略，我们希望对数据的采、存、算、管、用实施端到端的整合和优化，让数据在全生命周期内好用，数据的每比特发挥价值最大，数据的每比特成本最优。”

华为数据基础设施包括数据存储、数据处理、数据管理系统、数据虚拟化引擎等，通过融入融合、智能与开放特性，数据基础设施的价值得以提升，具体来看：

融合：通过10余年技术积累和创新，华为在存储、数据库和大数据技术上实现了一系列突破。传统来说，数据基础设施存在4堵墙，这包括存储内部系统墙、数据库与存储链路墙、大数据与存储配置墙、数据库与大数据协同墙。现在，华为将这4堵墙打破，让数据融合更彻底。

通过打破存储内部系统墙，以一套架构实现生产、分析、备份、归档统一管理，一份数据在各个系统中平滑流动，减少拷贝，TCO降低30%以上。此外，通过采用存算协同、算子下推、融合分析等技术，实现了数据访问和处理性能提升2倍、数据0搬迁、分析效率提升100%。

智能：从原有依靠人来完成设备配合和运维，到融入智能基因，华为基于AI芯片、存储和华为云的三层架构，通过云上训练和云下推理，让系统越用越快、越用越省。

众所周知，华为打造了“昇腾”与“鲲鹏”双引擎，以此为依托，前者助推实现自动学习和识别IO流，提升Cache预取命中率，系统整体性能提升20%；后者可根据不同的数据类型，助力实时优化数据缩减算法，TCO降低25%。此外，华为云还进一步提升了数据基础设施的智能特性，例如提前14天预测硬盘故障、提前60天预测性能瓶颈、提前365提案预测容量不足，并让30%的故障可自我修复。

开放：像使用数据库一样使用大数据是每一个企业追求的目标，为此，华为重磅发布数据虚拟化引擎HetuEngine（河图），这是业内第一个商业性的数据虚拟化引擎。“大禹得河图后始见清明”，大禹通过河图掌握河流山川复杂的地形地貌，顺利完成治水大业。河图引擎，向上接入海量应用，向下接入海量数据，通过一个标准、统一的接口，降低了客户和合作伙伴接入数据基础设施的复杂度。