企业数智化转型的过程是数据价值释放的过程,数智世界加速而来,数据正在“觉醒”,成为越来越重要的新型生产要素,加速数据资产化。
“在AI的推动下,数据正在经历五大变化:从冷数据到温数据的价值激活,从成本中心到利润中心的变现加快,从向量到张量的检索精度提升,从10GB/s到100GB/s的读写吞吐率提升,从被动安全到主动安全的安全加固。”在华为中国合作伙伴大会2024上,华为数据存储产品线总裁周跃峰如是说。
迈向AI时代,数据的价值发生巨大变化,当数据变成重要的生产要素,这意味着对数据要素的价值释放提出更高目标。
AI时代,从冷数据到温数据的价值激活
在数字化时代,我们常听到一个词:数据驱动。数据驱动业务、数据驱动决策等背后所代表的是对数据的收集和分析、沉淀,但这时对数据利用的深度和广度并不足,也经常以冷、温、热来区别数据的可用度。但进入智能化时代,数据担当的角色发生了巨大改变。
正如周跃峰所说,当下企业有很多归档的冷数据,随着AI时代的到来,冷数据将不复存在,一定会变成温数据,甚至热数据,数据的含义从过去仅仅是信息的记录和保存,变成资产去进行大模型训练、挖掘知识、产生新的服务。
例如,当AI大模型作为新的先进手段应用于气象预报后,大量的历史数据需要参与AI模型的训练、调优,进而提高模型预测的准确率,在这个过程中,封存几十年的历史数据因此被激活、被唤醒。冷数据需要被随时调用,变成了温数据,AI促进“数据觉醒时代”的到来。
数据要素投入生产数尽其用,从成本到“变现”
伴随数智世界的到来,数据量快速增长。根据IDC报告显示,中国数据量规模将从2022年的23.88ZB增长至2027年的76.6ZB,年均增长速度CAGR达到26.3%,为全球第一,全球数据量规模预计增长一倍以上,到2027年将达到284.3ZB。
高速增长的数据量规模带来巨大的硬件和维护成本,在AI时代之前,很多企业并没有完全认识到数据的价值,或者说没有足够的技术来充分利用数据,因此,数据的价值常常无法得到最大化体现,数据具有较高的存储、计算和管理成本。
AI时代,从冷数据到温数据,当存在“角落”的冷数据创造产生新的价值,意味着其具备了“变现”能力,数据要素投入生产数尽其用,数据转化为可量化、可交易、可持续增值的资产,实现从成本中心到利润中心的变现加快。
例如,在医疗行业,通过分析患者的医疗记录和健康信息,医疗机构能够更精确地制定治疗方案,预测患者的治疗反应,提高诊疗质量和效率。并进而可以与保险行业结合,通过分析个体的医疗数据,保险公司可以更准确地评估客户的风险等级,从而合理定价保险产品,包括定制化保险产品等,加速数据“变现”。
从向量到张量数据,理解复杂世界
进入AI时代,数据处理的复杂度进一步提升,如何从海量的、多维度的数据中提取有价值信息,以适应各种各样的业务场景已经成为了至关重要的问题。
在传统的数据处理中,数据一般被认为是向量,向量是元素的一维列表,不适用于复杂的数据处理,以及容易造成信息丢失,并可能需要消耗大量的计算资源和时间。进入AI深度学习领域,张量可以看作是高维度的数据,它就像一个多维数据的数组。例如,一张彩色图片可以看作是一个三维张量,前两个维度表示图片的长和宽,第三个维度表示RGB的三个颜色通道和颜色强度。
从向量到张量的转变,使得AI大模型能够理解和表示更为复杂的模式和规律,从而在图片、声音、视频等复杂数据处理上有了更好的性能,检索精度提升,进而对于真实世界的复杂性有更深的理解。
从10GB/s到100GB/s的读写吞吐率提升
从数字化到智能化,带来的另一个显著变化是对处理处理性能上的要求提升,最直观的体现是数据存储读写吞吐率的提升。
大模型训练涉及到大量的数据读取和写入,数据的读写速度能够直接影响模型的训练速度和效率,所以需要数据存储设备具有足够的I/O性能。相比HDD,全闪存介质支持高IOPS、低时延,更适用于AI大模型训练阶段的随机读写场景。
存储内生安全,守护数据安全最后一道防线
此外,安全是伴随数智化、智能化发展的永恒话题。在全世界范围内,勒索攻击事件发生的频率越来越高,大中型企业深受其扰。
根据区块链数据分析机构Chainalysis公布的一组数据显示,2023年勒索软件攻击者从受害者处勒索的加密货币价值就超过10亿美元,创下历史新高。过去几年间,针对能源、金融、制造等行业的勒索攻击事件持续上演,日前勒索攻击团伙“国际猎手”针对日本豪雅株式会社攻击索要1000万美元赎金的事件又成为热点。网络勒索成为数字空间最大的威胁来源,针对此类攻击的安全防护成为企业关注的重点。
存储作为数据安全的最后一道防线,在勒索攻击防护上扮演着重要的角色,存储内生安全应当成为未来存储系统必须具备的基础能力。存储内生安全体系架构从存储设备安全、数据安全防护能力,结合安全管理流程,补齐网络安全能力,能够实现从被动安全到主动安全的安全加固,守护企业核心数据资产安全。
AI时代,数据觉醒,构筑“以存强算、以存强训、以存强安”的领先数据基础设施
AI促进“数据觉醒”,作为数据保存的保险箱和数据价值挖掘的发动机,面向未来的存储要如何适配变化,才能充分激活数据资产潜能?
首要地,数据存储技术一定是向着更高性能迈进,例如从以存算一体为代表的传统存储架构向存算分离的新型架构不断演进,实现资源池化和极致弹性,推动分布式数据库进核心生产系统;其次,在AI训练中存储不应该仅仅起到对训练数据的支撑作用,更重要的是在整个资源消耗巨大的训练系统中,让数据的可用性效率得到极大提升;再者,在存储侧多层联动勒索攻击防护,主动守护数据安全。
面向AI时代,华为通过OceanStor Dorado全闪存和CANTIAN引擎,推动分布式数据库向“存算分离+统一存储”的多主架构升级,实现以存强算;打造AI数据湖解决方案,实现AI训练数据全局可视、可管、可用,训练数据归集、预处理和训练效率倍增,以存强训;首创多层联动勒索攻击防护(MRP)技术,通过存网协同检测、协同响应和协同恢复三大核心能力,更好地应对数据被勒索的风险,实现以存强安。
总之,“数据觉醒”时代,AI加速数据资产化,数据引擎正在被注入巨大动能。在加速行业数智化转型的旅程中,助力行业企业打造领先的数据基础设施,以存强算,以存强训,以存强安,作为推动者,华为正以先进数据存力为AI激活数据资产潜能。