“54天,419次意外故障,中断频次达平均每3小时1次”。关于LLaMA 3的一份官方论文报告披露了大模型训练面临的巨大挑战。
报告显示,78%的故障因硬件问题产生,其中,网络瓶颈又成为算力释放的关键挑战。大模型训练需依托大规模算力集群释放潜能,网络可靠性不足导致训练效率下降是行业面临的重要难题。同时,在大模型推理中,同一任务的网络通信时长普遍大于计算时长,造成近20%的算力浪费,大模型推理“算等网”亦成为一大业务挑战。
所以,面向AI时代的数据中心网络要解决的核心问题便是提升网络可靠性、降低数据传输时延,提升计算效率。此外,随着大模型的参数量越来越大,数据吞吐量攀升,这对网络容量带宽提出更高要求。
在此方面,华为星河AI数据中心网络方案为AI时代解题,基于AI-Powered的理念,打造高算效、高韧性的数据中心网络,为AI时代提供了一个强大的网络基础设施。

星河AI数据中心网络硬核破局:使能0算损,构建最佳网络底座
无论在大模型训练还是推理中,提升计算效率无疑意味着巨大的算力成本节约,也决定着模型迭代的速度。
在算力资源有限且成本高昂的背景下,作为数据中心三大基础之一的网络,需要思考的是如何把算力的潜能发挥到极致,而非成为制约算力释放的瓶颈。
破局网络吞吐、时延和可靠性挑战,华为升级星河AI数据中心网络方案构建AI时代高质量网络底座,首先便将网络性能提升至新的高度。
- 极限突破:星河AI网络的最强算力支撑组合
在提升算力效率方面,华为打造了业界最高密640400GE框式交换机,业界唯一支持GE到400GE灵活插卡盒式交换机,业界首款100T(128800GE)盒式以太交换机,业界首款51.2T液冷盒式交换机,以及全新400GE/800GE星联光模块等,组成华为星河AI数据中心网络的强大算力支撑组合。以华为CloudEngine XH9000全系列交换机举例,其采用先进的硬件结构设计,实现350ns超低转发时延,将AI训练效率提升20%。
总体来看,它们以最高密度800GE、超大组网突破AI集群规模上限,叠加ns级超低转发时延的最强组合,不再让网络成为大模型训推中的隐形算力吞噬者,从而构建了一个强大的网络基础设施底座。
- 算法革命:将网络损耗转化为算力增益的魔法
独家星智AI推理调度算法,减少推理流量的通信耗时,将任务中网络通信时长降低至计算时长的70%以下,实现AI推理性能提升10%;独家AI加速器NSLB算法,通过绘制全局的流量矩阵,计算出最佳的流量分布,自动进行导流,实现网络吞吐提升到95%,AI训练效率提升超10%; 独家iReliable三级(链路/设备/网络)极速切换能力,实现亚毫秒级快切,业务0中断;业界首个iLossless智能无损算法,实现存储IOPS提升93%;独家闪启技术,实现设备异常重启/升级AI训练不中断;光模块通道抗损与异常/脏污/松动检测,网络可靠性提升10+倍。
看得出,为实现数据中心网络的大带宽、高吞吐、高可靠、低时延,华为星河AI数据中心网络进行软硬一体多维创新,使能0算损业务永续,从而能够助推企业构建最佳算力底座。

AI重塑,为数据中心网络运维、变更提供确定性答案
与此同时,在AI深入千行万业的同时,AI服务需要全天候在线,从而呼唤Always-On的联接服务。这要求网络具备更高的可用性、更快的开通部署和变更效率,以及在面临故障时更高效地排障、恢复运行。
在此方面,华为用“网络智能体”、“网络数字地图”和“网安一体仿真方案”给出了数据中心网络在运维和网络变更过程中的确定性答案。
首先,华为星河AI网络智能体NetMaster集成了华为数据通信领域上千亿语料,以及1万多名网络专家的经验,具备强大的语义理解能力,是通信网络领域的重要突破。其支持运维数据问答、交互式业务分析与辅助决策,通过独家AI网络思维链,实现典型场景下80%无线故障自诊断、自动生成处置建议并自动执行,从而推动网络迈向智能化新时代。
举例来说,对话式智能问答就像提供了一个全天候在线的HCIE专家在身边,可助力运维人员从传统的人工查找菜单、查资料向智能对话式转变,大幅提升运维工作效率;网优智能体能够精准感知无线网络体验和健康度,在带宽、干扰、覆盖、负载等多个维度中推理给出最佳故障处置方案并自动执行,相比传统需要人工工勘测试、参数修改、反复验证的方式,星河AI网络智能体显著提升了无线故障的闭环效率。
其次,iMaster NCE网络数字地图以类似交通导航地图的方式,将网络空间和物理空间进行深度融合,基于数字孪生理念构建企业数字化智能大脑,实现云、网、端、应用及用户的统一智能管理。实现从网络到应用的全息可视,并提供了智能路径导航与智能优化等能力,显著提升网络运营效率。
再者,星河AI网络仿真方案通过网络变更前仿真建模,变更后自动校验,可实现单DC配置变更100%准确。据介绍,2023年某银行上线该功能后,所有变更实现事前100%仿真验证,2年多来4000+次网络变更0失误。进一步地,基于独家CMOS仿真算法,华为新推出的网安一体仿真方案,可以确保网络及安全配置100%准确,提升整体网安变更效率。
所以,AI使能的星河AI网络为数据中心网络的可用性、可靠性再增加一道保障,避免网络故障频发导致AI训推等业务中断,提升运维运营效率,推动网络迈向高阶自智。

重新定义AI算效,构筑智能时代的稳固网络基石
整体而言,华为基于AI-Powered理念打造面向AI时代的数据中心网络,一方面以Networks for AI,提供了最强算效方案,满足数据中心网络“0丢包、低时延、高吞吐”的建网诉求,释放AI时代极致算力;另一方面以AI for Networks,将AI技术深度融入网络运维与管理中,助推业务0中断、配置0差错、管理0担忧,构筑智能时代的稳固网络基石。
根据Gartner的预测报告,到2026年,超过80%的企业将采用生成式人工智能API或部署生成式人工智能的应用程序;到2028年,AI智能体将自动化至少15%的日常决策,提升企业生产力与运营效率。
无疑,AI能力正在从量变走向质变。在这场以智能化驱动的变革中,一张使能0算损业务永续的数据中心网络,为构建最佳算力底座、赋能千行万业跃升生产力,奠定了坚实基石。