华为超融合数据中心网络0丢包以太网助力算力100%释放

  型)训练所要求的百亿亿次浮点计算要求完成一个AI模型(比如GPT3语言模,成一个集群协同才能完成需要众多计算服务器组。集群都存在性能天花板然而所有的AI训练。天花板时当到达,服务器节点即便再增加,性能再进一步提升也不能使集群的,能会下降甚至有可。部存在计算协同这是因为集群内,有丢包时当网络,而产生的时间等开销增大了因协同等待,持续下降使算力。验统计据实,引起算力损失50%0。1%的丢包会。此因,升算力要提,丢包的数据中心网络首先要构建一个0。

  。0解决方案基于独有iLossless智能无损算法华为超融合数据中心网络CloudFabric 3,来四十多年的丢包历史终结了以太网自诞生以,大规模的0丢包以太网以高吞吐、低时延、,算力的100%释放助力任意场景下多元。

  展战略框架 承诺到2040年实现净零排上一篇!NTT Ltd。制定可持续发放

  于以数据为中心的算力时代具有重大意义0丢包难题的突破和性能的持续演进对。算等客户的联合测试证明通过和金融、制造、超,在全闪存、分布式存储、HPC高性能计算、人工智能计算等场景华为超融合数据中心网络CloudFabric 3。0同时,的性能优势都具有极强。来未,智能无损技术研究华为将持续投入,损网络能力持续提升无,放算力充分释,智能化升级使能企业。

  仅代表作者本人观点【免责声明】本文,论坛无关与CTI。述、观点判断保持中立CTI论坛对文中陈,或完整性提供任何明示或暗示的保证不对所包含内容的准确性、可靠性。仅作参考请读者,担全部责任并请自行承。

  赖手工僵化配置传统流量调度依,络动态变化无法适应网。atic ECN)可精准预测网络拥塞状态华为智能无损核心技术ACC(Autom,的基础上接近100%吞吐实现在任意拥塞链路0丢包。机构Tolly表明通过第三方权威测试,闪存IOPS性能提升93%超融合数据中心网络可助力全。1年8月202,r Networks》(高性能数据中心网络中的ECN动态调优)入选全球网络通信顶级会议ACM SIGCOMM 2021智能无损技术论文《ACC! Automatic ECN Tuning for High-Speed Datacente,家的一致认可得到业界专,技术影响力具有世界级。

  心的算力时代的最大挑战“算力缺失是以数据为中,时处理和价值变现要实现数据的实,大的算力支撑就需要有强。龙表示”郑晓。经无处不在大数据已,能的药物研究、基于用户习惯的智能推荐广告等等元宇宙、基于大数据的病毒传播跟踪、基于人工智,强大的算力实现数据快速处理这些大数据的成功应用都需要。的规模正在呈指数级增长然而人工智能计算模型,如例,uring NLG已经实现支持5300亿参数业界最新发布的语言模型Megatron-T,模型还仅支持6100万参数而在2017年业界最复杂的,加了10000倍五年内计算压力增。提升算力如何高效,放算力的潜能100%释,先要解决的问题成为算力时代首。

  性能计算中在HPC高,作的步数*每步时延应用时延=计算操,延敏感型应用因此针对时,以有效降低整体应用时延减少计算操作的步数可。和拓扑感知(Topology-Aware Computing)实现网络和计算协同华为智能无损网算一体技术基于在网计算(In-network computing),算信息的汇聚和同步一方面网络参与计,息同步的次数减少计算信,务分布在同一个TOR下另一方面尽量确保计算任,信跳数减少通,低应用时延进一步降。reduce为例以MPI_all,据转发不参与计算过程相比传统网络仅做数,络可有效降低时延超融合数据中心网,效率27%提升计算。

  网架构最大仅支持65k节点数据中心传统三层CLOS组,据中心规模诉求不能满足大型数。拓扑组网架构和创新分布式自适应路由协议华为超融合数据中心网络基于新一代直连,络0丢包的诉求不仅满足算力网,节点大规模组网更支持270k,4倍于业界组网规模,级大型和超大型算力枢纽可助力构建E级和10E。

  年4月7日2022, AI网络世界大会上在MPLS SD &,席研究员郑晓龙发表“0丢包以太网华为加拿大研究所数据中心网络首,释放”的主题演讲助力算力100%,3。0解决方案是如何创新性解决数据中心网络丢包难题解读华为超融合数据中心网络CloudFabric ,大规模的0丢包以太网实现低时延、高吞吐、,放算力潜能100%释。

分享: