超级以太网联盟发布1.0规范 为 HPC和AI做好准备

2025年06月14日 14:50 次阅读 稿源:cnBeta.COM 条评论

2023年中,思科、Arista、HPE和英特尔等众多知名网络供应商联合成立了超级以太网联盟(UEC),旨在使以太网更好地满足人工智能和高性能计算(HPC)的需求。如今,近两年过去了,UEC 兑现了其最初的承诺,发布了首个UEC 1.0 规范

该规范详细介绍了以太网的增强功能,旨在提升高吞吐量网络部署中的低延迟传输。它包括现代远程直接内存访问 (RDMA) 方法、直接内存访问实现、传输协议和拥塞控制机制。

超级以太网联盟指导委员会主席J Metz向表示: “最初,那些寻求创建开放式以太网方法的公司主要关注 HPC,因为当时 HPC 是高性能网络的黄金标准。然而,在我们正式成立仅几个月后,ChatGPT 就改变了世界。”

梅茨指出,幸运的是,UEC 对此做好了准备,因为人工智能一直是计划的一部分。然而,这也让团队意识到,他们正在做的工作将有多么重要。

“高性能计算的吸引力有限;而人工智能则受到广泛关注,”他说道,“从我们开始研究到发表论文,这确实是最大的转变。”


1.0 规范的意义

规范的 1.0 版本通常表示组织和实施者能够依赖的稳定程度。

Metz 表示,从他的角度来看,1.0 不仅仅是一个标准文档的版本。他认为这是一个里程碑,因为许多公司和组织已经采用了全栈方法来同步网络和工作负载需求。 “以太网是一种出色的通用网络,其设计初衷是尽可能灵活地处理各种类型的工作负载,但人们一直认为它无法胜任最苛刻的工作负载,因为它的灵活性本身就不利于处理,事实上,正如我们在 UEC 中发现的那样,调整以太网以适应特定的工作负载需求非常困难。虽然困难,但并非不可能。”

调整以太网需要知道如何以及何时打破规则,尤其是在网络层。Metz 表示,UEC 通过开放标准解决了这一挑战。它通过跨层工作组的协调解决了层违规问题,并通过与生态系统行业合作伙伴(例如 SNIA、OCP、IEEE、DMTF、NVM Express)密切合作,解决了作为“全新”协议的问题。

“因此,这不仅仅是提出一个规范,而是开发一个长期框架,让最终用户相信部署 UEC 不是一次性的、孤立的行动计划,”梅茨说。

UEC 核心的拥塞控制 

UEC 1.0 规范的关键创新领域之一是网络拥塞控制的新机制,这对于 AI 工作负载至关重要。

Metz 解释说,UEC 的拥塞控制方法并不像传统方法那样依赖于无损网络。它还引入了一种新的操作模式,接收方能够限制发送方的传输,而不是被动地限制。

他说:“这对于人工智能工作负载至关重要,因为这些原语能够以更高的效率构建更大的网络。这是减少训练和推理时间的关键因素。”

以太网与 Infiniband:UEC 是功率提升吗?

在高性能计算 (HPC) 和人工智能 (AI) 领域,Infiniband 通常被认为优于以太网,因为它在这些工作负载下具有更优的性能。在很多方面,UEC 将在这两个竞争对手之间实现显著的公平竞争。

UEC 采用工作负载语义方法。“简而言之,这意味着我们承担工作负载并定义必要的网络特性,以便在无需更改应用程序本身的情况下调整数据包的传输,”他说。“识别语义需求之后,就会对数据包传输系统进行调整,进而产生拥塞需求、安全需求、传输顺序需求等。”

最重要的是,UEC 在网络中创建了一个环境,其中结构端点不仅仅是硬件绑定到 NIC 端口。相反,UEC 允许一项重要的新功能,可以充分利用网络中的所有路径。状态仅在事务存在时才保持,这降低了内存需求,并且不需要新的交换基础设施。

供应商拥抱UEC

在过去的两年中,随着网络供应商数量的增加,UEC 支持范围也不断扩大。

Arista Networks 是最初的支持者之一。在Arista Networks 首席开发官Hugh Holbrook看来,1.0 版本的关键交付成果是新传输协议的规范。他指出,该协议旨在满足面向未来的 AI 和 HPC 需求,包括低尾延迟、快速启动时间、现代拥塞控制和加密。

从产品角度来看,Arista 公司云和人工智能平台副总裁兼总经理Martin Hull向表示,其公司的产品组合已为 UEC 1.0 规范做好了准备。

Hull 表示:“Arista 将在我们的 Etherlink 产品组合中支持 UE 1.0 交换增强功能,最初从 7060X 和 7800R 开始。”

瞻博网络 (Juniper Networks) 也支持 UEC 工作。瞻博网络数据中心产品营销主管Amit Sanyal表示,瞻博网络对 UEC 1.0 规范在交换机级别实现数据包喷射并在 NIC 级别实现重新排序的功能感到特别兴奋。

Sanyal 表示:“这种方法采用开放的、基于标准的方法,显著提高了网络利用率,而这种功能迄今为止仅在专有和封闭的系统中可用。”

在部署方面,Sanyal 表示,Juniper 正在与 AMD 合作开发一种联合验证的设计,将 Juniper 的高性能交换机与支持 UEC 的 AMD Pollara NIC 结合在一起。

UEC 的下一步是什么 

据梅茨称,UEC 才刚刚起步。

Metz 表示,自 1.0 版主要工作启动以来,已有四个工作组成立,每个工作组都有各自的计划,旨在巩固和简化 UEC 的部署。这些工作组包括:存储、管理、合规性和性能。他指出,所有这些工作组都有正在开发的项目,旨在增强易用性、提升下一阶段的效率并简化配置。

UEC 还在编写培训材料,帮助网络管理员了解 UEC 技术和概念。该团队还与行业生态系统合作伙伴开展合作。

Metz 表示:“我们与 OCP、NVM Express、SNIA 等组织都有合作项目,而且还有更多项目正在推进中,涵盖从物理层到软件层的各个层面。我们无意满足所有人的需求,而是与业内专家合作,共同解决这些问题。”



PDF下载:https://www.txrjy.com/thread-1390631-1-1.html

对文章打分

超级以太网联盟发布1.0规范 为 HPC和AI做好准备

1 (50%)
已有 条意见

    最新资讯

    加载中...

    编辑精选

    加载中...

    热门评论

      Top 10

      招聘

      created by ceallan