AI 时代互连技术战争,Slingshot 与 InfiniBand 在超大资料中心的比较

在高效能运算(HPC)与人工智慧(AI)的巅峰对决中,人们的目光往往聚焦于强大的 GPU 算力数据。然而,一场更为关键、长达二十年的基础设施战争正在伺服器机柜背后悄然发生转折。根据最新的数据与产业分析,曾经被视为通用标準的乙太网路(Ethernet),正透过 Hewlett Packard Enterprise 的 Slingshot 技术,成功逆袭并击败了长期由 Nvidia InfiniBand 主导的专有互连市场,成为 AI 超级运算的新霸主。

AI 时代互连技术是关键角色

每年两次发布的 Top500 排行榜,是全球最强大超级电脑的竞技场。这些名单展示了人类工程学的极限,但外界往往只关注处理器与 GPU 的型号。然而,真正的效能推手是经常被忽视的组件-互连技术(Interconnectivity)。

互连技术是将分散的 GPU 整合为一个超级大脑的神经网路。它负责以惊人的速度将工作负载从一个晶片转移到另一个晶片,同时确保数据在传输过程中保持完整无损。若没有强大的互连技术,再多的 GPU 也只是一堆孤立的硬体。在这个领域,两大阵营的对抗已经持续了超过二十年。一方是通用的乙太网路(Ethernet),另一方则是专有的 InfiniBand。这场争夺战如同 F1 赛车手争夺颁奖台席位一般激烈,双方在不同时期都曾佔据主导地位。

乙太网路 vs. InfiniBand:开放与专有的对决

乙太网路是现代网际网路协议(IP)的基石,是业界最熟悉、定义最明确的标準。从区域网路(LAN)到广域网路(WAN),乙太网路无处不在。在超级运算中,它同样负责让丛集内(Scale-up)或丛集间(Scale-out)的 GPU 进行数据传输。其最大的优势在于开放性。乙太网路允许工程师轻鬆连接来自 AMD、Intel 甚至 Nvidia 等不同供应商的数百个 GPU 和硬体。由于其广泛的可用性,绝大多数工程师都对其操作了若指掌。

相对地,InfiniBand 虽然技术上是开放标準,但在实务上已成为高度专有的产品,其生态系统几乎完全由辉达 控制。Nvidia 在 2020 年收购了 InfiniBand 的领导者 Mellanox,进一步巩固了其统治地位。InfiniBand 的优势在于其与 Nvidia CUDA 软体堆叠的深度整合,以及历史上在超低延迟场景中的卓越表现。

这主要归功于其原生支援远端直接记忆体存取(RDMA)技术,该技术允许网路适配器直接在不同系统的记忆体之间传输数据,绕过 CPU,从而消除了处理开销并降低延迟。凭藉这些优势以及业界对 Nvidia 硬体的渴求,InfiniBand 直到 2023 年底仍佔据约 80% 的 AI 网路市场占比。

然而,当前局势已经悄然改变。HPE 旗下的 Slingshot 互连技术,证明了乙太网路不仅能生存,更能称王。根据 2025 年 6 月发布的最新 Top500 榜单,全球前 10 大最强大的超级电脑中,有 6 台使用了 HPE 的 Slingshot 技术。这份名单包括了佔据前三名的顶级系统,包括El Capitan、Frontier 和 Aurora。而且,这种统治力延伸至前 30 名,共有 12 个系统採用 Slingshot。

虽然从数量上看,InfiniBand NDR200 仍以 189 台系统佔据榜单最大占比,但在效能占比(Performance Share)这一关键指标上,HPE 最新的 Slingshot 11 已佔据 48.1% 的绝对优势。相较之下,InfiniBand NDR200 仅佔 28.8%,其中包括英国最新的超级电脑 Isambard-AI ,也成为这一趋势的见证者。该系统于 2025 年夏季启用,随即在 Top500 中空降第 11 名。它採用的正是 Slingshot 技术,透过 64 个端口提供高达 25.6 Tbps 的双向频宽。

乙太网路 Plus成为成功秘诀

HPE 高效能网路副总裁兼总经理 Mike Vildibill 曾公开揭示了 Slingshot 成功的关键策略,那就是在内部像专有互连一样运作,在边缘则像乙太网路。而回顾这项技术的基因,就是源自于 HPE 于 2019 年收购的超级运算先驱 Cray Research。

Vildibill 解释道,当时Cray 的工程师们当年设想了一种大胆的架构,就是在网路边缘保持与乙太网路的相容性与合规性,但在织物网路(Fabric)内部,则执行高度专业化的工作,这就是他们的大绝招。而且,他们也成功达成了这一点,最后将这种乙太网路 Plus(Ethernet plus)或带有转折的乙太网路推向了市场。这一策略度仅解决了传统乙太网路在高效能运算中的痛点,同时保留了开放生态系统的优势,让运算商不必被单一供应商锁定。

推动UEC 与 OCP产业标準化

随着乙太网路在顶级效能战场的胜利,产业正在迅速向开放标準靠拢。Dell’Oro Group 的研究预测,乙太网路将在未来几年主导资料中心规模的织物网路市场,并在未来五年内推动近 800 亿美元的交换机销售金额。尤其,为了加速这一进程,两大组织正在发挥关键作用:

开放运算计画(OCP):成立了新的网路工作小组 ESUN,研究用于 AI 扩展的乙太网路。HPE 与 AMD、Meta 和 Microsoft 等大厂联手,致力于构建开放、基于标準的乙太网路交换技术。

超乙太网路联盟(Ultra Ethernet Consortium, UEC):这或许是影响最深远的变革。UEC 致力于将乙太网路提升到新层次,其 1.0 规範将 InfiniBand 令人称羡的 RDMA 支援导入乙太网路,在保持互操作性的同时提供低延迟传输。而作为 UEC 的创始成员,HPE 全力支持这项计画。Vildibill 透露,UEC 的传输规範中,有高达 70% 的内容来自于 Slingshot 的智慧财产权。

Vildibill 表示,UEC 正在定义一个开放的产业标準,这本质上就是『乙太网路 Plus』。产业希望複製我们在 Slingshot 上所做的事情。但我们不是在与 UEC 竞争,我们是在拥抱它,因为这有助于实现我们将乙太网路推向所有领域的目标。

在极大规模中千锤百鍊成Slingshot异军突起基础

除了技术规格外,Slingshot 之所以能胜出,还在于其独特的研发路径。与大多数从小型网路开始并逐步扩展的网路产品不同,Slingshot 是反其道而行,从一开始就是为了世界上前所未见的最大型系统而设计的。Vildibill 指出,HPE 在收购 Cray 后交付的首批系统就是全球最大的超级电脑。这意味着他们面临的是前人从未遇过的问题。

这种极端规模的测试,迫使团队消除了在小规模下可忽略、但在大规模下会导致系统崩溃的边缘情况(Edge cases)和错误。这种极致的查核造就了世界级的可靠性。Vildibill 总结指出,凭藉可靠性与弹性,其错误率都低得惊人,因为如果我们在如此巨大的规模下都能消除这些问题,那么在小规模应用中,这些问题几乎永远不会发生。

因此,随着当前 AI 运算需求的激增,营运商正急于寻找 InfiniBand 以外的开放替代方案。HPE Slingshot 的成功证明了乙太网路不仅能胜任 AI 超级运算的苛刻要求,甚至能在效能上超越专有技术。透过结合开放标準的灵活性与专有技术的高效能,再加上 UEC 等联盟的推动,乙太网路正在重新定义 AI 基础设施的未来,赢得了这场关键的超级运算战役。

发布于 2026-02-18 14:47
收藏
1
上一篇:下一个暴涨 AI 族群?全球最大 MLCC 供应商村田製作所考虑涨价 下一篇:尼得科量产 EMB 电机,为高阶自动驾驶补上关键拼图