AI 时代互连技术战争，Slingshot 与 InfiniBand 在超大资料中心的比较

匿名

作者

在高效能运算（HPC）与人工智慧（AI）的巅峰对决中，人们的目光往往聚焦于强大的 GPU 算力数据。然而，一场更为关键、长达二十年的基础设施战争正在伺服器机柜背后悄然发生转折。根据最新的数据与产业分析，曾经被视为通用标準的乙太网路（Ethernet），正透过 Hewlett Packard Enterprise 的 Slingshot 技术，成功逆袭并击败了长期由 Nvidia InfiniBand 主导的专有互连市场，成为 AI 超级运算的新霸主。

AI 时代互连技术是关键角色

每年两次发布的 Top500 排行榜，是全球最强大超级电脑的竞技场。这些名单展示了人类工程学的极限，但外界往往只关注处理器与 GPU 的型号。然而，真正的效能推手是经常被忽视的组件-互连技术（Interconnectivity）。

互连技术是将分散的 GPU 整合为一个超级大脑的神经网路。它负责以惊人的速度将工作负载从一个晶片转移到另一个晶片，同时确保数据在传输过程中保持完整无损。若没有强大的互连技术，再多的 GPU 也只是一堆孤立的硬体。在这个领域，两大阵营的对抗已经持续了超过二十年。一方是通用的乙太网路（Ethernet），另一方则是专有的 InfiniBand。这场争夺战如同 F1 赛车手争夺颁奖台席位一般激烈，双方在不同时期都曾佔据主导地位。

乙太网路 vs. InfiniBand：开放与专有的对决

乙太网路是现代网际网路协议（IP）的基石，是业界最熟悉、定义最明确的标準。从区域网路（LAN）到广域网路（WAN），乙太网路无处不在。在超级运算中，它同样负责让丛集内（Scale-up）或丛集间（Scale-out）的 GPU 进行数据传输。其最大的优势在于开放性。乙太网路允许工程师轻鬆连接来自 AMD、Intel 甚至 Nvidia 等不同供应商的数百个 GPU 和硬体。由于其广泛的可用性，绝大多数工程师都对其操作了若指掌。

相对地，InfiniBand 虽然技术上是开放标準，但在实务上已成为高度专有的产品，其生态系统几乎完全由辉达控制。Nvidia 在 2020 年收购了 InfiniBand 的领导者 Mellanox，进一步巩固了其统治地位。InfiniBand 的优势在于其与 Nvidia CUDA 软体堆叠的深度整合，以及历史上在超低延迟场景中的卓越表现。

这主要归功于其原生支援远端直接记忆体存取（RDMA）技术，该技术允许网路适配器直接在不同系统的记忆体之间传输数据，绕过 CPU，从而消除了处理开销并降低延迟。凭藉这些优势以及业界对 Nvidia 硬体的渴求，InfiniBand 直到 2023 年底仍佔据约 80% 的 AI 网路市场占比。

然而，当前局势已经悄然改变。HPE 旗下的 Slingshot 互连技术，证明了乙太网路不仅能生存，更能称王。根据 2025 年 6 月发布的最新 Top500 榜单，全球前 10 大最强大的超级电脑中，有 6 台使用了 HPE 的 Slingshot 技术。这份名单包括了佔据前三名的顶级系统，包括El Capitan、Frontier 和 Aurora。而且，这种统治力延伸至前 30 名，共有 12 个系统採用 Slingshot。

虽然从数量上看，InfiniBand NDR200 仍以 189 台系统佔据榜单最大占比，但在效能占比（Performance Share）这一关键指标上，HPE 最新的 Slingshot 11 已佔据 48.1% 的绝对优势。相较之下，InfiniBand NDR200 仅佔 28.8%，其中包括英国最新的超级电脑 Isambard-AI ，也成为这一趋势的见证者。该系统于 2025 年夏季启用，随即在 Top500 中空降第 11 名。它採用的正是 Slingshot 技术，透过 64 个端口提供高达 25.6 Tbps 的双向频宽。

乙太网路 Plus成为成功秘诀

HPE 高效能网路副总裁兼总经理 Mike Vildibill 曾公开揭示了 Slingshot 成功的关键策略，那就是在内部像专有互连一样运作，在边缘则像乙太网路。而回顾这项技术的基因，就是源自于 HPE 于 2019 年收购的超级运算先驱 Cray Research。

Vildibill 解释道，当时Cray 的工程师们当年设想了一种大胆的架构，就是在网路边缘保持与乙太网路的相容性与合规性，但在织物网路（Fabric）内部，则执行高度专业化的工作，这就是他们的大绝招。而且，他们也成功达成了这一点，最后将这种乙太网路 Plus（Ethernet plus）或带有转折的乙太网路推向了市场。这一策略度仅解决了传统乙太网路在高效能运算中的痛点，同时保留了开放生态系统的优势，让运算商不必被单一供应商锁定。

推动UEC 与 OCP产业标準化

随着乙太网路在顶级效能战场的胜利，产业正在迅速向开放标準靠拢。Dell’Oro Group 的研究预测，乙太网路将在未来几年主导资料中心规模的织物网路市场，并在未来五年内推动近 800 亿美元的交换机销售金额。尤其，为了加速这一进程，两大组织正在发挥关键作用：

开放运算计画（OCP）：成立了新的网路工作小组 ESUN，研究用于 AI 扩展的乙太网路。HPE 与 AMD、Meta 和 Microsoft 等大厂联手，致力于构建开放、基于标準的乙太网路交换技术。

超乙太网路联盟（Ultra Ethernet Consortium, UEC）：这或许是影响最深远的变革。UEC 致力于将乙太网路提升到新层次，其 1.0 规範将 InfiniBand 令人称羡的 RDMA 支援导入乙太网路，在保持互操作性的同时提供低延迟传输。而作为 UEC 的创始成员，HPE 全力支持这项计画。Vildibill 透露，UEC 的传输规範中，有高达 70% 的内容来自于 Slingshot 的智慧财产权。

Vildibill 表示，UEC 正在定义一个开放的产业标準，这本质上就是『乙太网路 Plus』。产业希望複製我们在 Slingshot 上所做的事情。但我们不是在与 UEC 竞争，我们是在拥抱它，因为这有助于实现我们将乙太网路推向所有领域的目标。

在极大规模中千锤百鍊成Slingshot异军突起基础

除了技术规格外，Slingshot 之所以能胜出，还在于其独特的研发路径。与大多数从小型网路开始并逐步扩展的网路产品不同，Slingshot 是反其道而行，从一开始就是为了世界上前所未见的最大型系统而设计的。Vildibill 指出，HPE 在收购 Cray 后交付的首批系统就是全球最大的超级电脑。这意味着他们面临的是前人从未遇过的问题。

这种极端规模的测试，迫使团队消除了在小规模下可忽略、但在大规模下会导致系统崩溃的边缘情况（Edge cases）和错误。这种极致的查核造就了世界级的可靠性。Vildibill 总结指出，凭藉可靠性与弹性，其错误率都低得惊人，因为如果我们在如此巨大的规模下都能消除这些问题，那么在小规模应用中，这些问题几乎永远不会发生。

因此，随着当前 AI 运算需求的激增，营运商正急于寻找 InfiniBand 以外的开放替代方案。HPE Slingshot 的成功证明了乙太网路不仅能胜任 AI 超级运算的苛刻要求，甚至能在效能上超越专有技术。透过结合开放标準的灵活性与专有技术的高效能，再加上 UEC 等联盟的推动，乙太网路正在重新定义 AI 基础设施的未来，赢得了这场关键的超级运算战役。

发布于 2026-02-18 14:47

喜欢 0

上一篇：下一个暴涨 AI 族群？全球最大 MLCC 供应商村田製作所考虑涨价下一篇：尼得科量产 EMB 电机，为高阶自动驾驶补上关键拼图

AI 时代互连技术是关键角色

乙太网路 vs. InfiniBand：开放与专有的对决

乙太网路 Plus成为成功秘诀

推动UEC 与 OCP产业标準化

在极大规模中千锤百鍊成Slingshot异军突起基础

推荐阅读