新旧晶片混杂卡关!SpaceX超级电脑惊传瓶颈 拟把算力全租给Anthropic变现
彭博引述知情人士说法报导,SpaceX(SPCX-US)在使用位于田纳西州孟菲斯 (Memphis) 的 Colossus 1 资料中心训练与运作 Grok 人工智慧 (AI) 模型时遭遇技术挑战,因此决定将该设施的全部算力出租给 Anthropic 。
根据知情人士,马斯克的公司原本计划由三座资料中心园区组成的大型运算丛集,为最先进 AI 模型提供庞大算力进行训练。然而,Colossus 1 与另外两座相距超过 10 英里的园区连接时出现延迟问题,加上网路基础设施老旧,使问题更加严重。
通常要训练规模更大、能力更强的 AI 模型,需要极高速的资料传输连线。如果不同设施之间使用较旧或频宽不足的网路连结,就可能产生延迟,进而拖慢整个资料中心丛集的运作效率。
知情人士指出,与其持续投入资源解决这些限制,SpaceX 认为将该设施出租给其他企业、创造新的营收来源,能够发挥更高价值。
SpaceX 今年稍早完成对 xAI 的收购案,并在史上最大规模 IPO 路演期间,将资料中心建设列为向投资人推销的重要卖点之一。
目前 Anthropic 与 Alphabet(GOOGL-US) 旗下 Google,都已和 SpaceX 签署运算服务协议,未来数年合约价值可望达数百亿美元,有助这家火箭製造商转型为 AI 基础设施供应商。
然而,Colossus 1 用途转变,反映出马斯克快速打造庞大 AI 资料中心版图的过程中所面临的困难与高昂成本。马斯克曾多次强调,首座 Colossus 资料中心仅用 122 天便完成建设,不仅超越公司原先预估,也远快于业界平均速度。
除了延迟问题外,知情人士表示,Colossus 1 与其他设施整合时还受到硬体规格差异影响。
Colossus 1 内部混合部署多个世代的辉达 (NVDA-US)AI 晶片,包括 Hopper 与 Blackwell 系统,以及部分较旧的 AI 加速器。而 Colossus 2 与 Colossus 3 则主要採用较一致的 Blackwell 架构打造。
在大型资料中心丛集中,运算工作会分散至多台机器执行,这些设备必须维持同步运作。如果其中一座设施使用较旧晶片,就可能出现瓶颈,迫使效能更高的加速器必须等待较慢设备完成运算,最后将使整体丛集效能比较接近最慢硬体的水準,而非最快设备的能力。
若能出租 Colossus 1 全部算力,SpaceX 得以将未被充分利用的基础设施转化为收益,同时保留更新的资料中心专供 AI 研发使用。
SpaceX 财务长 Bret Johnsen 近期表示,该公司并未放弃内部 AI 服务计画,包括 Grok 在内的产品仍将持续推进。
马斯克也曾说,SpaceX 保留提前终止与 Anthropic 运算合作协议的权利,只要事先提供充分通知即可。他当时说:如果算力供应变得非常紧张,我曾说过未来某个时候我们可能会把它回收以使用。
(本文不开放合作伙伴转载)