研调：辉达迎战ASIC 採多元产品分攻AI训练、推理市场

匿名

作者

TrendForce 今 (18) 日指出，辉达 (NVDA-US) 于 GTC 2026 大会改为着重各领域的 AI 推理应用落地，有别于以往专注云端 AI 训练市场。其推动 GPU、CPU 以及 LPU 等多元产品轴线分攻 AI 训练、AI 推理需求，并藉由机柜整合方案带动供应链成长。

TrendForce 表示，随着 Google、Amazon 等 CSP 的自製晶片需求扩大，预估 ASIC AI 伺服器占整体 AI 伺服器的出货比例将从 2026 年的 27.8%，上升至 2030 年的近 40%。

‌

为巩固在 AI 市场的领导地位，辉达採取的其中一项策略为积极推动 GB300、VR200 等整合 CPU、GPU 的整柜式方案，强调可扩展至 AI 推理应用。本次在 GTC 发表的 Vera Rubin 被定义为高度垂直整合的完整系统，涵盖七款晶片和五款机柜。

观察 Rubin 供应链进度，预计 2026 年第二季记忆体原厂可提供 HBM4 给 Rubin GPU 搭载使用，有助辉达于第三季前后陆续出货 Rubin 晶片。GB300、VR200 Rack 系统则分别于 2025 年第四季取代 GB200 成为出货主力，预估至 2026 年出货占比将达近 80%，而 VR200 Rack 约于 2026 年第三季底可望逐步展开出货量能，后续发展仍须视 ODM 实际进度而定。

另外，AI 从生成跨入代理模型时代，在生成 Token 的解码 (Decode) 阶段面临严重的延迟与记忆体频宽瓶颈。为此，辉达整合 Groq 团队技术，推出专为低延迟推理设计的 Groq 3 LPU，单颗内建 500MB SRAM、整机柜可达 128GB。

然而，LPU 本身的记忆体容量无法容纳 Vera Rubin 等级的庞大参数与 KV Cache。辉达因此于本次 GTC 提出解耦合推理 (Disaggregated Inference)架构，透过名为 Dynamo 的 AI 工厂作业系统，将推理流水线一分为二：处理代理型 AI 时，须进行大量数学运算并储存庞大 KV Cache 的 Pre-fill、Attention 运算阶段，交由具备极高吞吐量与巨量记忆体的 Vera Rubin 执行。

而受限于频宽且对延迟极度敏感的解码与 Token 生成阶段，则直接卸载至扩充了巨量记忆体的 LPU 机柜上。

在供应链进度上，第三代 Groq LP30 由 Samsung 代工，已进入全面量产阶段，预计于 2026 年下半年正式出货，未来更规画于下一代 Feynman 架构中推出效能更高的 LP40 晶片。

发布于 2026-03-18 18:31

喜欢 0

上一篇：软体贷款违约恐创疫情以来新高！大摩示警：AI冲击引发软体业「到期墙」压力下一篇：大摩预测：私人信贷市场恐迎一波「重大洗牌」损失堪比新冠时期

推荐阅读