挑战辉达霸权 Cerebras凭什么成AI晶片最强黑马？

匿名

作者

AI 推理晶片新创 Cerebras Systems 于 5 月 14 日正式登陆纳斯达克，IPO 估值达 488 亿美元，较 8 个月前约 81 亿美元估值暴增逾 6 倍，并传出超额认购超过 20 倍，成为今年全球估值规模最大的 IPO 之一。

市场之所以对 Cerebras 抱持高度期待，核心原因在于 AI 产业正快速从训练时代迈向推理时代，而传统 GPU 架构在推理场景中的效率瓶颈逐渐浮现。

‌

辉达 (NVDA-US) 执行长黄仁勋今年于 GTC 2026 大会上坦言，AI 推理拐点已至。根据德勤统计，2023 年企业 AI 算力支出仍以训练为主，占比约 60%，推理仅 40%；但两年后，推理占比预计将提高至 85%。

创投机构 Andreessen Horowitz(a16z) 研究指出，2025 年推理模型消耗的 token 占比，已从过去接近零快速攀升至整体 AI 算力需求的一半以上，显示 AI 模型升级正持续放大推理算力需求。

不过，GPU 在推理任务上存在结构性限制。大型语言模型 (LLM) 推理主要分为 Prefill(预填充)与 Decode(解码)两阶段。GPU 擅长前者的大规模平行运算，但 Decode 属于序列式生成，每个 token 皆需等待前一个 token 完成，同时反覆读取模型权重与 KV Cache 资料，造成庞大的资料搬运负担。

以 700 亿参数模型为例，其模型权重约达 140GB，加上持续增长的 KV Cache，GPU 运算过程往往受限于记忆体频宽，而非纯粹算力。业界将此问题称为记忆体墙 (Memory Wall)。

数据显示，AI 算力每两年约提升 3 倍，但 HBM 记忆体频宽仅增加 1.6 倍。若拉长至 10 年观察，算力增幅高达 1000 倍，频宽却仅提升 10 倍，导致 GPU 大量时间消耗于资料搬运而非实际运算。

HuggingFace 分析甚至指出，辉达 B200 GPU 在 batch 等于 1 的推理场景下，Tensor Core 闲置率超过 99%。

即便如此，推理仍是辉达最核心收入来源。黄仁勋曾公开表示，辉达资料中心业务约 65% 收入来自推理应用。市场认为，这也解释了为何辉达近期积极布局低延迟推理架构，甚至传出斥资约 200 亿美元收购 Groq 相关技术。

在此背景下，Cerebras 以晶圆级运算架构切入市场，试图颠覆传统 GPU 设计。

其核心产品 WSE-3(Wafer Scale Engine 3) 直接将整片 300mm 硅晶圆做成单一处理器，而非传统切割成多颗 GPU。WSE-3 内建 90 万个 AI 核心、44GB 片上 SRAM，官方宣称频宽达 21PB/s，相较辉达 B200 约 8TB/s 频宽高出 2625 倍。

这种设计使资料交换无须跨晶片传输，大幅降低延迟。根据官方测试，在 Llama 3.3 70B 模型推理中，Cerebras 每秒 token 输出达 2140，相较最佳 GPU 方案约 120，高出近 18 倍；即使在 Llama 4 Maverick 400B 模型上，也达 2500 对 1000，性能超过 2 倍。

不过，晶圆级架构长年被视为几乎不可能实现的技术方向，主要卡在三大工程难题。

首先是光刻限制。传统光刻单次曝光最大尺寸约 26mm×33mm，远小于整片晶圆。Cerebras 与台积电 (TSM-US) 合作开发划线桥接技术，透过延伸金属沉积路径，让整片晶圆形成统一运算网路。

其次是超大晶片良率问题。Cerebras 将单一 AI 核心面积缩小至 0.05 平方毫米，约仅为 H100 SM 核心面积的 1%，即使局部缺陷，也仅影响极小区域，并透过 1% 至 1.5% 备援核心提高容错能力。

第三则是供电与散热。WSE-3 功耗高达 23kW，需要超过 2 万安培电流。Cerebras 採用上方垂直供电与底部水冷散热设计，将整片晶圆温差控制在 20℃内。

在技术想像空间与 AI 推理热潮推升下，Cerebras 估值一路飙升。根据 S-1 文件，公司估值从 81 亿美元升至 230 亿美元，最终 IPO 估值达 488 亿美元。

此外，OpenAI 也与 Cerebras 签署超过百亿美元的多年合作协议，而亚马逊 (AMZN-US) 旗下 AWS 亦选择导入 Cerebras 作为 Bedrock 推理加速层之一。

然而，高估值背后也伴随明显风险。

根据 S-1 文件，Cerebras IPO 估值约相当于 2025 年预估营收 5.1 亿美元的 95 倍本益比，而辉达目前约为 25 倍，意味市场给予 Cerebras 近 4 倍于辉达的估值溢价。

但获利能力方面，Cerebras 仍远落后于辉达。辉达毛利率约 75% 至 80%，Cerebras 仅 39%。公司 2025 年 GAAP 净利约 2.378 亿美元，但其中包含 3.63 亿美元非现金会计收益；若以 Non-GAAP 计算，实际仍亏损 7570 万美元。

此外，公司营收高度集中。2025 年约 86% 收入来自阿联酋两家机构，其中 MBZUAI 占 62%，G42 占 24%，而美国市场收入反而年减 34%。

OpenAI 虽签下百亿美元合作，但其角色同时也是客户、债权人、潜在股东与早期投资者。文件显示，246 亿美元订单积压中，仅 15% 将于 2026 至 2027 年认列，其余 43% 须等到 2028 至 2029 年。若 Cerebras 无法如期交付产能，OpenAI 有权终止合约并要求偿还贷款。

更重要的是，OpenAI 并未将所有推理布局押注于 Cerebras。去年 10 月，OpenAI 也与超微 (AMD-US) 签署 6GW 部署协议。AWS 虽与 Cerebras 合作，但主要推理架构仍以自研 Trainium 3 为核心。

市场人士指出，目前各大科技公司普遍採取多路线并行策略，尚无任何一家将 Cerebras 视为唯一主力方案。

此外，业界也质疑其测试数据可能受推测解码技术加持。该技术由小模型预测 token、大模型验证，可额外提升约 3 倍速度，代表纯硬体优势未必如数据显示般巨大。

更大的限制则来自 44GB 片上记忆体容量。随着 AI Agent 与长上下文应用快速发展，未来模型对记忆体需求将远超 44GB。分析指出，Cerebras 在短上下文场景下速度惊人，但一旦超出片上记忆体範围，性能与成本优势便会快速下降。

整体而言，市场目前对 Cerebras 的期待，更多来自稀缺 AI 基础设施的资本叙事，而非已被完全验证的商业模式。

未来 Cerebras 能否真正挑战辉达地位，关键仍在于两点：OpenAI 等大型合约能否顺利落地，以及晶圆级架构能否突破记忆体与应用场景限制。

若无法持续扩大商业化应用，这场 AI 推理革命背后的高估值叙事，也可能面临泡沫化风险。

发布于 2026-05-15 04:41

喜欢 0

上一篇：黄仁勋捐赠1.08亿美元算力！CME拟推算力期货专家：算力将成为一种新资产下一篇：Cerebras狂飙68%IPO首秀震撼华尔街市值逼近千亿美元

推荐阅读