挑战辉达霸权 Cerebras凭什么成AI晶片最强黑马?

AI 推理晶片新创 Cerebras Systems 于 5 月 14 日正式登陆纳斯达克,IPO 估值达 488 亿美元,较 8 个月前约 81 亿美元估值暴增逾 6 倍,并传出超额认购超过 20 倍,成为今年全球估值规模最大的 IPO 之一。

市场之所以对 Cerebras 抱持高度期待,核心原因在于 AI 产业正快速从训练时代迈向推理时代,而传统 GPU 架构在推理场景中的效率瓶颈逐渐浮现。


辉达 (NVDA-US) 执行长黄仁勋今年于 GTC 2026 大会上坦言,AI 推理拐点已至。根据德勤统计,2023 年企业 AI 算力支出仍以训练为主,占比约 60%,推理仅 40%;但两年后,推理占比预计将提高至 85%。

创投机构 Andreessen Horowitz(a16z) 研究指出,2025 年推理模型消耗的 token 占比,已从过去接近零快速攀升至整体 AI 算力需求的一半以上,显示 AI 模型升级正持续放大推理算力需求。

不过,GPU 在推理任务上存在结构性限制。大型语言模型 (LLM) 推理主要分为 Prefill(预填充)与 Decode(解码)两阶段。GPU 擅长前者的大规模平行运算,但 Decode 属于序列式生成,每个 token 皆需等待前一个 token 完成,同时反覆读取模型权重与 KV Cache 资料,造成庞大的资料搬运负担。

以 700 亿参数模型为例,其模型权重约达 140GB,加上持续增长的 KV Cache,GPU 运算过程往往受限于记忆体频宽,而非纯粹算力。业界将此问题称为记忆体墙 (Memory Wall)。

数据显示,AI 算力每两年约提升 3 倍,但 HBM 记忆体频宽仅增加 1.6 倍。若拉长至 10 年观察,算力增幅高达 1000 倍,频宽却仅提升 10 倍,导致 GPU 大量时间消耗于资料搬运而非实际运算。

HuggingFace 分析甚至指出,辉达 B200 GPU 在 batch 等于 1 的推理场景下,Tensor Core 闲置率超过 99%。

即便如此,推理仍是辉达最核心收入来源。黄仁勋曾公开表示,辉达资料中心业务约 65% 收入来自推理应用。市场认为,这也解释了为何辉达近期积极布局低延迟推理架构,甚至传出斥资约 200 亿美元收购 Groq 相关技术。

在此背景下,Cerebras 以晶圆级运算架构切入市场,试图颠覆传统 GPU 设计。

其核心产品 WSE-3(Wafer Scale Engine 3) 直接将整片 300mm 硅晶圆做成单一处理器,而非传统切割成多颗 GPU。WSE-3 内建 90 万个 AI 核心、44GB 片上 SRAM,官方宣称频宽达 21PB/s,相较辉达 B200 约 8TB/s 频宽高出 2625 倍。

这种设计使资料交换无须跨晶片传输,大幅降低延迟。根据官方测试,在 Llama 3.3 70B 模型推理中,Cerebras 每秒 token 输出达 2140,相较最佳 GPU 方案约 120,高出近 18 倍;即使在 Llama 4 Maverick 400B 模型上,也达 2500 对 1000,性能超过 2 倍。

不过,晶圆级架构长年被视为几乎不可能实现的技术方向,主要卡在三大工程难题。

首先是光刻限制。传统光刻单次曝光最大尺寸约 26mm×33mm,远小于整片晶圆。Cerebras 与台积电 (TSM-US) 合作开发划线桥接技术,透过延伸金属沉积路径,让整片晶圆形成统一运算网路。

其次是超大晶片良率问题。Cerebras 将单一 AI 核心面积缩小至 0.05 平方毫米,约仅为 H100 SM 核心面积的 1%,即使局部缺陷,也仅影响极小区域,并透过 1% 至 1.5% 备援核心提高容错能力。

第三则是供电与散热。WSE-3 功耗高达 23kW,需要超过 2 万安培电流。Cerebras 採用上方垂直供电与底部水冷散热设计,将整片晶圆温差控制在 20℃内。

在技术想像空间与 AI 推理热潮推升下,Cerebras 估值一路飙升。根据 S-1 文件,公司估值从 81 亿美元升至 230 亿美元,最终 IPO 估值达 488 亿美元。

此外,OpenAI 也与 Cerebras 签署超过百亿美元的多年合作协议,而亚马逊 (AMZN-US) 旗下 AWS 亦选择导入 Cerebras 作为 Bedrock 推理加速层之一。

然而,高估值背后也伴随明显风险。

根据 S-1 文件,Cerebras IPO 估值约相当于 2025 年预估营收 5.1 亿美元的 95 倍本益比,而辉达目前约为 25 倍,意味市场给予 Cerebras 近 4 倍于辉达的估值溢价。

但获利能力方面,Cerebras 仍远落后于辉达。辉达毛利率约 75% 至 80%,Cerebras 仅 39%。公司 2025 年 GAAP 净利约 2.378 亿美元,但其中包含 3.63 亿美元非现金会计收益;若以 Non-GAAP 计算,实际仍亏损 7570 万美元。

此外,公司营收高度集中。2025 年约 86% 收入来自阿联酋两家机构,其中 MBZUAI 占 62%,G42 占 24%,而美国市场收入反而年减 34%。

OpenAI 虽签下百亿美元合作,但其角色同时也是客户、债权人、潜在股东与早期投资者。文件显示,246 亿美元订单积压中,仅 15% 将于 2026 至 2027 年认列,其余 43% 须等到 2028 至 2029 年。若 Cerebras 无法如期交付产能,OpenAI 有权终止合约并要求偿还贷款。

更重要的是,OpenAI 并未将所有推理布局押注于 Cerebras。去年 10 月,OpenAI 也与超微 (AMD-US) 签署 6GW 部署协议。AWS 虽与 Cerebras 合作,但主要推理架构仍以自研 Trainium 3 为核心。

市场人士指出,目前各大科技公司普遍採取多路线并行策略,尚无任何一家将 Cerebras 视为唯一主力方案。

此外,业界也质疑其测试数据可能受推测解码技术加持。该技术由小模型预测 token、大模型验证,可额外提升约 3 倍速度,代表纯硬体优势未必如数据显示般巨大。

更大的限制则来自 44GB 片上记忆体容量。随着 AI Agent 与长上下文应用快速发展,未来模型对记忆体需求将远超 44GB。分析指出,Cerebras 在短上下文场景下速度惊人,但一旦超出片上记忆体範围,性能与成本优势便会快速下降。

整体而言,市场目前对 Cerebras 的期待,更多来自稀缺 AI 基础设施的资本叙事,而非已被完全验证的商业模式。

未来 Cerebras 能否真正挑战辉达地位,关键仍在于两点:OpenAI 等大型合约能否顺利落地,以及晶圆级架构能否突破记忆体与应用场景限制。

若无法持续扩大商业化应用,这场 AI 推理革命背后的高估值叙事,也可能面临泡沫化风险。

发布于 2026-05-15 04:41
收藏
1
上一篇:黄仁勋捐赠1.08亿美元算力!CME拟推算力期货 专家:算力将成为一种新资产 下一篇:Cerebras狂飙68%IPO首秀震撼华尔街 市值逼近千亿美元