辉达与亚马逊联手颠覆AI架构!GPU将直接控制SSD、HBF有望取代部分HBM需求
据悉,辉达 (NVDA-US) 与亚马逊 (AMZN-US) 正积极推进新一代储存架构研发,该架构将允许 GPU 直接操控 SSD 等储存设备,绕过传统 CPU 调度环节,大幅提升 AI 运算效能。辉达计划率先在其 Vera Rubin 平台上导入GPU 发起直接储存访问(GIDS)技术,此举也将加速高频宽快闪记忆体(HBF)的产业普及。

据外媒报导,随着 AI 大型语言模型参数规模持续膨胀,现行高频宽记忆体(HBM)已暴露出两大关键缺陷:
HBM 受限于物理堆叠上限,容量扩充难度高、成本居高不下,难以支撑兆级参数的超大规模模型; GPU 与 HBM 之间的资料传输耗电量,已佔 AI 伺服器整机系统总功耗近 50%,算力能效严重失衡。
与此同时,传统冯纽曼架构(Von Neumann architecture)存在先天性资料搬运瓶颈:资料必须经由 CPU 中转、DRAM 缓存,才能传输至 GPU。
CPU 线程调度存在结构性上限,却要服务拥有数万级并行算力的 GPU,两者之间的效能错配,已成为 AI 推理与训练提速的核心枷锁。
事实上,GPU 直连储存技术历经两代演进,差异显着。第一代 GPU 直接储存(GDS)虽尝试缩短资料路径,但仍须依赖 CPU 下发请求,存在明显的调度延迟,属于过渡性方案。
新一代 GIDS 技术则实现革命性突破,允许 GPU 直接操控 SSD 或高速快闪记忆体,全程绕过 CPU 与 DRAM,彻底剔除中间调度层级,使 GPU 算力不再受 CPU 数据调度拖累。
两代技术的核心目标一致,均是为克服传统冯诺依曼架构的资料传输瓶颈,但 GIDS 在架构层面更为彻底。
值得注意的是,GIDS 落地需搭配高性能快闪记忆体以适配频宽需求。
HBF 成最优解 容量可达 HBM 十六倍为配合 GIDS 技术落地并解决 HBM 容量不足的痛点,HBF 被视为当前最优解决方案。
HBF 借鑒 HBM 的垂直堆叠思路,将 NAND 快闪记忆体透过硅穿孔技术进行垂直互联,并将高速快闪记忆体物理贴近 GPU 布局,以最大化提升资料传输效率。
从性能指标来看,NAND 快闪记忆体的位元密度是 DRAM 的 30 倍,同等体积下可实现更大储存容量。
业界实测数据显示,採用 6 颗 HBF 单元搭配 2 颗 HBM 单元的组合,可将 GPU 记忆体从 192GB 提升至 3,120GB,容量提升超过 16 倍,理论上可支撑参数规模为现有架构 16 倍的超大型 AI 模型部署。
不过,HBF 的定位是与 HBM 互补,而非全面取代。由于 NAND 快闪记忆体耐久性有限,通常仅支援约 10 万次的写入与抹除循环,远低于 DRAM 近乎无限制的抹写能力,因此 HBF 最适合 AI 推理场景,推理过程中模型参数基本不变,属于唯读工作负载,可充分发挥 HBF 的容量优势;至于高频率训练场景,仍需仰赖 HBM,两者各司其职。
科技巨头竞相布局 三星抢佔快闪记忆体高地在产业布局方面,辉达作为行业主导者,藉由 Vera Rubin 平台主导 GIDS 技术标準制定,力图掌握 AI 算力架构的话语权;亚马逊则与辉达深度合作,优先将 GPU 直连储存架构落地于云端 AI 算力集群。
微软 (MSFT-US) 与超微半导体 (AMD-US) 亦同步跟进,积极布局自研替代方案,以制衡辉达的生态垄断。
硬体端方面,三星电子採取双线布局策略,一方面自研次世代高性能 Z-NAND 快闪记忆体,另一方面同步开发 GIDS 技术,打造快闪记忆体硬体与架构协议一体化方案,抢佔 AI 高阶快闪记忆体市场。
学术层面,南韩延世大学系统半导体工程系宋基焕教授研究团队已完成相关理论论证,从能效提升与容量扩充逻辑两大维度,为该架构的产业落地提供了坚实的技术理论基础。