TurboQuant 能带来容量释放,却无法拯救记忆体高价地狱

Google 近期正式发表了一项名为 TurboQuant 的全新人工智慧资料压缩技术,承诺能够大幅减少伺服器在执行 AI 模型推论时所需的记忆体容量。儘管许多人寄望 TurboQuant 能成为拯救记忆体价格暴涨、解决记忆体短缺的救星。但专家与市场分析指出,这项技术虽然能为更廉价的 AI 推论打好基础,却无望真正将记忆体从高昂的价格地狱中解救出来。儘管如此,这项底层技术对于模型开发者与推论服务提供商而言,依然具有重大的深远影响。
根据 Google 研究人员在近期部落格文章中的详细说明,TurboQuant 本质上是一种量化(Quantization)方法,目的在将生成式 AI 中使用的高精度资料压缩至较低精度。然而,与大多数直接缩减 AI 模型本身体积的量化技术不同。TurboQuant 的核心目标在于减少储存键值快取(Key Value caches,简称 KV caches)所需的记忆体容量,这些快取主要用于在大型语言模型(LLM)推论期间维持对话的上下文脉络。
简而言之,KV 快取就像是大型语言模型的短期记忆。以聊天对话为例,模型正是透过 KV 快取来追蹤并记住使用者的对话过程。这个环节最棘手的问题在于,这些 KV 快取的资料量会迅速堆叠,其所消耗的记忆体甚至经常超越 AI 模型本身的庞大体积。在传统架构下,这些 KV 快取通常以 16 位元的精度进行储存。如果能将储存键值所需的位元数缩减至 8 位元甚至 4 位元,就能将记忆体需求降低 2 到 4 倍。
虽然 TurboQuant 成功让 KV 快取量化技术受到瞩目,但这个核心概念其实并不新奇,业界常见的作法是推论引擎会基于上述考量,将 KV 快取储存为 FP8 格式。然而,这种量化过程通常必须付出代价,就是精度的降低意味着储存键值所需的位元变少,随之减少的记忆体往往会导入额外的效能。
TurboQuant 的重大创新正是在于解决了品质与效能的折衷问题。Google 宣称,这项技术仅需使用 3.5 位元,就能达成与 BF16 精度相仿的品质,同时还能大幅减轻那些恼人的效能负载问题。更令人惊豔的是,在 4 位元设定下,当计算用于决定上下文资讯重要性的注意力分对数(attention logits)时,TurboQuant 在 Nvidia H100 晶片上展现了高达 8 倍的速度提升。
而且,研究人员并未止步于此,他们在测试中发现,可以将 KV 快取极限压缩至仅 2.5 位元,且品质损失微乎其微。Google 所宣称能降低至少 6 倍记忆体消耗的惊人数据,正是源自于此项测试结果。
鉴于 TurboQuant 高达 6:1 的惊人压缩比,华尔街许多分析师最初便将记忆体製造商近期股价的下挫,归因于这项压缩技术的问世。然而,儘管这项技术确实有望让 AI 推论丛集的运作变得更有效率、进而降低营运成本,但它极不可能真正遏止业界对用于储存 KV 快取的 NAND 快闪记忆体与 DRAM 的庞大需求。
回顾一年前,如 DeepSeek R1 这样的开放权重模型,其提供的上下文长度(context windows)大约落在 64,000 到 256,000 个词元(tokens)之间。时至今日,市场上具备超过一百万个词元上下文长度的开源模型已不再罕见。而 TurboQuant 带来的记忆体节省,为推论服务供应商带来了两种选择,一是使用更少的记忆体来维持现有模型服务,二是利用省下来的空间来提供具备更庞大上下文长度的 AI 模型。考量到程式码助理以及像 OpenClaw 这类代理式 AI 框架正不断推升对超长上下文的强烈需求,选择后者显然是产业界更可能採取的发展方向。
对此,市场研究机构 TrendForce(集邦科技)在本週稍早发布的一份报告中,他们预测 TurboQuant 非但不会抑制记忆体需求,反而会成为激发长上下文应用程式蓬勃发展的催化剂,并进一步推动市场对更多记忆体的强劲需求。因此,期望靠着单一压缩技术来缓解全球记忆体价格压力的愿景,短期内恐难以实现。