Google 发布全新记忆压缩技术 TurboQuant，内存占用锐减 6 倍、推理速度狂飙 8 倍

在生成式 AI 蓬勃发展的当下，大型语言模型的内存瓶颈一直是困扰产业的核心难题。随着模型规模不断扩大、上下文窗口持续增长，键值缓存（KV Cache）所消耗的内存资源已经成为限制AI应用普及的关键障碍。传统的矢量量化技术虽然能够压缩数据，但往往伴随着额外的内存开销与精度损失，难以在实际部署中发挥理想效果。然而，谷歌研究院于3月25日发布的一项全新压缩算法，正在彻底改变这一局面：这项名为TurboQuant的技术，不仅能将KV Cache压缩至仅3 bits，更能在零精度损失的前提下，实现内存占用锐减6倍以上，推理速度提升高达8倍，谷歌这项技术的发布甚至还导致昨晚美股存储器类股全面重挫。

TurboQuant：重新定义 AI 效率的极致压缩技术

谷歌研究院发布的 TurboQuant 是一种全新的极端压缩算法，专门针对大语言模型（LLM）运行过程中的内存瓶颈问题而设计。该技术的核心目标是解决键值缓存（KV Cache）所带来的内存压力，这是目前 AI 模型在处理长文本或大规模搜索时最常遇到的性能限制因素。

传统的高维向量量化技术虽然能够压缩数据，但通常需要为每个微小的数据块计算和存储量化常数，这种额外的「内存开销」往往会抵消压缩原本带来的优势。 TurboQuant 的创新之处在于，它能够在完全不牺牲 AI 模型预测性能的前提下，大幅削减 KV Cache 的内存占用，同时避免传统方法所带来的额外负担。

双阶段技术架构：PolarQuant 与 QJL 的完美协作

TurboQuant 的运作机制分为两个关键步骤，结合了两项核心底层技术：PolarQuant 与 QJL（量化 Johnson-Lindenstrauss）。

第一阶段：PolarQuant 高质量主体压缩

PolarQuant 采用了一种突破性的方法，放弃了传统的笛卡尔坐标系，转而将数据矢量转换为极坐标。这种转换将数据映射到边界已知的固定「圆形」网格上，从而免去了昂贵的数据归一化步骤，彻底消除了传统量化方法所必须承载的内存开销。

更具体地说，PolarQuant 将每个向量分离为半径（代表数据强度）和角度（代表数据方向或含义）。由于角度分布是可预测且高度集中的，该方法无需执行传统量化器所需的昂贵逐块归一化步骤，从而实现高质量压缩且零内存开销。

第二阶段：QJL 消除残差误差

在 PolarQuant 完成主体压缩后，TurboQuant 利用 QJL 算法处理遗留的微小误差。 QJL 仅需 1 bit 的残差压缩算力，就能像数学纠错机一样消除偏差，确保模型计算出精准的注意力分数。

QJL 使用称为 Johnson-Lindenstrauss 转换的数学技术，将复杂的高维数据缩小，同时保留数据点之间的基本距离和关系。它将每个结果向量数字减少到单个符号位（+1 或 -1），创建一个零内存开销的高速速记系统。

实测数据：6 倍内存压缩、8 倍速度提升

研究团队在 Gemma 和 Mistral 等开源大模型上进行了严格的基准测试，测试范围涵盖 LongBench、Needle In A Haystack、ZeroSCROLLS、RULER 和 L-Eval 等标准长上下文基准。

实验数据表明，TurboQuant 无需任何预训练或微调，就能极其高效地将 KV Cache 压缩至 3 bits，并在「大海捞针」等长上下文测试中实现零精度损失，同时将内存占用降低至 1/6。在H100 GPU加速器上，4-bit TurboQuant的运行速度比未量化的32-bit基准提升了高达8倍。

在 LongBench 测试套件（涵盖问答、代码生成和摘要等任务）中，TurboQuant 在所有任务上都达到或超过了 KIVI 基线的性能表现。在向量搜索方面，TurboQuant 在 GloVe 数据集上对比 Product Quantization 和 RabbiQ 方法，实现了最高的 1@k 召回率，即使这些基线方法依赖更大的码本和数据集特定调优。

产业冲击：内存芯片股价集体重挫

TurboQuant 的发布不仅在技术层面引发关注，更在资本市场掀起波澜。由于该技术能够大幅减少 AI 应用对内存容量的需求，投资者担忧这将影响内存芯片的长期需求前景。消息公布后，存储芯片板块巨头股价全线重挫。截至收盘，美光科技（Micron）下跌4%、西部数据（Western Digital）下跌4.4%、希捷（Seagate）下跌5.6%，闪迪（SanDisk）更是重挫6.5%。

谷歌发布全新记忆压缩技术 TurboQuant，内存占用锐减 6 倍、推理速度狂飙 8 倍 - 掘金咖

这一波跌势反映出市场对于 AI 内存需求结构可能发生根本性转变的担忧。如果 TurboQuant 这类技术能够被广泛采用，未来 AI 数据中心对于高容量内存的需求增长可能会低于先前预期。（真是太好了！！）

观点

TurboQuant 的出现，标志着 AI 基础设施优化进入了一个新的阶段。这项技术的价值不仅仅在于其惊人的压缩比和速度提升，更在于它无需预训练或微调即可应用于现有模型的特性。这意味着谷歌可以立即将其部署到 Gemini 等生产环境中，而其他 AI 公司和开发者也能够快速受益，无需承担昂贵的模型重训练成本。

从行业角度来看，这项技术可能加速 AI 应用的普及。更低的内存需求意味着更低的部署成本，这对于希望在本地或边缘设备上运行大型语言模型的开发者来说是一大利好消息。同时，对于云端 AI 服务提供商而言，更高的运算效率将直接转化为成本优势和服务能力的提升。

然而，内存芯片股价的集体下挫也提醒我们，技术创新往往伴随着产业格局的重组。传统硬件供应商可能需要重新思考其产品策略，在容量增长之外，寻找新的价值创造点，例如更高带宽、更低延迟或更专业化的应用场景。