Google Research · 2026年3月公開

TurboQuant
AI 効率を再定義する

精度劣化なしの 3 ビット KV キャッシュ圧縮を実現し、メモリ使用量を 6 分の 1 に、アテンション速度を最大 8 倍にする新しいオンラインベクトル量子化アルゴリズムです。

TurboQuantNet hero visualization
6x+
メモリ圧縮
8x
アテンション高速化 (H100)
3-bit
無損失圧縮
最新動向

TurboQuantを巡る最新の動き

論文公開後、議論はすぐに実装、導入、長文脈推論のコスト構造へ広がりました。

最新アップデート

2026年3月
GPT-5.4で25分以内にTurboQuantのMLX実装が行われた

ある開発者が、GPT-5.4を使って25分でTurboQuantのMLX実装を完了したと報告しました。

投稿を見る
2026年3月
Google ResearchがTurboQuantを正式に発表した

公開内容では、TurboQuantをKVキャッシュ圧縮とベクトル検索の両方に使える、情報理論限界に近いオンライン量子化手法として位置づけました。

2026年3月
コミュニティはすぐに統合議論へ移った

オープンソース側の議論は、llama.cppなどの推論スタックや関連ランタイムにTurboQuantをどう組み込むかへすぐ進みました。

2026年3月
関心は理論から導入経済性へ移った

議論の中心は、3ビットの無損失KV圧縮が長文脈サービングのメモリ予算とレイテンシ予算を書き換えるかどうかになりました。

影響

市場への影響
$MUと$SNDKが寄り付きで大きく売られた

$GOOGLによるTurboQuant公開を受けて、$MUと$SNDKは寄り付きで大きな圧力を受けました。

Sponsored
Expert Commentary

A practical read on what TurboQuant changes

One expert view on what is likely already deployed, what still remains hard, and why the paper matters even if most easy gains are gone.

Independent Industry Expert
LLM systems and inference engineering

TurboQuant matters less because it saves a bit more memory, and more because it marks where KV-cache compression starts to hit a real boundary.

KV cache has long been the largest source of memory consumption in large-model inference. What this paper does, in essence, is compress that data in a way that approaches the information-theoretic optimum. It is not just lowering precision. It is reallocating information density: ordinary regions are represented with extremely low bits, while outliers retain higher precision. At the same time, the method stops treating values independently and instead encodes them at the vector level, which fits the inner-product structure of attention itself.

The critical point is that its error is already close to the information-theoretic lower bound, the Shannon limit. That means compression efficiency is already near the theoretical ceiling. The paper reports roughly 4x to 4.5x compression with little visible performance loss. The result is strong, but it also suggests there is not much room left for further compression without harming model quality.

Given how large-tech internal R&D usually works, the optimization effects implied by the paper were likely absorbed in stages before publication. Low-bit quantization has already been widely deployed, from int8 to int4 and beyond, across mainstream inference stacks. Separate handling for outliers is also not new: methods such as SmoothQuant and AWQ are already doing closely related things. KV-cache compression itself, sliding windows, and hierarchical cache designs are already standard practice in large-model systems.

What likely has not fully landed yet is the most extreme part of the paper: vector quantization and coding schemes that move closer to the information-theoretic limit. The barrier is not theory, but implementation. These methods are less GPU-friendly, harder to keep low-latency, and more difficult to stabilize and generalize in production, so they may take much longer to ship.

If I had to estimate roughly how much of the paper's benefit is already reflected in deployed systems, it would look something like this: the earliest KV cache starts at 1x cost; basic quantization gets to around 2x to 3x compression; adding outlier-aware handling can reach about 3x to 4x; the paper pushes that further to around 4x to 4.5x. In other words, most of the easy gains have already been captured. What remains is smaller in upside and increasingly expensive to realize.

The reason is straightforward. Early compression removes redundancy. Later compression starts to hit effective information, so every additional step has a much higher chance of hurting model capability. Error no longer degrades smoothly; beyond a certain point, it can worsen quickly. Engineering difficulty also does not grow linearly. It rises sharply.

You can infer from current model behavior that mainstream systems are already using many of these ideas. Better long-context behavior, lower inference cost, and stable performance all suggest that KV-cache efficiency has already been significantly improved. A team at Google's level has very likely already deployed low-bit quantization, outlier handling, and at least part of KV-cache compression.

That means if this Google paper has an impact on storage, much of that impact has probably already shown up. The parts that have not shown up yet will likely be harder to implement than the gains that came before.

More importantly, the significance of the paper is not just how much more memory it saves. It gives us a boundary. KV-cache compression is approaching its limit, and the remaining room is narrow. The next major change is unlikely to come from compression alone. It will require finding a different path.

コアイノベーション

TurboQuant がゲームチェンジャーに見える理由

TurboQuant は単なる圧縮テクニックではありません。情報理論的限界に近づきながら、データ非依存かつアクセラレータ向けに設計されたオンライン量子化フレームワークです。

従来手法 (例: PQ)

  • データセットごとの学習が必要
  • 正規化定数を多く保存する必要がある
  • インデックス作成が遅い
  • 精度低下が目立つ

TurboQuant

  • ランダム回転 + 極座標変換 (PolarQuant)
  • 1 ビット残差補正 (QJL) で正規化オーバーヘッドを除去
  • インデックス時間はほぼ 0
  • 報告ベンチマークで 32 ビット基準と一致
AISTATS 2026

PolarQuant

正規化オーバーヘッドを消す極座標変換の中核

arXiv: 2502.02617
AAAI 2025

QJL

1 ビットの不偏内積推定器

ACM DL
ICLR 2026

TurboQuant

ほぼ最適な歪みを実現する 2 段構成

arXiv: 2504.19874
技術背景

なぜ TurboQuant が必要なのか

ベクトル量子化の限界と KV キャッシュ圧力を短く整理します

1ベクトル量子化の古典的な問題

ベクトル量子化は高次元ベクトルを小さなコードへ写像しつつ歪みを最小化します。理論下限は明確ですが、従来法はそこからまだ遠いままです。

歪みの式

MSE: D_MSE = E[||x - x̂||²]
Inner product: D_prod = E[|⟨y,x⟩ - ⟨y,x̂⟩|²]

Theory

MSE lower bound: D_MSE ≥ 1/4^b
Inner-product lower bound: D_prod ≥ (||y||² / d) · 1/4^b

PQ のような従来法は、これらの下限よりまだかなり上にあります。

2LLM における KV キャッシュのボトルネック

デコーダ型 Transformer では、各トークンについて Key/Value を保存します。コンテキストが長くなるほど、このコストがシステム全体を支配します。

メモリ見積もり

memory ≈ 2 × L × d × 2 bytes (FP16)
128K コンテキスト + 7B モデル数十 GB
総メモリに占める KV キャッシュ80%+

TurboQuant が変える点

  • 学習もファインチューニングも不要
  • チャネルあたり 3.5 ビットで品質中立性
  • LongBench が FP32 と一致
  • エッジ機器での長文脈推論を現実的にする

3ベクトル検索への応用

FAISS のような ANN システムで、TurboQuant はインデックス作成コストをほぼゼロのままリコールを改善します。

高いリコール
GloVe で PQ と RabbiQ を上回る
インデックス時間 ≈ 0
大規模ベクトルストアに向く
コア原理

TurboQuant の 2 段アルゴリズム

TurboQuant = 主圧縮の PolarQuant + 残差補正の QJL

PolarQuant: 極座標変換

重要なのはブロックごとの正規化オーバーヘッドを消すことです。PolarQuant はランダム回転により、量子化しやすい集中分布へ座標を写します。

座標分布

f_X(x) = Γ(d/2) / (√π · Γ((d-1)/2))
× (1 - x²)^((d-3)/2)

where x ∈ [-1, 1]
1
d 次元ベクトルをペアにして半径と角度へ分解する
2
半径に対して再帰的に極座標変換を適用する
3
集中した角度成分だけを量子化する

主要な利点

  • ブロックごとの全精度定数が不要
    オーバーヘッドは 0 になります。
  • 4.2x を超えてもほぼ無損失
    従来ベースラインより強い挙動です。
  • 高次元でガウス的な座標分布
    Lloyd-Max のような最適スカラ量子化器をそのまま使えます。
実験結果

数字がそのまま主張になる

Gemma、Mistral、Llama-3.1-8B にまたがるベンチマーク

KV キャッシュ圧縮ベンチマーク

50.06
LongBench スコア
3.5 ビット = フルキャッシュ
100
Needle In A Haystack
4K から 104K まで完全
6x+
メモリ削減
コストを大幅に低減
8x
アテンション速度
H100 の 4 ビットモード
ベンチマークTurboQuant 3.5 ビットTurboQuant 2.5 ビットフルキャッシュ
LongBench50.0649.4450.06
Needle In A Haystack10099.8100
ZeroSCROLLS最高ほぼ最高ベースライン
RULER最高ほぼ最高ベースライン
L-Eval最高ほぼ最高ベースライン

ベクトル検索ベンチマーク (GloVe d=200)

1@k リコール

TurboQuant最高
PQ低い
RabbiQ中程度

インデックス時間

TurboQuant≈ 0
PQ (コードブック学習)長い
RabbiQ中程度

代替手法との比較

手法学習必要不偏圧縮率高速化
TurboQuant不要はい6x+8x
KIVIキャリブレーションいいえ4x4x
SnapKVファインチューニングいいえ2-4x2-4x
DuQuantキャリブレーション部分的4x4x
100K context memory projections
Predicted total VRAM before and after TurboQuant, plus the RTX 4090 count needed to hold each setup.

Assumes RTX 4090 nominal VRAM of 24GB, with practical allocation rounded up after framework overhead.

ModelWeightsPure model VRAMTotal VRAM beforeTotal VRAM after4090s before4090s afterChange
ChatGLM-4 (9B)BF1618 GB19.8 GB18.3 GB11Extra headroom on a single 4090.
ChatGLM-4 (9B)INT89 GB10.8 GB9.3 GB11Still single-card, with more buffer.
ChatGLM-4 (9B)INT45 GB6.8 GB5.3 GB11Very comfortable single-card fit.
Qwen-2.5 (32B)BF1664 GB69 GB64.8 GB33Savings help, but not enough to drop a GPU.
Qwen-2.5 (32B)INT832 GB37 GB32.8 GB22More margin on a 2x4090 node.
Qwen-2.5 (32B)INT418 GB23 GB18.8 GB21(-1)Pulled back under the single-4090 limit.
Llama-3.1 (70B)BF16140 GB150 GB141.7 GB76(-1)Drops one RTX 4090 at 100K context.
Llama-3.1 (70B)INT870 GB80 GB71.7 GB43(-1)Material hardware cost reduction.
Llama-3.1 (70B)INT438 GB48 GB39.7 GB32(-1)Brings 70B into a practical dual-4090 envelope.
Mixtral 8x22B (141B MoE)BF16282 GB288 GB283 GB1313MoE keeps KV share relatively small.
Mixtral 8x22B (141B MoE)INT8141 GB147 GB142 GB77Lower pressure, but same card class.
Mixtral 8x22B (141B MoE)INT475 GB81 GB76 GB44Useful slack without a node count change.
DeepSeek-R1 (671B MoE)FP8700 GB712 GB702 GB3130(-1)Saves one 4090 even at hyperscale.
DeepSeek-R1 (671B MoE)INT4350 GB362 GB352 GB1615(-1)Still too large for small nodes, but one card disappears.
導入ガイド

論文から本番へ

TurboQuant を実システムへ組み込む考え方

現在の状況

論文には理論と擬似コードがありますが、公式実装はまだ公開されていません。コミュニティでの統合作業はすでに始まっています。

  • llama.cpp Discussion #20969 で統合案が追跡されている
  • MLX では約 5x 圧縮と 99.5% の品質維持が報告されている
  • 2026 年 Q2 前後のオープンソース公開が広く期待されている

実装スケッチ

1

Precompute Lloyd-Max centroids

Do it once offline and reuse them.

# Python-like pseudocode
centroids = lloyd_max_quantizer(
    distribution="beta",
    bits=b
)
2

Generate a random rotation matrix

Use QR decomposition to build an orthogonal matrix.

# random rotation
G = np.random.randn(d, d)
Pi, _ = np.linalg.qr(G)
3

Build quant / dequant primitives

This is the core path for storage and recovery.

def quant(x, Pi, centroids):
    y = Pi @ x
    idx = find_nearest(y, centroids)
    return idx

def dequant(idx, Pi, centroids):
    y = centroids[idx]
    x = Pi.T @ y
    return x
4

Integrate inside attention

Store K/V in TurboQuant form and estimate inner products with QJL.

# Transformer attention
k_quant = turboquant_quant(k)
v_quant = turboquant_quant(v)
# use QJL during attention

デプロイの要点

ハードウェア

H100 と A100 が理想的です。論文の 8x 高速化は 4 ビットモードで報告されています。

FP

混合精度

KV キャッシュに TurboQuant、重みに INT4 を使うと全体圧縮を最大化できます。

エッジ機器

3 ビット KV キャッシュにより、モバイルで 32K+ コンテキストが現実味を帯びます。

実務上のリスクと対策

ランダム回転のオーバーヘッド

行列を事前生成して再利用すれば、オンライン負荷を抑えられます。

残差ノルムの保存

FP16 スカラー 1 つで足りるため、追加コストは小さいです。

推奨オープンソース経路

llama.cpp を fork → turboquant_quant カーネルを追加
展望

TurboQuant が AI スタックをどう変えるか

LLM 推論

百万トークン級コンテキストのコストが大きく下がり、次世代スタックの標準機能になり得ます。

ベクトルデータベース

リアルタイム索引とサブミリ秒検索がより実現しやすくなります。

エッジ AI

モバイルや組み込み環境での長文脈推論が現実に近づきます。

マルチモーダル埋め込み

同じ発想を画像や動画の埋め込み圧縮にも拡張できます。

理論拡張

外れ値処理と組み合わせれば、実用的な 2 ビット系にさらに近づけます。

コミュニティへの影響

vLLM や Hugging Face などのエコシステムが素早く追随する可能性があります。

想定タイムライン

Q2

2026 Q2

オープンソース実装とフレームワーク統合

Q4

2026 Q4

商用製品、まずはクラウド中心の可能性

27

2027

LLM 量子化標準として定着する可能性

注意: ランダムシード処理が悪いとわずかなバイアスが生じる可能性がありますが、論文では高次元では無視できるとされています。

FAQ

よくある質問

最初に確認されることの多い質問