Google Research · 2026年3月公開

TurboQuant
AI 効率を再定義する

精度劣化なしの 3 ビット KV キャッシュ圧縮を実現し、メモリ使用量を 6 分の 1 に、アテンション速度を最大 8 倍にする新しいオンラインベクトル量子化アルゴリズムです。

6x+
メモリ圧縮
8x
アテンション高速化 (H100)
3-bit
無損失圧縮
コアイノベーション

TurboQuant がゲームチェンジャーに見える理由

TurboQuant は単なる圧縮テクニックではありません。情報理論的限界に近づきながら、データ非依存かつアクセラレータ向けに設計されたオンライン量子化フレームワークです。

従来手法 (例: PQ)

  • データセットごとの学習が必要
  • 正規化定数を多く保存する必要がある
  • インデックス作成が遅い
  • 精度低下が目立つ

TurboQuant

  • ランダム回転 + 極座標変換 (PolarQuant)
  • 1 ビット残差補正 (QJL) で正規化オーバーヘッドを除去
  • インデックス時間はほぼ 0
  • 報告ベンチマークで 32 ビット基準と一致
AISTATS 2026

PolarQuant

正規化オーバーヘッドを消す極座標変換の中核

arXiv: 2502.02617
AAAI 2025

QJL

1 ビットの不偏内積推定器

ACM DL
ICLR 2026

TurboQuant

ほぼ最適な歪みを実現する 2 段構成

arXiv: 2504.19874
技術背景

なぜ TurboQuant が必要なのか

ベクトル量子化の限界と KV キャッシュ圧力を短く整理します

1ベクトル量子化の古典的な問題

ベクトル量子化は高次元ベクトルを小さなコードへ写像しつつ歪みを最小化します。理論下限は明確ですが、従来法はそこからまだ遠いままです。

歪みの式

MSE: D_MSE = E[||x - x̂||²]
Inner product: D_prod = E[|⟨y,x⟩ - ⟨y,x̂⟩|²]

Theory

MSE lower bound: D_MSE ≥ 1/4^b
Inner-product lower bound: D_prod ≥ (||y||² / d) · 1/4^b

PQ のような従来法は、これらの下限よりまだかなり上にあります。

2LLM における KV キャッシュのボトルネック

デコーダ型 Transformer では、各トークンについて Key/Value を保存します。コンテキストが長くなるほど、このコストがシステム全体を支配します。

メモリ見積もり

memory ≈ 2 × L × d × 2 bytes (FP16)
128K コンテキスト + 7B モデル数十 GB
総メモリに占める KV キャッシュ80%+

TurboQuant が変える点

  • 学習もファインチューニングも不要
  • チャネルあたり 3.5 ビットで品質中立性
  • LongBench が FP32 と一致
  • エッジ機器での長文脈推論を現実的にする

3ベクトル検索への応用

FAISS のような ANN システムで、TurboQuant はインデックス作成コストをほぼゼロのままリコールを改善します。

高いリコール
GloVe で PQ と RabbiQ を上回る
インデックス時間 ≈ 0
大規模ベクトルストアに向く
コア原理

TurboQuant の 2 段アルゴリズム

TurboQuant = 主圧縮の PolarQuant + 残差補正の QJL

PolarQuant: 極座標変換

重要なのはブロックごとの正規化オーバーヘッドを消すことです。PolarQuant はランダム回転により、量子化しやすい集中分布へ座標を写します。

座標分布

f_X(x) = Γ(d/2) / (√π · Γ((d-1)/2))
× (1 - x²)^((d-3)/2)

where x ∈ [-1, 1]
1
d 次元ベクトルをペアにして半径と角度へ分解する
2
半径に対して再帰的に極座標変換を適用する
3
集中した角度成分だけを量子化する

主要な利点

  • ブロックごとの全精度定数が不要
    オーバーヘッドは 0 になります。
  • 4.2x を超えてもほぼ無損失
    従来ベースラインより強い挙動です。
  • 高次元でガウス的な座標分布
    Lloyd-Max のような最適スカラ量子化器をそのまま使えます。
実験結果

数字がそのまま主張になる

Gemma、Mistral、Llama-3.1-8B にまたがるベンチマーク

KV キャッシュ圧縮ベンチマーク

50.06
LongBench スコア
3.5 ビット = フルキャッシュ
100
Needle In A Haystack
4K から 104K まで完全
6x+
メモリ削減
コストを大幅に低減
8x
アテンション速度
H100 の 4 ビットモード
ベンチマークTurboQuant 3.5 ビットTurboQuant 2.5 ビットフルキャッシュ
LongBench50.0649.4450.06
Needle In A Haystack10099.8100
ZeroSCROLLS最高ほぼ最高ベースライン
RULER最高ほぼ最高ベースライン
L-Eval最高ほぼ最高ベースライン

ベクトル検索ベンチマーク (GloVe d=200)

1@k リコール

TurboQuant最高
PQ低い
RabbiQ中程度

インデックス時間

TurboQuant≈ 0
PQ (コードブック学習)長い
RabbiQ中程度

代替手法との比較

手法学習必要不偏圧縮率高速化
TurboQuant不要はい6x+8x
KIVIキャリブレーションいいえ4x4x
SnapKVファインチューニングいいえ2-4x2-4x
DuQuantキャリブレーション部分的4x4x
導入ガイド

論文から本番へ

TurboQuant を実システムへ組み込む考え方

現在の状況

論文には理論と擬似コードがありますが、公式実装はまだ公開されていません。コミュニティでの統合作業はすでに始まっています。

  • llama.cpp Discussion #20969 で統合案が追跡されている
  • MLX では約 5x 圧縮と 99.5% の品質維持が報告されている
  • 2026 年 Q2 前後のオープンソース公開が広く期待されている

実装スケッチ

1

Precompute Lloyd-Max centroids

Do it once offline and reuse them.

# Python-like pseudocode
centroids = lloyd_max_quantizer(
    distribution="beta",
    bits=b
)
2

Generate a random rotation matrix

Use QR decomposition to build an orthogonal matrix.

# random rotation
G = np.random.randn(d, d)
Pi, _ = np.linalg.qr(G)
3

Build quant / dequant primitives

This is the core path for storage and recovery.

def quant(x, Pi, centroids):
    y = Pi @ x
    idx = find_nearest(y, centroids)
    return idx

def dequant(idx, Pi, centroids):
    y = centroids[idx]
    x = Pi.T @ y
    return x
4

Integrate inside attention

Store K/V in TurboQuant form and estimate inner products with QJL.

# Transformer attention
k_quant = turboquant_quant(k)
v_quant = turboquant_quant(v)
# use QJL during attention

デプロイの要点

ハードウェア

H100 と A100 が理想的です。論文の 8x 高速化は 4 ビットモードで報告されています。

FP

混合精度

KV キャッシュに TurboQuant、重みに INT4 を使うと全体圧縮を最大化できます。

エッジ機器

3 ビット KV キャッシュにより、モバイルで 32K+ コンテキストが現実味を帯びます。

実務上のリスクと対策

ランダム回転のオーバーヘッド

行列を事前生成して再利用すれば、オンライン負荷を抑えられます。

残差ノルムの保存

FP16 スカラー 1 つで足りるため、追加コストは小さいです。

推奨オープンソース経路

llama.cpp を fork → turboquant_quant カーネルを追加
展望

TurboQuant が AI スタックをどう変えるか

LLM 推論

百万トークン級コンテキストのコストが大きく下がり、次世代スタックの標準機能になり得ます。

ベクトルデータベース

リアルタイム索引とサブミリ秒検索がより実現しやすくなります。

エッジ AI

モバイルや組み込み環境での長文脈推論が現実に近づきます。

マルチモーダル埋め込み

同じ発想を画像や動画の埋め込み圧縮にも拡張できます。

理論拡張

外れ値処理と組み合わせれば、実用的な 2 ビット系にさらに近づけます。

コミュニティへの影響

vLLM や Hugging Face などのエコシステムが素早く追随する可能性があります。

想定タイムライン

Q2

2026 Q2

オープンソース実装とフレームワーク統合

Q4

2026 Q4

商用製品、まずはクラウド中心の可能性

27

2027

LLM 量子化標準として定着する可能性

注意: ランダムシード処理が悪いとわずかなバイアスが生じる可能性がありますが、論文では高次元では無視できるとされています。

FAQ

よくある質問

最初に確認されることの多い質問