Google Research · veröffentlicht im März 2026

TurboQuant
AI-Effizienz neu definieren

Ein neues Online-Verfahren zur Vektorquantisierung, das 3-Bit-KV-Cache-Kompression ohne Genauigkeitsverlust liefert, den Speicherbedarf um 6x senkt und Attention um bis zu 8x beschleunigt.

6x+
Speicherkompression
8x
Attention-Beschleunigung (H100)
3-bit
verlustfreie Kompression
Kerninnovation

Warum TurboQuant wie ein Kategorienwechsel wirkt

TurboQuant ist nicht nur ein weiterer Kompressionstrick. Es ist ein Online-Quantisierungsframework nahe an der informationstheoretischen Grenze und gleichzeitig datenunabhängig und accelerator-freundlich.

Klassische Methoden (z. B. PQ)

  • Require dataset-specific training
  • Store many full-precision normalization constants
  • Long indexing time
  • Visible accuracy loss

TurboQuant

  • Random rotation plus polar transform (PolarQuant)
  • 1-bit residual correction (QJL) removes normalization overhead
  • Near-zero indexing time
  • Matches the 32-bit baseline on reported benchmarks
AISTATS 2026

PolarQuant

Polar-transform core that eliminates normalization overhead

arXiv: 2502.02617
AAAI 2025

QJL

1-bit unbiased inner-product estimator

ACM DL
ICLR 2026

TurboQuant

Two-stage design with near-optimal distortion

arXiv: 2504.19874
Technischer Hintergrund

Warum TurboQuant relevant ist

Ein kurzer Blick auf Grenzen der Vektorquantisierung und den Druck durch KV-Cache

1Das klassische Problem der Vektorquantisierung

Vektorquantisierung komprimiert hochdimensionale Vektoren bei minimaler Verzerrung. Die theoretischen Untergrenzen sind klar, klassische Verfahren bleiben in der Praxis aber deutlich darüber.

Verzerrungsformeln

MSE: D_MSE = E[||x - x̂||²]
Inner product: D_prod = E[|⟨y,x⟩ - ⟨y,x̂⟩|²]

Theory

MSE lower bound: D_MSE ≥ 1/4^b
Inner-product lower bound: D_prod ≥ (||y||² / d) · 1/4^b

Klassische Ansätze wie PQ liegen noch spürbar über diesen Grenzen.

2Der KV-Cache-Flaschenhals in LLMs

In Decoder-Transformern entsteht pro Token ein Key/Value-Paar. Mit langen Kontextfenstern wird dieser Speicherbedarf schnell dominant.

Speicherschätzung

memory ≈ 2 × L × d × 2 bytes (FP16)
128K Kontext + 7B Modellzig GB
Anteil des KV-Caches am Gesamtspeicher80%+

Was TurboQuant verändert

  • Kein Training und kein Finetuning
  • 3,5 Bit pro Kanal für Qualitätsneutralität
  • LongBench auf FP32-Niveau
  • Macht Long-Context-Inferenz auf Edge-Geräten realistischer

3Anwendungen in der Vektorsuche

In ANN-Systemen wie FAISS verbessert TurboQuant den Recall bei nahezu null Indexierungsaufwand.

Höherer Recall
Besser als PQ und RabbiQ auf GloVe
Indexierungszeit ≈ 0
Geeignet für große Vektorspeicher
Core Principle

TurboQuant as a two-stage algorithm

TurboQuant = PolarQuant for main compression + QJL for residual correction

PolarQuant: polar-coordinate transform

The key idea is to remove per-block normalization overhead. PolarQuant rotates the vector randomly so coordinates follow a concentrated distribution that is easy to quantize.

Coordinate distribution

f_X(x) = Γ(d/2) / (√π · Γ((d-1)/2))
× (1 - x²)^((d-3)/2)

where x ∈ [-1, 1]
1
Group the d-dimensional vector into pairs to obtain radii and angles
2
Apply recursive polar transforms on the radii
3
Quantize only the angles, whose distribution is highly concentrated

Why it works

  • No per-block full-precision constants
    Overhead drops to zero.
  • Near-lossless beyond 4.2x compression
    Stronger than conventional baselines.
  • Gaussian-like coordinates in high dimension
    Supports optimal scalar quantizers such as Lloyd-Max.
Ergebnisse

Die Zahlen sind das Argument

Benchmarks auf Gemma, Mistral und Llama-3.1-8B

KV-Cache-Kompressionsbenchmarks

50.06
LongBench-Score
3,5 Bit = Full Cache
100
Needle In A Haystack
perfekt von 4K bis 104K
6x+
Speicherreduktion
starke Kostensenkung
8x
Attention-Geschwindigkeit
H100 im 4-Bit-Modus
BenchmarkTurboQuant 3,5 BitTurboQuant 2,5 BitFull Cache
LongBench50.0649.4450.06
Needle In A Haystack10099.8100
ZeroSCROLLSbestnahe bestBaseline
RULERbestnahe bestBaseline
L-Evalbestnahe bestBaseline

Vektorsuch-Benchmark (GloVe d=200)

1@k recall

TurboQuantbest
PQlower
RabbiQmiddle

Indexing time

TurboQuant≈ 0
PQ (codebook training)long
RabbiQmiddle

Vergleich mit Alternativen

MethodeTraining nötigUnverzerrtKompressionSpeedup
TurboQuantNeinJa6x+8x
KIVIKalibrierungNein4x4x
SnapKVFinetuningNein2-4x2-4x
DuQuantKalibrierungTeilweise4x4x
Einsatz

Vom Paper in die Produktion

Wie man TurboQuant in einen realen Stack integriert

Aktueller Stand

Das Paper liefert Theorie und Pseudocode, aber noch keine offizielle Open-Source-Implementierung. Die Community arbeitet bereits an Integrationen.

  • llama.cpp Discussion #20969 is tracking integration ideas
  • Experiments in MLX report around 5x compression with 99.5% quality retention
  • Open-source code is widely expected around Q2 2026

Implementierungsskizze

1

Precompute Lloyd-Max centroids

Do it once offline and reuse them.

# Python-like pseudocode
centroids = lloyd_max_quantizer(
    distribution="beta",
    bits=b
)
2

Generate a random rotation matrix

Use QR decomposition to build an orthogonal matrix.

# random rotation
G = np.random.randn(d, d)
Pi, _ = np.linalg.qr(G)
3

Build quant / dequant primitives

This is the core path for storage and recovery.

def quant(x, Pi, centroids):
    y = Pi @ x
    idx = find_nearest(y, centroids)
    return idx

def dequant(idx, Pi, centroids):
    y = centroids[idx]
    x = Pi.T @ y
    return x
4

Integrate inside attention

Store K/V in TurboQuant form and estimate inner products with QJL.

# Transformer attention
k_quant = turboquant_quant(k)
v_quant = turboquant_quant(v)
# use QJL during attention

Deployment-Hinweise

Hardware

H100 and A100 are ideal. 4-bit mode is where the paper reports 8x speedups.

FP

Mixed precision

Use TurboQuant for KV cache and INT4 for weights to maximize total compression.

Edge devices

3-bit KV cache can make 32K+ context feasible on phones with software-only implementations.

Praktische Risiken und Gegenmaßnahmen

Random rotation overhead

Pre-generate and reuse the matrices instead of rebuilding them online.

Residual norm storage

One FP16 scalar is small enough to keep the overhead negligible.

Empfohlener Open-Source-Pfad

llama.cpp forken → turboquant_quant-Kernel ergänzen
Ausblick

Wie TurboQuant den AI-Stack verschieben könnte

LLM inference

Million-token contexts become materially cheaper, with a path to native support in future model stacks.

Vector databases

Real-time indexing and sub-millisecond search become easier to deliver.

Edge AI

Long-context inference on mobile and embedded devices becomes more realistic.

Multimodal embeddings

The same ideas can extend to image and video embedding compression.

Theory extensions

Combining with outlier-handling methods could push the field toward practical 2-bit systems.

Community impact

Expect rapid follow-through from ecosystems such as vLLM and Hugging Face.

Erwartete Timeline

Q2

2026 Q2

Open-source code and framework integrations

Q4

2026 Q4

Commercial products, likely cloud-first

27

2027

Potential normalization as an LLM quantization standard

Risikohinweis: Schlechte Handhabung des Zufalls-Seeds kann kleine Bias-Effekte erzeugen, die laut Paper in hoher Dimension aber vernachlässigbar sind.

FAQ

Häufige Fragen

Die wichtigsten Einstiegsfragen für Leser und Engineers