TurboQuant
Redefinindo a eficiência em IA
Um novo algoritmo online de quantização vetorial que entrega compressão de cache KV em 3 bits sem perda de precisão, reduz a memória em 6x e acelera a atenção em até 8x.
Por que o TurboQuant parece mudar a categoria
TurboQuant não é apenas mais um truque de compressão. É um framework de quantização online próximo do limite teórico, ao mesmo tempo data-oblivious e amigável para aceleradores.
Métodos tradicionais (por exemplo, PQ)
- Require dataset-specific training
- Store many full-precision normalization constants
- Long indexing time
- Visible accuracy loss
TurboQuant
- Random rotation plus polar transform (PolarQuant)
- 1-bit residual correction (QJL) removes normalization overhead
- Near-zero indexing time
- Matches the 32-bit baseline on reported benchmarks
PolarQuant
Polar-transform core that eliminates normalization overhead
arXiv: 2502.02617 →Por que o TurboQuant importa
Um resumo rápido dos limites da quantização vetorial e da pressão do cache KV
1O problema clássico da quantização vetorial
Quantização vetorial comprime vetores de alta dimensão minimizando a distorção. Os limites teóricos são claros, mas os métodos tradicionais ainda ficam longe deles.
Fórmulas de distorção
Theory
Abordagens clássicas como PQ ainda ficam visivelmente acima desses limites.
2O gargalo do cache KV em LLMs
Em transformers decodificadores, cada token adiciona um par key/value. Com contextos longos, esse custo de memória passa a dominar o sistema.
Estimativa de memória
O que o TurboQuant muda
- ✓ Sem treinamento e sem finetuning
- ✓ 3,5 bits por canal para neutralidade de qualidade
- ✓ LongBench no nível do FP32
- ✓ Torna inferência de longo contexto mais viável em edge devices
3Aplicações em busca vetorial
Em sistemas ANN como FAISS, o TurboQuant melhora o recall mantendo o custo de indexação próximo de zero.
TurboQuant as a two-stage algorithm
TurboQuant = PolarQuant for main compression + QJL for residual correction
PolarQuant: polar-coordinate transform
The key idea is to remove per-block normalization overhead. PolarQuant rotates the vector randomly so coordinates follow a concentrated distribution that is easy to quantize.
Coordinate distribution
f_X(x) = Γ(d/2) / (√π · Γ((d-1)/2)) × (1 - x²)^((d-3)/2) where x ∈ [-1, 1]
Why it works
- No per-block full-precision constantsOverhead drops to zero.
- Near-lossless beyond 4.2x compressionStronger than conventional baselines.
- Gaussian-like coordinates in high dimensionSupports optimal scalar quantizers such as Lloyd-Max.
Os números sustentam o argumento
Benchmarks em Gemma, Mistral e Llama-3.1-8B
Benchmarks de compressão do cache KV
| Benchmark | TurboQuant 3,5 bits | TurboQuant 2,5 bits | Cache completo |
|---|---|---|---|
| LongBench | 50.06 | 49.44 | 50.06 |
| Needle In A Haystack | 100 | 99.8 | 100 |
| ZeroSCROLLS | melhor | quase melhor | baseline |
| RULER | melhor | quase melhor | baseline |
| L-Eval | melhor | quase melhor | baseline |
Benchmark de busca vetorial (GloVe d=200)
1@k recall
Indexing time
Comparação com alternativas
| Método | Precisa de treino | Sem viés | Compressão | Aceleração |
|---|---|---|---|---|
| TurboQuant | Não | Sim | 6x+ | 8x |
| KIVI | Calibração | Não | 4x | 4x |
| SnapKV | Finetuning | Não | 2-4x | 2-4x |
| DuQuant | Calibração | Parcial | 4x | 4x |
Do paper à produção
Como integrar TurboQuant em uma stack real
Estado atual
O artigo traz a teoria e o pseudocódigo, mas ainda não há implementação open source oficial. O trabalho de integração na comunidade já começou.
- •llama.cpp Discussion #20969 is tracking integration ideas
- •Experiments in MLX report around 5x compression with 99.5% quality retention
- •Open-source code is widely expected around Q2 2026
Esboço de implementação
Precompute Lloyd-Max centroids
Do it once offline and reuse them.
# Python-like pseudocode
centroids = lloyd_max_quantizer(
distribution="beta",
bits=b
)Generate a random rotation matrix
Use QR decomposition to build an orthogonal matrix.
# random rotation G = np.random.randn(d, d) Pi, _ = np.linalg.qr(G)
Build quant / dequant primitives
This is the core path for storage and recovery.
def quant(x, Pi, centroids):
y = Pi @ x
idx = find_nearest(y, centroids)
return idx
def dequant(idx, Pi, centroids):
y = centroids[idx]
x = Pi.T @ y
return xIntegrate inside attention
Store K/V in TurboQuant form and estimate inner products with QJL.
# Transformer attention k_quant = turboquant_quant(k) v_quant = turboquant_quant(v) # use QJL during attention
Notas de implantação
Hardware
H100 and A100 are ideal. 4-bit mode is where the paper reports 8x speedups.
Mixed precision
Use TurboQuant for KV cache and INT4 for weights to maximize total compression.
Edge devices
3-bit KV cache can make 32K+ context feasible on phones with software-only implementations.
Riscos práticos e mitigação
Random rotation overhead
Pre-generate and reuse the matrices instead of rebuilding them online.
Residual norm storage
One FP16 scalar is small enough to keep the overhead negligible.
Como o TurboQuant pode deslocar a stack de IA
LLM inference
Million-token contexts become materially cheaper, with a path to native support in future model stacks.
Vector databases
Real-time indexing and sub-millisecond search become easier to deliver.
Edge AI
Long-context inference on mobile and embedded devices becomes more realistic.
Multimodal embeddings
The same ideas can extend to image and video embedding compression.
Theory extensions
Combining with outlier-handling methods could push the field toward practical 2-bit systems.
Community impact
Expect rapid follow-through from ecosystems such as vLLM and Hugging Face.
Linha do tempo esperada
2026 Q2
Open-source code and framework integrations
2026 Q4
Commercial products, likely cloud-first
2027
Potential normalization as an LLM quantization standard
Nota de risco: tratamento ruim da semente aleatória pode introduzir pequeno viés, mas o artigo argumenta que o efeito é desprezível em alta dimensão.
Perguntas frequentes
As primeiras perguntas que engenheiros e leitores costumam fazer
Referências e links
Blog oficial
Anúncio do Google Research
Artigo TurboQuant
PDF principal do ICLR 2026
Artigo PolarQuant
Artigo AISTATS 2026 sobre transformação polar
Artigo QJL
Transformação JL quantizada, AAAI 2025
Observação: o projeto GitHub cg94301/turboquant não tem relação com este algoritmo. Trata-se de um projeto de estratégia de trading.