Google Research · 2026년 3월 공개

TurboQuant
AI 효율의 기준을 다시 쓰다

정확도 손실 없는 3비트 KV 캐시 압축을 구현해 메모리를 6배 줄이고, 어텐션 속도를 최대 8배 높이는 새로운 온라인 벡터 양자화 알고리즘입니다.

6x+
메모리 압축
8x
어텐션 가속 (H100)
3-bit
무손실 압축
핵심 혁신

TurboQuant가 판을 바꾸는 결과로 보이는 이유

TurboQuant는 단순한 압축 기법이 아니라, 정보이론적 한계에 가까우면서도 데이터 비의존적이고 가속기 친화적인 온라인 양자화 프레임워크입니다.

기존 방법 (예: PQ)

  • 데이터셋별 학습 필요
  • 정규화 상수를 많이 저장해야 함
  • 인덱싱 시간이 길다
  • 정확도 손실이 눈에 띈다

TurboQuant

  • 무작위 회전 + 극좌표 변환 (PolarQuant)
  • 1비트 잔차 보정 (QJL)으로 정규화 오버헤드 제거
  • 거의 0에 가까운 인덱싱 시간
  • 보고된 벤치마크에서 32비트 기준선과 동일
AISTATS 2026

PolarQuant

정규화 오버헤드를 없애는 극좌표 변환 핵심

arXiv: 2502.02617
AAAI 2025

QJL

1비트 비편향 내적 추정기

ACM DL
ICLR 2026

TurboQuant

거의 최적 왜곡을 달성하는 2단계 설계

arXiv: 2504.19874
기술 배경

왜 TurboQuant가 필요한가

벡터 양자화 한계와 KV 캐시 병목을 빠르게 정리합니다.

1벡터 양자화의 고전적 문제

벡터 양자화는 고차원 벡터를 작은 코드로 바꾸면서 왜곡을 최소화하는 문제입니다. 이론적 하한은 분명하지만, 기존 방식은 실제로 거기까지 가지 못합니다.

왜곡 공식

MSE: D_MSE = E[||x - x̂||²]
Inner product: D_prod = E[|⟨y,x⟩ - ⟨y,x̂⟩|²]

Theory

MSE lower bound: D_MSE ≥ 1/4^b
Inner-product lower bound: D_prod ≥ (||y||² / d) · 1/4^b

PQ 같은 전통적 방법은 이 하한보다 여전히 상당히 높습니다.

2LLM의 KV 캐시 병목

디코더 기반 트랜스포머에서는 토큰마다 Key/Value를 저장해야 하므로, 컨텍스트가 길어질수록 메모리 비용이 빠르게 지배적이 됩니다.

메모리 추정

memory ≈ 2 × L × d × 2 bytes (FP16)
128K 컨텍스트 + 7B 모델수십 GB
전체 메모리 중 KV 캐시 비중80%+

TurboQuant가 바꾸는 점

  • 학습과 미세조정이 필요 없음
  • 채널당 3.5비트로 품질 중립성 달성
  • LongBench가 FP32와 동일
  • 엣지 기기에서도 장문맥 추론 가능성 확대

3벡터 검색 적용

FAISS 같은 ANN 시스템에서 TurboQuant는 인덱싱 오버헤드를 거의 0으로 유지하면서 더 높은 리콜을 제공합니다.

더 높은 리콜
GloVe에서 PQ와 RabbiQ보다 우수
인덱싱 시간 ≈ 0
대규모 벡터 저장소에 적합
핵심 원리

TurboQuant의 2단계 알고리즘

TurboQuant = 주 압축을 담당하는 PolarQuant + 잔차 보정을 담당하는 QJL

PolarQuant: 극좌표 변환

핵심은 블록별 정규화 오버헤드를 제거하는 것입니다. PolarQuant는 무작위 회전으로 좌표를 더 양자화하기 쉬운 집중 분포로 바꿉니다.

좌표 분포

f_X(x) = Γ(d/2) / (√π · Γ((d-1)/2))
× (1 - x²)^((d-3)/2)

where x ∈ [-1, 1]
1
d차원 벡터를 쌍으로 묶어 반지름과 각도를 얻는다
2
반지름에 재귀적 극좌표 변환을 적용한다
3
분포가 집중된 각도만 양자화한다

핵심 장점

  • 블록별 전정밀 상수 제거
    오버헤드가 0이 됩니다.
  • 4.2배 이상 압축에서도 거의 무손실
    기존 기준선보다 강합니다.
  • 고차원에서 가우시안 유사 좌표
    Lloyd-Max 같은 최적 스칼라 양자화기를 바로 적용할 수 있습니다.
실험 결과

숫자가 주장이다

Gemma, Mistral, Llama-3.1-8B 전반의 벤치마크

KV 캐시 압축 벤치마크

50.06
LongBench 점수
3.5비트 = 전체 캐시
100
Needle In A Haystack
4K~104K 구간 완벽
6x+
메모리 절감
비용 크게 감소
8x
어텐션 속도
H100 4비트 모드
벤치마크TurboQuant 3.5비트TurboQuant 2.5비트전체 캐시
LongBench50.0649.4450.06
Needle In A Haystack10099.8100
ZeroSCROLLS최상거의 최상기준선
RULER최상거의 최상기준선
L-Eval최상거의 최상기준선

벡터 검색 벤치마크 (GloVe d=200)

1@k 리콜

TurboQuant최상
PQ낮음
RabbiQ중간

인덱싱 시간

TurboQuant≈ 0
PQ (코드북 학습)
RabbiQ중간

대안 대비 비교

방법학습 필요비편향압축률속도 향상
TurboQuant아니오6x+8x
KIVI보정아니오4x4x
SnapKV미세조정아니오2-4x2-4x
DuQuant보정부분적4x4x
활용 가이드

논문에서 제품까지

실제 스택에 TurboQuant를 넣는 방법

현재 상태

논문은 이론과 의사코드를 제공하지만 공식 오픈소스 구현은 아직 없습니다. 다만 커뮤니티 통합 작업은 이미 시작됐습니다.

  • llama.cpp Discussion #20969에서 통합 아이디어를 추적 중
  • MLX 실험은 약 5배 압축과 99.5% 품질 보존을 보고
  • 2026년 2분기 전후로 오픈소스 공개가 널리 예상됨

구현 스케치

1

Precompute Lloyd-Max centroids

Do it once offline and reuse them.

# Python-like pseudocode
centroids = lloyd_max_quantizer(
    distribution="beta",
    bits=b
)
2

Generate a random rotation matrix

Use QR decomposition to build an orthogonal matrix.

# random rotation
G = np.random.randn(d, d)
Pi, _ = np.linalg.qr(G)
3

Build quant / dequant primitives

This is the core path for storage and recovery.

def quant(x, Pi, centroids):
    y = Pi @ x
    idx = find_nearest(y, centroids)
    return idx

def dequant(idx, Pi, centroids):
    y = centroids[idx]
    x = Pi.T @ y
    return x
4

Integrate inside attention

Store K/V in TurboQuant form and estimate inner products with QJL.

# Transformer attention
k_quant = turboquant_quant(k)
v_quant = turboquant_quant(v)
# use QJL during attention

배포 메모

하드웨어

H100과 A100이 이상적입니다. 논문의 8배 가속은 4비트 모드 기준입니다.

FP

혼합 정밀도

KV 캐시는 TurboQuant, 가중치는 INT4를 사용해 전체 압축을 극대화합니다.

엣지 기기

3비트 KV 캐시는 휴대폰에서도 32K+ 문맥을 현실화할 수 있습니다.

실무 리스크와 완화책

무작위 회전 오버헤드

행렬을 미리 생성해 재사용하면 온라인 비용을 줄일 수 있습니다.

잔차 norm 저장

FP16 스칼라 하나면 충분해서 오버헤드는 매우 작습니다.

권장 오픈소스 경로

fork llama.cpp → turboquant_quant 커널 추가
전망

TurboQuant가 AI 스택을 바꿀 수 있는 방식

LLM 추론

백만 토큰 문맥 비용이 크게 낮아지고, 차세대 모델 스택의 기본 기능이 될 수 있습니다.

벡터 데이터베이스

실시간 인덱싱과 서브밀리초 검색이 더 쉬워집니다.

엣지 AI

모바일과 임베디드 환경의 장문맥 추론이 현실에 가까워집니다.

멀티모달 임베딩

같은 아이디어를 이미지와 비디오 임베딩 압축으로 확장할 수 있습니다.

이론 확장

아웃라이어 처리와 결합하면 실용적 2비트 시스템으로 더 다가갈 수 있습니다.

커뮤니티 영향

vLLM과 Hugging Face 같은 생태계가 빠르게 따라올 가능성이 높습니다.

예상 일정

Q2

2026 Q2

오픈소스 코드와 프레임워크 통합

Q4

2026 Q4

상용 제품, 아마도 클라우드 우선

27

2027

LLM 양자화 표준으로 자리잡을 가능성

리스크 노트: 랜덤 시드를 잘못 다루면 작은 편향이 생길 수 있지만, 논문은 고차원에서 영향이 미미하다고 봅니다.

FAQ

자주 묻는 질문

엔지니어가 먼저 묻는 핵심 질문