LPU (Language Processing Unit)
언어 처리 장치. Groq이 설계한 LLM 추론 전용 칩으로, 기존 GPU 대비 압도적인 토큰 생성 속도를 목표로 한다.
역할
- 대형 언어 모델(LLM) 추론 가속
- 저지연 고속 토큰 생성
- 실시간 AI 응답이 필요한 서비스
핵심 특징
LPU의 핵심 문제 의식은 LLM 추론이 메모리 대역폭 병목(Memory Bandwidth Bound) 이라는 점이다.
GPU는 연산 능력(FLOPS)은 뛰어나지만, LLM 추론 시 모델 가중치를 매 토큰마다 메모리에서 불러오는 과정에서 대역폭이 병목이 된다.
GPU 추론: VRAM ←→ 연산 코어 (메모리 이동이 병목)
LPU 추론: TS-SRAM (온칩 메모리) 직접 활용 → 메모리 이동 최소화
GPU와의 비교
| 항목 | GPU | LPU |
|---|---|---|
| 설계 목적 | 범용 병렬 연산 | LLM 추론 특화 |
| 메모리 구조 | VRAM (외부 HBM) | 대용량 온칩 SRAM |
| 토큰 생성 속도 | 수십~수백 tokens/s | 수백~수천 tokens/s |
| 유연성 | 높음 | LLM 추론에 특화 |
| 학습(Training) 지원 | 가능 | 불가 (추론 전용) |
| 배치 처리 효율 | 높음 | 낮음 (단일 요청에 최적) |
Groq의 TSP 아키텍처
Groq은 LPU를 TSP (Tensor Streaming Processor) 아키텍처로 구현한다.
- 컴파일러 중심 설계: 런타임 스케줄링 없이 컴파일 시점에 모든 연산 순서를 고정
- 결정론적 실행: 매 실행마다 동일한 타이밍 → 지연 시간 예측 가능
- 대용량 온칩 SRAM: 외부 메모리 접근을 최소화하여 대역폭 병목 해소
성능
Groq 공개 벤치마크 기준 (모델/환경에 따라 다름):
- Llama 3 70B 기준
800 tokens/s (GPU 대비 510배 빠른 추론 속도) - 응답 첫 토큰 지연(TTFT)도 GPU 대비 낮음
다른 AI 칩과의 비교
| 칩 | 제조사 | 특화 영역 | 학습 가능 |
|---|---|---|---|
| GPU (H100) | NVIDIA | 범용 (학습+추론) | O |
| TPU | 대규모 학습+추론 | O | |
| NPU | 각 제조사 | 온디바이스 추론 | X |
| LPU | Groq | LLM 추론 속도 | X |
현재 활용 방법
Groq Cloud API를 통해 사용:
from groq import Groq
client = Groq()
response = client.chat.completions.create(
model="llama-3.3-70b-versatile",
messages=[{"role": "user", "content": "Hello"}]
)자체 칩 구매 방식은 현재 제한적이며, 주로 클라우드 API 형태로 제공.
개발자 관점에서의 고려사항
- 저지연이 핵심인 서비스에 적합: 실시간 챗봇, 스트리밍 응답, 음성 AI
- GPU 대비 배치 처리 효율은 낮음 → 동시 다수 요청보다 단일 빠른 응답에 최적
- 학습은 GPU/TPU에서 하고, 추론 서빙만 LPU로 분리하는 아키텍처 고려 가능
- Groq API는 OpenAI 호환 인터페이스 제공 → 기존 코드에서 엔드포인트만 변경으로 사용 가능