Tan Kim

LPU (Language Processing Unit)

언어 처리 장치. Groq이 설계한 LLM 추론 전용 칩으로, 기존 GPU 대비 압도적인 토큰 생성 속도를 목표로 한다.

역할

  • 대형 언어 모델(LLM) 추론 가속
  • 저지연 고속 토큰 생성
  • 실시간 AI 응답이 필요한 서비스

핵심 특징

LPU의 핵심 문제 의식은 LLM 추론이 메모리 대역폭 병목(Memory Bandwidth Bound) 이라는 점이다.

GPU는 연산 능력(FLOPS)은 뛰어나지만, LLM 추론 시 모델 가중치를 매 토큰마다 메모리에서 불러오는 과정에서 대역폭이 병목이 된다.

GPU 추론:  VRAM ←→ 연산 코어 (메모리 이동이 병목)
LPU 추론:  TS-SRAM (온칩 메모리) 직접 활용 → 메모리 이동 최소화

GPU와의 비교

항목 GPU LPU
설계 목적 범용 병렬 연산 LLM 추론 특화
메모리 구조 VRAM (외부 HBM) 대용량 온칩 SRAM
토큰 생성 속도 수십~수백 tokens/s 수백~수천 tokens/s
유연성 높음 LLM 추론에 특화
학습(Training) 지원 가능 불가 (추론 전용)
배치 처리 효율 높음 낮음 (단일 요청에 최적)

Groq의 TSP 아키텍처

Groq은 LPU를 TSP (Tensor Streaming Processor) 아키텍처로 구현한다.

  • 컴파일러 중심 설계: 런타임 스케줄링 없이 컴파일 시점에 모든 연산 순서를 고정
  • 결정론적 실행: 매 실행마다 동일한 타이밍 → 지연 시간 예측 가능
  • 대용량 온칩 SRAM: 외부 메모리 접근을 최소화하여 대역폭 병목 해소

성능

Groq 공개 벤치마크 기준 (모델/환경에 따라 다름):

  • Llama 3 70B 기준 800 tokens/s (GPU 대비 510배 빠른 추론 속도)
  • 응답 첫 토큰 지연(TTFT)도 GPU 대비 낮음

다른 AI 칩과의 비교

제조사 특화 영역 학습 가능
GPU (H100) NVIDIA 범용 (학습+추론) O
TPU Google 대규모 학습+추론 O
NPU 각 제조사 온디바이스 추론 X
LPU Groq LLM 추론 속도 X

현재 활용 방법

Groq Cloud API를 통해 사용:

from groq import Groq
 
client = Groq()
response = client.chat.completions.create(
    model="llama-3.3-70b-versatile",
    messages=[{"role": "user", "content": "Hello"}]
)

자체 칩 구매 방식은 현재 제한적이며, 주로 클라우드 API 형태로 제공.

개발자 관점에서의 고려사항

  • 저지연이 핵심인 서비스에 적합: 실시간 챗봇, 스트리밍 응답, 음성 AI
  • GPU 대비 배치 처리 효율은 낮음 → 동시 다수 요청보다 단일 빠른 응답에 최적
  • 학습은 GPU/TPU에서 하고, 추론 서빙만 LPU로 분리하는 아키텍처 고려 가능
  • Groq API는 OpenAI 호환 인터페이스 제공 → 기존 코드에서 엔드포인트만 변경으로 사용 가능