LPU (Language Processing Unit)

언어 처리 장치. Groq이 설계한 LLM 추론 전용 칩으로, 기존 GPU 대비 압도적인 토큰 생성 속도를 목표로 한다.

역할

대형 언어 모델(LLM) 추론 가속
저지연 고속 토큰 생성
실시간 AI 응답이 필요한 서비스

핵심 특징

LPU의 핵심 문제 의식은 LLM 추론이 메모리 대역폭 병목(Memory Bandwidth Bound) 이라는 점이다.

GPU는 연산 능력(FLOPS)은 뛰어나지만, LLM 추론 시 모델 가중치를 매 토큰마다 메모리에서 불러오는 과정에서 대역폭이 병목이 된다.

GPU 추론:  VRAM ←→ 연산 코어 (메모리 이동이 병목)
LPU 추론:  TS-SRAM (온칩 메모리) 직접 활용 → 메모리 이동 최소화

GPU와의 비교

항목	GPU	LPU
설계 목적	범용 병렬 연산	LLM 추론 특화
메모리 구조	VRAM (외부 HBM)	대용량 온칩 SRAM
토큰 생성 속도	수십~수백 tokens/s	수백~수천 tokens/s
유연성	높음	LLM 추론에 특화
학습(Training) 지원	가능	불가 (추론 전용)
배치 처리 효율	높음	낮음 (단일 요청에 최적)

Groq의 TSP 아키텍처

Groq은 LPU를 TSP (Tensor Streaming Processor) 아키텍처로 구현한다.

컴파일러 중심 설계: 런타임 스케줄링 없이 컴파일 시점에 모든 연산 순서를 고정
결정론적 실행: 매 실행마다 동일한 타이밍 → 지연 시간 예측 가능
대용량 온칩 SRAM: 외부 메모리 접근을 최소화하여 대역폭 병목 해소

성능

Groq 공개 벤치마크 기준 (모델/환경에 따라 다름):

Llama 3 70B 기준 ~~800 tokens/s (GPU 대비 5~~10배 빠른 추론 속도)
응답 첫 토큰 지연(TTFT)도 GPU 대비 낮음

다른 AI 칩과의 비교

칩	제조사	특화 영역	학습 가능
GPU (H100)	NVIDIA	범용 (학습+추론)	O
TPU	Google	대규모 학습+추론	O
NPU	각 제조사	온디바이스 추론	X
LPU	Groq	LLM 추론 속도	X

현재 활용 방법

Groq Cloud API를 통해 사용:

from groq import Groq
 
client = Groq()
response = client.chat.completions.create(
    model="llama-3.3-70b-versatile",
    messages=[{"role": "user", "content": "Hello"}]
)

자체 칩 구매 방식은 현재 제한적이며, 주로 클라우드 API 형태로 제공.

개발자 관점에서의 고려사항

저지연이 핵심인 서비스에 적합: 실시간 챗봇, 스트리밍 응답, 음성 AI
GPU 대비 배치 처리 효율은 낮음 → 동시 다수 요청보다 단일 빠른 응답에 최적
학습은 GPU/TPU에서 하고, 추론 서빙만 LPU로 분리하는 아키텍처 고려 가능
Groq API는 OpenAI 호환 인터페이스 제공 → 기존 코드에서 엔드포인트만 변경으로 사용 가능