GPU (Graphics Processing Unit)
그래픽 처리 장치. 원래 화면 렌더링 목적으로 설계됐으나 현재는 AI/ML, 과학 연산의 핵심 장치로 쓰인다.
역할
- 화면 렌더링 (래스터화, 셰이딩, 텍스처 매핑)
- 대규모 병렬 수치 연산
- AI/ML 학습 및 추론 (행렬 연산)
- 영상·이미지 처리
CPU와의 핵심 차이
| 항목 | CPU | GPU |
|---|---|---|
| 코어 수 | 수십 개 | 수천~수만 개 |
| 코어 성능 | 고성능 단일 코어 | 저성능 다수 코어 |
| 최적화 대상 | 직렬·복잡 연산 | 병렬·단순 반복 연산 |
| 캐시 계층 | 복잡한 L1/L2/L3 | 상대적으로 단순 |
| 메모리 | DDR5 (시스템 RAM) | GDDR6 / HBM (VRAM) |
구조
- SM (Streaming Multiprocessor) / CU (Compute Unit): GPU의 기본 연산 블록
- CUDA Core / Shader Core: 부동소수점 연산 담당
- Tensor Core: 행렬 곱 가속 (AI 학습/추론용)
- VRAM: 그래픽 전용 고대역폭 메모리
GPGPU (General-Purpose GPU)
GPU를 범용 연산에 활용하는 방식. 주요 프레임워크:
- CUDA (NVIDIA 전용)
- ROCm (AMD)
- Metal (Apple)
- OpenCL (크로스플랫폼)
AI/ML에서의 역할
딥러닝은 행렬 곱셈(matmul)이 핵심 연산인데, GPU는 이를 병렬로 대량 처리할 수 있다.
행렬 A (1000×1000) × 행렬 B (1000×1000)
→ CPU: 순차 처리 (느림)
→ GPU: 수천 개 코어가 동시 처리 (빠름)
주요 제품
| 제조사 | 소비자용 | 데이터센터용 |
|---|---|---|
| NVIDIA | RTX 40 시리즈 | H100, A100, H200 |
| AMD | RX 7000 시리즈 | MI300 |
| Apple | M 시리즈 통합 GPU | — |
| Intel | Arc 시리즈 | Gaudi |
개발자 관점에서의 고려사항
- VRAM 용량이 AI 모델 크기를 결정 (예: LLM 추론 시 VRAM 부족 → OOM)
- ML 프레임워크(PyTorch, TensorFlow)는 GPU를 자동으로 활용
- 클라우드에서는 A100/H100 인스턴스를 시간 단위로 임대 가능