Tan Kim

GPU (Graphics Processing Unit)

그래픽 처리 장치. 원래 화면 렌더링 목적으로 설계됐으나 현재는 AI/ML, 과학 연산의 핵심 장치로 쓰인다.

역할

  • 화면 렌더링 (래스터화, 셰이딩, 텍스처 매핑)
  • 대규모 병렬 수치 연산
  • AI/ML 학습 및 추론 (행렬 연산)
  • 영상·이미지 처리

CPU와의 핵심 차이

항목 CPU GPU
코어 수 수십 개 수천~수만 개
코어 성능 고성능 단일 코어 저성능 다수 코어
최적화 대상 직렬·복잡 연산 병렬·단순 반복 연산
캐시 계층 복잡한 L1/L2/L3 상대적으로 단순
메모리 DDR5 (시스템 RAM) GDDR6 / HBM (VRAM)

구조

  • SM (Streaming Multiprocessor) / CU (Compute Unit): GPU의 기본 연산 블록
  • CUDA Core / Shader Core: 부동소수점 연산 담당
  • Tensor Core: 행렬 곱 가속 (AI 학습/추론용)
  • VRAM: 그래픽 전용 고대역폭 메모리

GPGPU (General-Purpose GPU)

GPU를 범용 연산에 활용하는 방식. 주요 프레임워크:

  • CUDA (NVIDIA 전용)
  • ROCm (AMD)
  • Metal (Apple)
  • OpenCL (크로스플랫폼)

AI/ML에서의 역할

딥러닝은 행렬 곱셈(matmul)이 핵심 연산인데, GPU는 이를 병렬로 대량 처리할 수 있다.

행렬 A (1000×1000) × 행렬 B (1000×1000)
→ CPU: 순차 처리 (느림)
→ GPU: 수천 개 코어가 동시 처리 (빠름)

주요 제품

제조사 소비자용 데이터센터용
NVIDIA RTX 40 시리즈 H100, A100, H200
AMD RX 7000 시리즈 MI300
Apple M 시리즈 통합 GPU
Intel Arc 시리즈 Gaudi

개발자 관점에서의 고려사항

  • VRAM 용량이 AI 모델 크기를 결정 (예: LLM 추론 시 VRAM 부족 → OOM)
  • ML 프레임워크(PyTorch, TensorFlow)는 GPU를 자동으로 활용
  • 클라우드에서는 A100/H100 인스턴스를 시간 단위로 임대 가능