Tan Kim

NPU (Neural Processing Unit)

신경망 처리 장치. AI 추론 연산에 특화된 전용 프로세서로 온디바이스 AI의 핵심 칩이다.

역할

  • 신경망 추론(inference) 가속
  • 온디바이스 AI 처리 (스마트폰, PC, IoT)
  • 저전력 AI 연산
  • 음성 인식, 이미지 분류, 번역 등 실시간 처리

GPU와의 차이

항목 GPU NPU
목적 범용 병렬 연산 AI 추론 전용
전력 효율 중간 매우 높음
유연성 높음 (범용) 낮음 (특화)
학습 가능 여부 가능 대부분 불가
주요 활용 학습 + 추론 추론 위주

동작 원리

NPU는 행렬 곱셈(MAC, Multiply-Accumulate)과 활성화 함수 연산을 하드웨어 레벨에서 직접 처리하도록 회로를 설계한다.

일반 연산:  소프트웨어 → CPU/GPU 해석 → 실행
NPU 연산:  특정 NN 연산을 하드웨어 고정 회로로 직접 실행 → 고속 저전력

주요 제품

제조사 탑재 위치 제품명
Apple M/A 시리즈 SoC Neural Engine
Qualcomm Snapdragon SoC Hexagon NPU
Samsung Exynos SoC NPU
Intel Core Ultra CPU NPU (내장)
AMD Ryzen AI CPU XDNA NPU
Google Pixel 전용 Tensor G 시리즈 NPU

온디바이스 AI와의 관계

클라우드 AI와 달리 기기 자체에서 AI 연산을 수행하여:

  • 지연 없음 (네트워크 불필요)
  • 개인 데이터 외부 전송 없음
  • 배터리 효율 우수

Windows Copilot+ PC, Apple Intelligence 등이 NPU를 필수 요건으로 지정하는 이유.

개발자 관점에서의 고려사항

  • iOS: Core ML이 Neural Engine 자동 활용
  • Android: NNAPI, QNN SDK로 NPU 접근
  • Windows: DirectML, Windows ML로 NPU 활용 가능
  • 모델 양자화(int8/int4)가 NPU 활용에 중요한 전처리 단계