NPU (Neural Processing Unit)
신경망 처리 장치. AI 추론 연산에 특화된 전용 프로세서로 온디바이스 AI의 핵심 칩이다.
역할
- 신경망 추론(inference) 가속
- 온디바이스 AI 처리 (스마트폰, PC, IoT)
- 저전력 AI 연산
- 음성 인식, 이미지 분류, 번역 등 실시간 처리
GPU와의 차이
| 항목 | GPU | NPU |
|---|---|---|
| 목적 | 범용 병렬 연산 | AI 추론 전용 |
| 전력 효율 | 중간 | 매우 높음 |
| 유연성 | 높음 (범용) | 낮음 (특화) |
| 학습 가능 여부 | 가능 | 대부분 불가 |
| 주요 활용 | 학습 + 추론 | 추론 위주 |
동작 원리
NPU는 행렬 곱셈(MAC, Multiply-Accumulate)과 활성화 함수 연산을 하드웨어 레벨에서 직접 처리하도록 회로를 설계한다.
일반 연산: 소프트웨어 → CPU/GPU 해석 → 실행
NPU 연산: 특정 NN 연산을 하드웨어 고정 회로로 직접 실행 → 고속 저전력
주요 제품
| 제조사 | 탑재 위치 | 제품명 |
|---|---|---|
| Apple | M/A 시리즈 SoC | Neural Engine |
| Qualcomm | Snapdragon SoC | Hexagon NPU |
| Samsung | Exynos SoC | NPU |
| Intel | Core Ultra CPU | NPU (내장) |
| AMD | Ryzen AI CPU | XDNA NPU |
| Pixel 전용 | Tensor G 시리즈 NPU |
온디바이스 AI와의 관계
클라우드 AI와 달리 기기 자체에서 AI 연산을 수행하여:
- 지연 없음 (네트워크 불필요)
- 개인 데이터 외부 전송 없음
- 배터리 효율 우수
Windows Copilot+ PC, Apple Intelligence 등이 NPU를 필수 요건으로 지정하는 이유.
개발자 관점에서의 고려사항
- iOS: Core ML이 Neural Engine 자동 활용
- Android: NNAPI, QNN SDK로 NPU 접근
- Windows: DirectML, Windows ML로 NPU 활용 가능
- 모델 양자화(int8/int4)가 NPU 활용에 중요한 전처리 단계