SLM (Small Language Model)
수억~수십억 파라미터 규모의 소형 언어 모델. 엣지 디바이스나 제한된 환경에서 실행 가능.
LLM vs SLM
| 항목 |
LLM |
SLM |
| 파라미터 |
70B+ |
1B ~ 13B |
| 추론 속도 |
느림 |
빠름 |
| 하드웨어 요구 |
GPU 서버 |
소비자급 GPU / CPU |
| 비용 |
높음 |
낮음 |
| 성능 |
높음 |
LLM 대비 낮음 (특화 분야에선 경쟁력) |
| 프라이버시 |
외부 API 의존 |
로컬 실행 가능 |
주요 SLM
| 모델 |
개발사 |
파라미터 |
특징 |
| Phi-3 Mini |
Microsoft |
3.8B |
고성능 소형 모델 |
| Phi-4 Mini |
Microsoft |
3.8B |
Phi-3 후속 |
| Gemma 2 |
Google |
2B / 9B |
오픈소스 |
| Llama 3.2 |
Meta |
1B / 3B |
모바일 최적화 |
| Mistral 7B |
Mistral AI |
7B |
효율성 우수 |
| Qwen 2.5 |
Alibaba |
0.5B ~ 7B |
다국어 |
활용 시나리오
- 온디바이스 AI: 스마트폰, IoT, 노트북에서 로컬 실행
- 엣지 컴퓨팅: 인터넷 없이 오프라인 추론
- 프라이버시 민감 도메인: 의료, 법률 — 외부 전송 불필요
- 비용 최적화: API 비용 없이 자체 서버 운용
- 특화 도메인 파인튜닝: 작은 모델을 특정 도메인에 집중 학습
로컬 실행 도구
# Ollama — 로컬 LLM 실행기
ollama run phi3
ollama run llama3.2:1b
ollama run mistral
# LM Studio — GUI 기반 로컬 실행
# llama.cpp — C++ 기반 경량 추론 엔진
메모