Tan Kim

llm

LLM (Large Language Model)

대규모 텍스트 데이터로 학습된 대형 언어 모델. 수십억~수천억 개의 파라미터를 가진다.

핵심 개념

개념 설명
Transformer LLM의 기반 아키텍처 (Self-Attention 메커니즘)
Token 모델이 처리하는 텍스트 단위 (단어 또는 서브워드)
Context Window 한 번에 처리할 수 있는 최대 토큰 수
Parameter 모델의 가중치 수 (규모 지표)
Inference 학습된 모델로 결과를 생성하는 과정
Hallucination 모델이 사실과 다른 내용을 그럴듯하게 생성하는 현상

작동 원리

입력 텍스트
    ↓
토크나이저 (텍스트 → 토큰 ID)
    ↓
임베딩 레이어 (토큰 → 벡터)
    ↓
Transformer 블록 × N (Self-Attention + FFN)
    ↓
다음 토큰 확률 분포 계산
    ↓
샘플링 (Temperature, Top-p 등)
    ↓
출력 텍스트

주요 파라미터

파라미터 역할 범위
Temperature 출력 다양성 (높을수록 창의적, 낮을수록 결정론적) 0.0 ~ 2.0
Top-p (nucleus) 누적 확률 기준 토큰 샘플링 0.0 ~ 1.0
Top-k 상위 k개 토큰 중 샘플링 정수
Max tokens 최대 출력 토큰 수 정수

주요 LLM

모델 개발사 특징
GPT-4o OpenAI 멀티모달, 범용
Claude 3.x Anthropic 긴 컨텍스트, 안전성
Gemini 1.5 Google 멀티모달, 1M 컨텍스트
Llama 3 Meta 오픈소스
Mistral Mistral AI 효율적, 오픈소스
Qwen Alibaba 다국어 강점

학습 과정

1. Pre-training
   대규모 텍스트 데이터로 다음 토큰 예측 학습
   → 언어 이해 및 생성 능력 획득

2. SFT (Supervised Fine-Tuning)
   사람이 작성한 고품질 대화 데이터로 미세조정
   → 지시 따르기 능력 향상

3. RLHF (Reinforcement Learning from Human Feedback)
   사람 피드백 기반 보상 모델 학습 후 강화학습
   → 유용하고 무해한 응답 생성

활용 분야

  • 텍스트 생성 / 요약 / 번역
  • 코드 생성 및 디버깅
  • 질의응답 (QA)
  • 감정 분석, 분류
  • RAG 파이프라인의 생성 컴포넌트

메모