LLM (Large Language Model)

대규모 텍스트 데이터로 학습된 대형 언어 모델. 수십억~수천억 개의 파라미터를 가진다.

핵심 개념

개념	설명
Transformer	LLM의 기반 아키텍처 (Self-Attention 메커니즘)
Token	모델이 처리하는 텍스트 단위 (단어 또는 서브워드)
Context Window	한 번에 처리할 수 있는 최대 토큰 수
Parameter	모델의 가중치 수 (규모 지표)
Inference	학습된 모델로 결과를 생성하는 과정
Hallucination	모델이 사실과 다른 내용을 그럴듯하게 생성하는 현상

작동 원리

입력 텍스트
    ↓
토크나이저 (텍스트 → 토큰 ID)
    ↓
임베딩 레이어 (토큰 → 벡터)
    ↓
Transformer 블록 × N (Self-Attention + FFN)
    ↓
다음 토큰 확률 분포 계산
    ↓
샘플링 (Temperature, Top-p 등)
    ↓
출력 텍스트

주요 파라미터

파라미터	역할	범위
Temperature	출력 다양성 (높을수록 창의적, 낮을수록 결정론적)	0.0 ~ 2.0
Top-p (nucleus)	누적 확률 기준 토큰 샘플링	0.0 ~ 1.0
Top-k	상위 k개 토큰 중 샘플링	정수
Max tokens	최대 출력 토큰 수	정수

주요 LLM

모델	개발사	특징
GPT-4o	OpenAI	멀티모달, 범용
Claude 3.x	Anthropic	긴 컨텍스트, 안전성
Gemini 1.5	Google	멀티모달, 1M 컨텍스트
Llama 3	Meta	오픈소스
Mistral	Mistral AI	효율적, 오픈소스
Qwen	Alibaba	다국어 강점

학습 과정

1. Pre-training
   대규모 텍스트 데이터로 다음 토큰 예측 학습
   → 언어 이해 및 생성 능력 획득

2. SFT (Supervised Fine-Tuning)
   사람이 작성한 고품질 대화 데이터로 미세조정
   → 지시 따르기 능력 향상

3. RLHF (Reinforcement Learning from Human Feedback)
   사람 피드백 기반 보상 모델 학습 후 강화학습
   → 유용하고 무해한 응답 생성

활용 분야

텍스트 생성 / 요약 / 번역
코드 생성 및 디버깅
질의응답 (QA)
감정 분석, 분류
RAG 파이프라인의 생성 컴포넌트

llm

LLM (Large Language Model)

핵심 개념

작동 원리

주요 파라미터

주요 LLM

학습 과정

활용 분야

메모