Fine-tuning
Fine-tuning
한 줄 요약
이미 훈련된 AI 모델을 특정 목적에 맞게 추가로 학습시켜 성능을 높이는 과정.
쉬운 설명
Fine-tuning(미세조정)은 AI 모델 학습의 2단계 전략에서 두 번째 단계이다.
요리로 비유하면:
-
Pre-training (사전학습): 요리학원에서 기본기 배우기
- 칼질, 불 조절, 기본 레시피 등
- 방대한 데이터(인터넷 전체)로 학습
- 시간: 몇 주~몇 달
- 비용: 수억~수천억 원
-
Fine-tuning (미세조정): 특정 요리(예: 일식) 전문가 되기
- 이미 배운 기본기를 활용
- 특정 분야 데이터로 추가 학습
- 시간: 몇 시간~며칠
- 비용: 수십만~수백만 원
왜 Fine-tuning을 하나요?
처음부터 모델을 학습시키는 것(Pre-training)은:
- 돈이 너무 많이 듦 (GPT-4 학습비: 수백억 원)
- 시간이 너무 오래 걸림 (몇 달)
- 엄청난 데이터 필요 (인터넷 전체)
대신, 이미 학습된 모델(예: GPT-3.5, Llama-2)을 가져와서:
- 내 목적에 맞는 작은 데이터로 추가 학습
- 훨씬 저렴하고 빠름
예시:
-
의료 챗봇 만들기:
- ❌ 처음부터 학습: 불가능 (비용 문제)
- ✅ GPT 모델 + 의료 문서로 Fine-tuning: 가능!
-
법률 문서 분석 AI:
- ❌ 처음부터 학습: 수십억 원
- ✅ Llama-2 + 법률 판례로 Fine-tuning: 수백만 원
핵심 포인트
- 전이학습: Pre-training에서 배운 지식을 새 태스크에 전이(Transfer)
- 데이터 효율성: 적은 데이터(수천~수만 개)로도 좋은 성능
- 비용 효율성: Pre-training의 1/100~1/1000 비용
- 도메인 특화: 특정 분야(의료, 법률, 금융 등)에 최적화 가능
관련 개념
- LoRA - Fine-tuning을 효율적으로 하는 기법
- Curriculum Learning - Fine-tuning의 학습 효율을 높이는 방법
- Perplexity (PPL) - Fine-tuning 성능 측정 지표
- MMLU - Fine-tuning 후 성능 평가 벤치마크
- HumanEval - 코드 생성 Fine-tuning 평가
R4 연구에서의 역할
R4 연구는 Fine-tuning 단계에서 Curriculum Learning을 적용한다.
기존 Fine-tuning (Random):
1. 학습 데이터를 무작위로 섞음
2. 순서 상관없이 학습
3. 10,000 스텝 완료
ZPD-Adaptive Fine-tuning (R4 연구):
1. 현재 모델 수준 측정 (PPL, Confidence, Entropy)
2. "딱 적당히 어려운" 데이터만 선별 (ZPD Window)
3. 학습
4. 500 스텝마다 1-3 반복
5. 25-40% 빠르게 목표 성능 도달!
R4 연구의 실험 설정:
- 모델: SOLAR 10.7B, Qwen2.5 7B
- 데이터: OpenOrca-KO (100,000개)
- 방법: LoRA Fine-tuning
-
비교 조건:
- Random (기존 방법)
- Fixed Easy-to-Hard (쉬운 것→어려운 것 고정 순서)
- Fixed Hard-to-Easy (어려운 것→쉬운 것)
- ZPD-Adaptive (실시간 난이도 조정) ← R4 제안 방법
기대 효과:
- 학습 스텝 25-40% 단축
- 최종 성능 MMLU +2~4% 향상
- GPU 시간 20-35% 절감
더 알아보기
- Fine-tuning vs Transfer Learning: 거의 같은 의미로 사용됨
- Instruction Tuning: 사용자 지시사항 따르도록 Fine-tuning (ChatGPT가 이 방식)
- RLHF (Reinforcement Learning from Human Feedback): 인간 선호도로 Fine-tuning
- Catastrophic Forgetting: Fine-tuning 시 이전 지식을 잊어버리는 문제 (주의 필요)
- Domain Adaptation: Fine-tuning의 학술적 용어