Fine-tuning

2026.02.15

한 줄 요약

이미 훈련된 AI 모델을 특정 목적에 맞게 추가로 학습시켜 성능을 높이는 과정.

Fine-tuning(미세조정)은 AI 모델 학습의 2단계 전략에서 두 번째 단계이다.

Pre-training (사전학습): 요리학원에서 기본기 배우기
- 칼질, 불 조절, 기본 레시피 등
- 방대한 데이터(인터넷 전체)로 학습
- 시간: 몇 주~몇 달
- 비용: 수억~수천억 원
Fine-tuning (미세조정): 특정 요리(예: 일식) 전문가 되기
- 이미 배운 기본기를 활용
- 특정 분야 데이터로 추가 학습
- 시간: 몇 시간~며칠
- 비용: 수십만~수백만 원

처음부터 모델을 학습시키는 것(Pre-training)은:

대신, 이미 학습된 모델(예: GPT-3.5, Llama-2)을 가져와서:

R4 연구는 Fine-tuning 단계에서 Curriculum Learning을 적용한다.

1. 학습 데이터를 무작위로 섞음
2. 순서 상관없이 학습
3. 10,000 스텝 완료

1. 현재 모델 수준 측정 (PPL, Confidence, Entropy)
2. "딱 적당히 어려운" 데이터만 선별 (ZPD Window)
3. 학습
4. 500 스텝마다 1-3 반복
5. 25-40% 빠르게 목표 성능 도달!

모델: SOLAR 10.7B, Qwen2.5 7B
데이터: OpenOrca-KO (100,000개)
방법: LoRA Fine-tuning
비교 조건:
1. Random (기존 방법)
2. Fixed Easy-to-Hard (쉬운 것→어려운 것 고정 순서)
3. Fixed Hard-to-Easy (어려운 것→쉬운 것)
4. ZPD-Adaptive (실시간 난이도 조정) ← R4 제안 방법