Digital Garden

Cohen's d

Cohen’s d

한 줄 요약

두 그룹의 평균 차이가 “통계적으로 유의미”한지를 넘어서 “실질적으로 얼마나 큰 차이”인지 측정하는 효과 크기 지표.

쉬운 설명

Cohen’s d는 “차이의 크기”를 표준화된 숫자로 나타냅니다.

쉬운 비유: 키 차이

상황 1: 성인 남성 vs 성인 여성

  • 남성 평균: 175cm
  • 여성 평균: 162cm
  • 차이: 13cm
  • Cohen’s d = 1.2 (큰 차이)

상황 2: A반 학생 vs B반 학생 (모두 남성)

  • A반 평균: 175cm
  • B반 평균: 174cm
  • 차이: 1cm
  • Cohen’s d = 0.1 (작은 차이)

같은 1cm 차이라도:

  • 성별 간: 큰 의미
  • 같은 성별 내: 작은 의미

Cohen’s d는 이런 상대적 크기를 측정한다.

계산 방법:

Cohen's d = (평균1 - 평균2) / 합동 표준편차

예:
그룹 A: 평균 80, 표준편차 10
그룹 B: 평균 70, 표준편차 10

Cohen's d = (80 - 70) / 10 = 1.0

해석 기준 (Cohen, 1988):

| Cohen’s d | 크기 | 의미 | |———–|——|——| | 0.2 | 작음 (Small) | 겨우 알아차릴 정도 | | 0.5 | 중간 (Medium) | 분명히 느껴지는 차이 | | 0.8 | 큼 (Large) | 매우 큰 차이 | | 1.2+ | 매우 큼 | 압도적 차이 |

핵심 포인트

  • 표준화된 척도: 단위가 다른 지표도 비교 가능
  • p-value와 독립적: 통계적 유의성 ≠ 실질적 중요성
  • 효과 크기: 차이가 얼마나 “중요한지” 평가
  • 실용적 의미: 연구 결과의 실무 적용 가능성 판단

관련 개념

R4 연구에서의 역할

R4 연구는 Cohen’s d로 실질적 효과 크기를 평가한다.

왜 Cohen’s d가 중요한가?

p-value만으로는 부족:

상황 1: 샘플 수 작음 (N=10)
평균 차이: 5점, p=0.12 (유의하지 않음)
Cohen's d = 0.9 (큰 효과!)
→ 실질적으로 중요하지만 샘플이 적어서 p-value가 높음

상황 2: 샘플 수 많음 (N=1000)
평균 차이: 0.5점, p=0.001 (유의함!)
Cohen's d = 0.05 (거의 없는 효과)
→ 통계적으로는 유의하지만 실질적으로 의미 없음

R4의 Cohen’s d 사용:

1. 조건 간 비교:

ZPD-Adaptive vs Random:
MMLU 점수: 69% vs 65% (차이 4%)
표준편차: 2%
Cohen's d = 4/2 = 2.0 (매우 큰 효과!)

ZPD-Adaptive vs Fixed E→H:
MMLU 점수: 69% vs 67% (차이 2%)
표준편차: 2%
Cohen's d = 2/2 = 1.0 (큰 효과)

2. 모델 규모별 효과 크기 (H3a):

가설 H3a: 효과 크기는 큰 모델에서 더 큼

SOLAR 10.7B:
Cohen's d (ZPD vs Random) = 2.2

Qwen2.5 7B:
Cohen's d (ZPD vs Random) = 1.5

→ 가설 지지! 큰 모델에서 효과 더 큼

3. 태스크 유형별 효과 크기 (H3b):

가설 H3b: 추론 태스크에서 효과 더 큼

추론 태스크 (MMLU):
Cohen's d = 2.0 (매우 큰 효과)

생성 태스크 (HumanEval):
Cohen's d = 1.2 (큰 효과)

→ 가설 지지! 추론 태스크에서 효과 더 큼

4. Ablation Study 효과 크기:

Full model vs A1 (Loss-only):
Cohen's d = 1.5 (큰 효과)
→ 복합 지표가 실질적으로 중요함

Full model vs A6 (Fixed Window):
Cohen's d = 1.2 (큰 효과)
→ 적응성이 실질적으로 중요함

실무 적용 판단:

Cohen's d < 0.5: 실무 적용 가치 낮음
Cohen's d 0.5~0.8: 실무 적용 고려 가능
Cohen's d > 0.8: 실무 적용 강력 권고
Cohen's d > 1.5: 즉시 적용 권장

더 알아보기

  • Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences.
  • Hedges’ g: Cohen’s d의 보정 버전 (작은 샘플 크기용)
  • Glass’s Δ: 통제 집단 표준편차만 사용
  • η² (Eta-squared): ANOVA에서의 효과 크기 (0~1 범위)
  • r (상관계수): Cohen’s d와 상호 변환 가능
  • Overlap: 두 분포가 겹치는 정도 (d=0.8일 때 약 53% 겹침)
  • NNT (Number Needed to Treat): 의학 연구의 효과 크기