Digital Garden

Type-Token Ratio (TTR)

Type-Token Ratio (TTR)

한 줄 요약

텍스트에서 “다양한 단어 (Type)”와 “전체 단어 (Token)”의 비율로 어휘 다양성을 측정하는 지표.

쉬운 설명

TTR은 “얼마나 다양한 단어를 사용하는가”를 측정한다.

핵심 개념:

  • Type (유형): 중복 제거한 고유 단어 수
  • Token (토큰): 전체 단어 수 (중복 포함)

쉬운 예시:

텍스트 A (어휘 다양성 낮음):

"나는 학교에 간다. 나는 집에 간다. 나는 친구 집에 간다."
Token (전체 단어): 12개
Type (고유 단어): 나는, 학교에, 간다, 집에, 친구 = 5개
TTR = 5/12 = 0.42

텍스트 B (어휘 다양성 높음):

"나는 학교에 간다. 철수는 도서관으로 향한다. 영희는 공원을 산책한다."
Token (전체 단어): 12개
Type (고유 단어): 나는, 학교에, 간다, 철수는, 도서관으로, 향한다, 영희는, 공원을, 산책한다 = 9개
TTR = 9/12 = 0.75

계산 방법:

TTR = (고유 단어 수) / (전체 단어 수)

범위: 0~1
- 0에 가까움: 같은 단어 반복 (단조로움)
- 1에 가까움: 모든 단어가 다름 (다양함)

핵심 포인트

  • 0~1 범위: 1에 가까울수록 어휘가 다양함
  • 텍스트 길이 의존성: 긴 텍스트일수록 TTR 낮아지는 경향 (한계)
  • 어휘 풍부성: 작문 능력, 언어 발달 수준 지표
  • 난이도 관련: 일반적으로 TTR 높으면 읽기 어려움

관련 개념

R4 연구에서의 역할

TTR은 R4 연구의 D1 (언어적 복잡성) 계산에 사용된다.

D1 계산 방법 (복습):

def compute_linguistic_complexity(text):
    # 1. Flesch-Kincaid Grade Level
    fk_grade = flesch_kincaid_grade(text)  # 40% 가중치

    # 2. Type-Token Ratio (어휘 다양성)
    tokens = tokenize(text)
    ttr = len(set(tokens)) / len(tokens)   # 30% 가중치 ← 여기!

    # 3. 종속절 비율
    subordinate_ratio = count_subordinate_clauses(text) / len(sentences)  # 30% 가중치

    # 종합
    D1 = 0.4 × normalize(fk_grade) + 0.3 × ttr + 0.3 × subordinate_ratio
    return D1

왜 TTR이 중요한가?

어휘 다양성은 텍스트 난이도의 중요한 지표:

낮은 TTR (0.3~0.5):
- 같은 단어 반복
- 단순한 표현
- 쉬운 텍스트
예: "나는 간다. 너는 간다. 우리는 간다."

중간 TTR (0.5~0.7):
- 적당한 어휘 다양성
- 일반적 텍스트
예: 뉴스 기사, 일반 설명문

높은 TTR (0.7~0.9):
- 다양한 어휘 사용
- 복잡한 표현
- 어려운 텍스트
예: 학술 논문, 문학 작품

난이도 분류에 활용:

OpenOrca-KO 데이터셋 분석:
쉬운 데이터: TTR < 0.5, D1 낮음
중간 데이터: TTR 0.5~0.7, D1 중간
어려운 데이터: TTR > 0.7, D1 높음

ZPD Window 적용:

현재 모델이 TTR 0.6 텍스트를 잘 이해함
→ ZPD 범위: TTR 0.6~0.75 선택
→ TTR < 0.5는 너무 쉬움 (제외)
→ TTR > 0.8은 너무 어려움 (제외)

TTR의 한계와 대응:

문제: 텍스트가 길수록 TTR 낮아짐

짧은 텍스트 (20단어): TTR = 0.9 가능
긴 텍스트 (1000단어): TTR = 0.5 정도
→ 길이가 다른 텍스트 비교 어려움

대응: 정규화된 TTR 변형 사용

  • MATTR (Moving Average TTR): 일정 윈도우(예: 100단어)마다 계산
  • Root TTR: √(Type / Token)
  • R4 연구에서는 비슷한 길이의 텍스트만 비교

더 알아보기

  • Lexical Diversity: TTR의 학술적 용어
  • Yule’s K: TTR의 대안 지표 (길이 독립적)
  • MTLD (Measure of Textual Lexical Diversity): 최신 지표
  • 아동 언어 발달 연구에서 TTR 활용 (연령별 TTR 증가)
  • 작문 평가: TTR 높음 = 더 풍부한 표현력
  • 기계 번역 평가: TTR로 번역 품질 측정
  • 한국어 TTR: 조사, 어미 처리 방법에 따라 달라짐