KoBEST
KoBEST
한 줄 요약
한국어 AI가 한국어를 얼마나 잘 이해하는지 평가하는 5가지 태스크로 구성된 종합 한국어 벤치마크.
쉬운 설명
KoBEST는 “Korean Benchmark Suite of Tasks”의 약자이다. 쉽게 말해 한국어판 종합 평가 시험이에요.
MMLU가 영어로 된 57개 과목 시험이라면, KoBEST는 한국어로 된 5개 영역 시험이다.
왜 KoBEST가 필요한가요?
영어 벤치마크(MMLU, HumanEval)만으로는 한국어 능력을 제대로 평가할 수 없어요. 왜냐하면:
- 한국어 특유의 문법 (조사, 어미 등)
- 한국 문화 맥락 (역사, 관용어 등)
- 한국어 데이터로 학습한 모델의 성능 측정 필요
KoBEST의 5가지 태스크:
-
Boolean Question (BoolQ-KO): 참/거짓 판단
지문: 서울은 대한민국의 수도이다. 질문: 서울이 수도인가? 답: True -
Choice of Plausible Alternatives (COPA-KO): 원인/결과 추론
상황: 아이가 울었다. 질문: 원인은? A) 장난감이 부서졌다 ← 정답 B) 날씨가 좋았다 -
Words-in-Context (WiC-KO): 단어 의미 파악
문장1: 사과를 먹었다. 문장2: 잘못을 사과했다. 질문: 두 "사과"의 의미가 같은가? → False -
HellaSwag-KO: 이야기 다음 문장 예측
상황: 남자가 운동장에서 뛰고 있다. 갑자기 발을 헛디뎠다. 다음 문장은? A) 그는 넘어졌다 ← 정답 B) 그는 하늘을 날았다 -
Sentiment Negation Recognition (SentiNeg-KO): 부정 표현 이해
문장: "이 영화는 별로 안 좋지 않았어" 감정: 긍정 ← 이중부정 이해 필요
핵심 포인트
- 5개 태스크: 한국어 이해의 다양한 측면 평가
- 한국어 특화: 한국어 문법, 맥락, 문화 반영
- 5-shot 평가: 예시 5개 제공 후 평가
- 공개 데이터: 한국 AI Hub에서 제공
관련 개념
- MMLU - 영어 다과목 평가 (KoBEST는 한국어 버전)
- Fine-tuning - 한국어 데이터로 Fine-tuning 후 KoBEST로 평가
- SOLAR 10.7B - 한국어 특화 모델, KoBEST 성능 우수
- Perplexity (PPL) - 한국어 난이도 측정
R4 연구에서의 역할
KoBEST는 R4 연구에서 한국어 능력 평가 지표로 사용된다.
왜 KoBEST를 사용하나?
- SOLAR 10.7B 평가: 한국어 특화 모델이므로 한국어 벤치마크 필수
- 다차원 평가: 5개 태스크로 다양한 언어 이해 능력 측정
- 추론 능력 평가: 단순 번역이 아닌 추론, 맥락 이해 필요
R4 연구의 KoBEST 사용:
- 평가 주기: 매 500 스텝마다 측정
- 평가 방법: 5-shot
- 기대 결과: 다른 벤치마크와 유사하게 ZPD-Adaptive가 우수
모델별 특성:
| 모델 | 언어 특성 | 영어 벤치마크 | 한국어 벤치마크 | |——|———-|————–|—————-| | SOLAR 10.7B | 한국어 특화 | MMLU, HumanEval | KoBEST ← 강점 | | Qwen2.5 7B | 다국어 | MMLU, HumanEval | KoBEST |
연구 가설 검증 (R1):
KoBEST는 권장 수정사항 R1 “한국어 모델 특수성 탐색”에 활용:
- SOLAR 10.7B의 KoBEST 성능 vs MMLU 성능 비교
- 한국어 태스크에서 ZPD-Adaptive 효과가 더 큰지 분석
더 알아보기
- 한국 AI Hub에서 공개: https://aihub.or.kr
- KLUE (Korean Language Understanding Evaluation)와 함께 대표적인 한국어 벤치마크
- GPT-4의 KoBEST 점수: 약 75-80% (영어 MMLU보다 낮음)
- 한국어 특화 모델들이 영어 모델보다 KoBEST에서 우수한 경향
- 5개 태스크 외에도 확장 버전에는 NER(개체명 인식), QA(질의응답) 등 추가