KoBEST

2026.02.15

한 줄 요약

한국어 AI가 한국어를 얼마나 잘 이해하는지 평가하는 5가지 태스크로 구성된 종합 한국어 벤치마크.

KoBEST는 “Korean Benchmark Suite of Tasks”의 약자이다. 쉽게 말해 한국어판 종합 평가 시험이에요.

MMLU가 영어로 된 57개 과목 시험이라면, KoBEST는 한국어로 된 5개 영역 시험이다.

영어 벤치마크(MMLU, HumanEval)만으로는 한국어 능력을 제대로 평가할 수 없어요. 왜냐하면:

Boolean Question (BoolQ-KO): 참/거짓 판단

지문: 서울은 대한민국의 수도이다.
질문: 서울이 수도인가?
답: True

Choice of Plausible Alternatives (COPA-KO): 원인/결과 추론

상황: 아이가 울었다.
질문: 원인은?
A) 장난감이 부서졌다  ← 정답
B) 날씨가 좋았다

Words-in-Context (WiC-KO): 단어 의미 파악

문장1: 사과를 먹었다.
문장2: 잘못을 사과했다.
질문: 두 "사과"의 의미가 같은가? → False

HellaSwag-KO: 이야기 다음 문장 예측

상황: 남자가 운동장에서 뛰고 있다. 갑자기 발을 헛디뎠다.
다음 문장은?
A) 그는 넘어졌다  ← 정답
B) 그는 하늘을 날았다

Sentiment Negation Recognition (SentiNeg-KO): 부정 표현 이해

문장: "이 영화는 별로 안 좋지 않았어"
감정: 긍정 ← 이중부정 이해 필요

KoBEST는 R4 연구에서 한국어 능력 평가 지표로 사용된다.

KoBEST는 권장 수정사항 R1 “한국어 모델 특수성 탐색”에 활용: