Perplexity (PPL)
Perplexity (PPL)
ํ ์ค ์์ฝ
์ธ์ด ๋ชจ๋ธ์ด ๋ฌธ์ฅ์ ์ผ๋ง๋ โ๋นํฉ์ค๋ฌ์ํ๋์งโ ์ธก์ ํ๋ ์งํ๋ก, ๋ฎ์์๋ก ๋ชจ๋ธ์ด ๊ทธ ๋ฌธ์ฅ์ ์ ์์ธกํ๋ค๋ ์๋ฏธ.
์ฌ์ด ์ค๋ช
Perplexity(๋นํน๋, ํผ๋๋)๋ ์ธ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๋ํ์ ์ธ ์งํ์ด๋ค. โPPLโ์ด๋ผ๊ณ ์ค์ฌ์ ๋ถ๋ฅด๊ธฐ๋ ํด์.
์ฝ๊ฒ ๋น์ ํ์๋ฉด, ํด์ฆ์ ๋์ด๋๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค.
์๋ฅผ ๋ค์ด๋ณผ๊ฒ์:
- ๋ฌธ์ฅ A: โ๋๋ ํ๊ต์ ___โ โ ๋ค์ ๋จ์ด๋ก โ๊ฐ๋คโ๋ฅผ ์์ธกํ๊ธฐ ์ฌ์ โ ๋ฎ์ PPL
- ๋ฌธ์ฅ B: โ์์์ญํ์ ๋ถํ์ ์ฑ ์๋ฆฌ๋ ___โ โ ๋ค์ ๋จ์ด ์์ธกํ๊ธฐ ์ด๋ ค์ โ ๋์ PPL
๋ชจ๋ธ์ด ๋ค์ ๋จ์ด๋ฅผ ์ ์์ธกํ ์๋ก PPL์ด ๋ฎ๊ณ , ๋ชปํ ์๋ก ๋๋ค.
์ํ์ ์ผ๋ก๋ ์ด๋ ๊ฒ ๊ณ์ฐํด์:
PPL = exp(ํ๊ท Loss)
- Loss๊ฐ ๋ฎ์ผ๋ฉด (์ ์์ธก) โ PPL๋ ๋ฎ์ โ ๋ชจ๋ธ์ด ์ฐ์ํจ
- Loss๊ฐ ๋์ผ๋ฉด (๋ชป ์์ธก) โ PPL๋ ๋์ โ ๋ชจ๋ธ์ด ๋ถ์กฑํจ
์๋ฅผ ๋ค์ด:
- GPT ๋ชจ๋ธ์ด ๋ด์ค ๊ธฐ์ฌ๋ฅผ ์ฝ์ ๋: PPL = 20 (๋ฎ์, ์ฌ์)
- GPT ๋ชจ๋ธ์ด ์ ๋ฌธ ์ํ ๋ ผ๋ฌธ์ ์ฝ์ ๋: PPL = 80 (๋์, ์ด๋ ค์)
ํต์ฌ ํฌ์ธํธ
- ๋ฎ์์๋ก ์ข์: PPL์ด ๋ฎ๋ค = ๋ชจ๋ธ์ด ํ ์คํธ๋ฅผ ์ ์ดํดํ๋ค
- ๋์ด๋ ์ธก์ : ๊ฐ์ ๋ชจ๋ธ์์ PPL์ด ๋์ ๋ฐ์ดํฐ = ์ด๋ ค์ด ๋ฐ์ดํฐ
- ์ง์ ๊ด๊ณ: Loss์ ์ง์(exp) ๊ด๊ณ์ด๋ฏ๋ก ์์ Loss ์ฐจ์ด๋ PPL์์๋ ํฌ๊ฒ ๋ํ๋จ
- ๋๋ฉ์ธ ์์กด์ : ๊ฐ์ ๋ชจ๋ธ์ด๋ผ๋ ๋ด์ค(๋ฎ์ PPL) vs ๋ฒ๋ฅ ๋ฌธ์(๋์ PPL)์ฒ๋ผ ์ฐจ์ด ๋จ
๊ด๋ จ ๊ฐ๋
- Cross-entropy Loss - PPL ๊ณ์ฐ์ ๊ธฐ๋ฐ์ด ๋๋ ์์ค ํจ์
- Curriculum Learning - PPL๋ก ๋์ด๋๋ฅผ ์ธก์ ํ์ฌ ํ์ต ์์ ๊ฒฐ์
- ZPD (๊ทผ์ ๋ฐ๋ฌ์์ญ) - ์ ์ PPL ๋ฒ์๊ฐ ZPD์ ํด๋น
- Fine-tuning - PPL๋ก Fine-tuning ์งํ ์ํฉ ๋ชจ๋ํฐ๋ง
- Confidence (์ ๋ขฐ๋) - PPL๊ณผ ํจ๊ป ๋ชจ๋ธ ์ฑ๋ฅ ์ธก์
R4 ์ฐ๊ตฌ์์์ ์ญํ
R4 ์ฐ๊ตฌ์์ PPL์ ZPD Window๋ฅผ ์ ํ๋ ํต์ฌ ์งํ์ด๋ค.
๊ตฌ์ฒด์ ์ธ ์ฌ์ฉ ๋ฐฉ๋ฒ:
-
ํ์ฌ ๋ชจ๋ธ ๋ฅ๋ ฅ ์ธก์ : Held-out set์์ ํ๊ท PPL ๊ณ์ฐ
์: ํ์ฌ PPL = 30 -
ZPD ๋ฒ์ ์ค์ :
ZPD ํํ = PPL ร 1.1 = 30 ร 1.1 = 33 ZPD ์ํ = PPL ร 1.3 = 30 ร 1.3 = 39 -
๋ฐ์ดํฐ ์ ๋ณ: PPL์ด 33~39 ์ฌ์ด์ธ ๋ฐ์ดํฐ๋ง ์ ํํด์ ํ์ต
- 500 ์คํ ๋ง๋ค ๊ฐฑ์ : ๋ชจ๋ธ์ด ๋ฐ์ ํ๋ฉด PPL์ด ๋ฎ์์ง๋ฏ๋ก, ZPD ๋ฒ์๋ ์ฌ๊ณ์ฐ
์ PPL์ ์ฌ์ฉํ๋?
- ์ง๊ด์ : ์ซ์๊ฐ ํด์๋ก ์ด๋ ต๋ค๋ ์๋ฏธ๊ฐ ๋ช ํ
- ํ์คํ: ์ธ์ด ๋ชจ๋ธ ์ฐ๊ตฌ์์ ๋๋ฆฌ ์ฌ์ฉ๋๋ ์งํ
- ๊ณ์ฐ ํจ์จ: Loss์์ ๋ฐ๋ก ๊ณ์ฐ ๊ฐ๋ฅ (์ถ๊ฐ ๊ณ์ฐ ๋น์ฉ ์์)
- ๋ค์ฐจ์ ๋์ด๋: PPL + Confidence (์ ๋ขฐ๋) + Entropy (์ํธ๋กํผ)๋ฅผ ํจ๊ป ์ฌ์ฉํ์ฌ ๋ ์ ํํ ์ธก์
๋ ์์๋ณด๊ธฐ
-
PPL์ ์ํ์ ์ ์: exp(โ(1/N) ฮฃ log P(w_i context)) - ์ ๋ณด ์ด๋ก ์์ ์ ๋: โํ๊ท ์ ์ผ๋ก ๋ช ๊ฐ์ ์ ํ์ง ์ค ๊ณ ๋ฏผํ๋๊ฐโ
- ๋ฎ์ PPL ์์: GPT-4๊ฐ ์์ด ์ํคํผ๋์ ์ฝ์ ๋ ~10-20
- ๋์ PPL ์์: GPT-4๊ฐ ๊ณ ๋ ๋ผํด์ด ์ฝ์ ๋ ~100+
- BERT, GPT ๊ฐ์ ๋ชจ๋ธ๋ค์ Pre-training ์ PPL ๊ธฐ์ค์ผ๋ก ์ฑ๋ฅ ํ๊ฐ