Digital Garden

Perplexity (PPL)

๐Ÿ‘€ 1

Perplexity (PPL)

ํ•œ ์ค„ ์š”์•ฝ

์–ธ์–ด ๋ชจ๋ธ์ด ๋ฌธ์žฅ์„ ์–ผ๋งˆ๋‚˜ โ€œ๋‹นํ™ฉ์Šค๋Ÿฌ์›Œํ•˜๋Š”์ง€โ€ ์ธก์ •ํ•˜๋Š” ์ง€ํ‘œ๋กœ, ๋‚ฎ์„์ˆ˜๋ก ๋ชจ๋ธ์ด ๊ทธ ๋ฌธ์žฅ์„ ์ž˜ ์˜ˆ์ธกํ•œ๋‹ค๋Š” ์˜๋ฏธ.

์‰ฌ์šด ์„ค๋ช…

Perplexity(๋‹นํ˜น๋„, ํ˜ผ๋ž€๋„)๋Š” ์–ธ์–ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋Œ€ํ‘œ์ ์ธ ์ง€ํ‘œ์ด๋‹ค. โ€œPPLโ€์ด๋ผ๊ณ  ์ค„์—ฌ์„œ ๋ถ€๋ฅด๊ธฐ๋„ ํ•ด์š”.

์‰ฝ๊ฒŒ ๋น„์œ ํ•˜์ž๋ฉด, ํ€ด์ฆˆ์˜ ๋‚œ์ด๋„๋ผ๊ณ  ์ƒ๊ฐํ•˜๋ฉด ๋œ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด๋ณผ๊ฒŒ์š”:

  • ๋ฌธ์žฅ A: โ€œ๋‚˜๋Š” ํ•™๊ต์— ___โ€ โ†’ ๋‹ค์Œ ๋‹จ์–ด๋กœ โ€œ๊ฐ„๋‹คโ€๋ฅผ ์˜ˆ์ธกํ•˜๊ธฐ ์‰ฌ์›€ โ†’ ๋‚ฎ์€ PPL
  • ๋ฌธ์žฅ B: โ€œ์–‘์ž์—ญํ•™์˜ ๋ถˆํ™•์ •์„ฑ ์›๋ฆฌ๋Š” ___โ€ โ†’ ๋‹ค์Œ ๋‹จ์–ด ์˜ˆ์ธกํ•˜๊ธฐ ์–ด๋ ค์›€ โ†’ ๋†’์€ PPL

๋ชจ๋ธ์ด ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์ž˜ ์˜ˆ์ธกํ• ์ˆ˜๋ก PPL์ด ๋‚ฎ๊ณ , ๋ชปํ• ์ˆ˜๋ก ๋†’๋‹ค.

์ˆ˜ํ•™์ ์œผ๋กœ๋Š” ์ด๋ ‡๊ฒŒ ๊ณ„์‚ฐํ•ด์š”:

PPL = exp(ํ‰๊ท  Loss)
  • Loss๊ฐ€ ๋‚ฎ์œผ๋ฉด (์ž˜ ์˜ˆ์ธก) โ†’ PPL๋„ ๋‚ฎ์Œ โ†’ ๋ชจ๋ธ์ด ์šฐ์ˆ˜ํ•จ
  • Loss๊ฐ€ ๋†’์œผ๋ฉด (๋ชป ์˜ˆ์ธก) โ†’ PPL๋„ ๋†’์Œ โ†’ ๋ชจ๋ธ์ด ๋ถ€์กฑํ•จ

์˜ˆ๋ฅผ ๋“ค์–ด:

  • GPT ๋ชจ๋ธ์ด ๋‰ด์Šค ๊ธฐ์‚ฌ๋ฅผ ์ฝ์„ ๋•Œ: PPL = 20 (๋‚ฎ์Œ, ์‰ฌ์›€)
  • GPT ๋ชจ๋ธ์ด ์ „๋ฌธ ์˜ํ•™ ๋…ผ๋ฌธ์„ ์ฝ์„ ๋•Œ: PPL = 80 (๋†’์Œ, ์–ด๋ ค์›€)

ํ•ต์‹ฌ ํฌ์ธํŠธ

  • ๋‚ฎ์„์ˆ˜๋ก ์ข‹์Œ: PPL์ด ๋‚ฎ๋‹ค = ๋ชจ๋ธ์ด ํ…์ŠคํŠธ๋ฅผ ์ž˜ ์ดํ•ดํ•œ๋‹ค
  • ๋‚œ์ด๋„ ์ธก์ •: ๊ฐ™์€ ๋ชจ๋ธ์—์„œ PPL์ด ๋†’์€ ๋ฐ์ดํ„ฐ = ์–ด๋ ค์šด ๋ฐ์ดํ„ฐ
  • ์ง€์ˆ˜ ๊ด€๊ณ„: Loss์™€ ์ง€์ˆ˜(exp) ๊ด€๊ณ„์ด๋ฏ€๋กœ ์ž‘์€ Loss ์ฐจ์ด๋„ PPL์—์„œ๋Š” ํฌ๊ฒŒ ๋‚˜ํƒ€๋‚จ
  • ๋„๋ฉ”์ธ ์˜์กด์ : ๊ฐ™์€ ๋ชจ๋ธ์ด๋ผ๋„ ๋‰ด์Šค(๋‚ฎ์€ PPL) vs ๋ฒ•๋ฅ  ๋ฌธ์„œ(๋†’์€ PPL)์ฒ˜๋Ÿผ ์ฐจ์ด ๋‚จ

๊ด€๋ จ ๊ฐœ๋…

R4 ์—ฐ๊ตฌ์—์„œ์˜ ์—ญํ• 

R4 ์—ฐ๊ตฌ์—์„œ PPL์€ ZPD Window๋ฅผ ์ •ํ•˜๋Š” ํ•ต์‹ฌ ์ง€ํ‘œ์ด๋‹ค.

๊ตฌ์ฒด์ ์ธ ์‚ฌ์šฉ ๋ฐฉ๋ฒ•:

  1. ํ˜„์žฌ ๋ชจ๋ธ ๋Šฅ๋ ฅ ์ธก์ •: Held-out set์—์„œ ํ‰๊ท  PPL ๊ณ„์‚ฐ
    ์˜ˆ: ํ˜„์žฌ PPL = 30
    
  2. ZPD ๋ฒ”์œ„ ์„ค์ •:
    ZPD ํ•˜ํ•œ = PPL ร— 1.1 = 30 ร— 1.1 = 33
    ZPD ์ƒํ•œ = PPL ร— 1.3 = 30 ร— 1.3 = 39
    
  3. ๋ฐ์ดํ„ฐ ์„ ๋ณ„: PPL์ด 33~39 ์‚ฌ์ด์ธ ๋ฐ์ดํ„ฐ๋งŒ ์„ ํƒํ•ด์„œ ํ•™์Šต

  4. 500 ์Šคํ…๋งˆ๋‹ค ๊ฐฑ์‹ : ๋ชจ๋ธ์ด ๋ฐœ์ „ํ•˜๋ฉด PPL์ด ๋‚ฎ์•„์ง€๋ฏ€๋กœ, ZPD ๋ฒ”์œ„๋„ ์žฌ๊ณ„์‚ฐ

์™œ PPL์„ ์‚ฌ์šฉํ•˜๋‚˜?

  • ์ง๊ด€์ : ์ˆซ์ž๊ฐ€ ํด์ˆ˜๋ก ์–ด๋ ต๋‹ค๋Š” ์˜๋ฏธ๊ฐ€ ๋ช…ํ™•
  • ํ‘œ์ค€ํ™”: ์–ธ์–ด ๋ชจ๋ธ ์—ฐ๊ตฌ์—์„œ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” ์ง€ํ‘œ
  • ๊ณ„์‚ฐ ํšจ์œจ: Loss์—์„œ ๋ฐ”๋กœ ๊ณ„์‚ฐ ๊ฐ€๋Šฅ (์ถ”๊ฐ€ ๊ณ„์‚ฐ ๋น„์šฉ ์—†์Œ)
  • ๋‹ค์ฐจ์› ๋‚œ์ด๋„: PPL + Confidence (์‹ ๋ขฐ๋„) + Entropy (์—”ํŠธ๋กœํ”ผ)๋ฅผ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜์—ฌ ๋” ์ •ํ™•ํ•œ ์ธก์ •

๋” ์•Œ์•„๋ณด๊ธฐ

  • PPL์˜ ์ˆ˜ํ•™์  ์ •์˜: exp(โˆ’(1/N) ฮฃ log P(w_i context))
  • ์ •๋ณด ์ด๋ก ์—์„œ ์œ ๋ž˜: โ€œํ‰๊ท ์ ์œผ๋กœ ๋ช‡ ๊ฐœ์˜ ์„ ํƒ์ง€ ์ค‘ ๊ณ ๋ฏผํ•˜๋Š”๊ฐ€โ€
  • ๋‚ฎ์€ PPL ์˜ˆ์‹œ: GPT-4๊ฐ€ ์˜์–ด ์œ„ํ‚คํ”ผ๋””์•„ ์ฝ์„ ๋•Œ ~10-20
  • ๋†’์€ PPL ์˜ˆ์‹œ: GPT-4๊ฐ€ ๊ณ ๋Œ€ ๋ผํ‹ด์–ด ์ฝ์„ ๋•Œ ~100+
  • BERT, GPT ๊ฐ™์€ ๋ชจ๋ธ๋“ค์€ Pre-training ์‹œ PPL ๊ธฐ์ค€์œผ๋กœ ์„ฑ๋Šฅ ํ‰๊ฐ€