๐ [The Principles of Diffusion Models] ์๋ฆฌ์ฆ
- 1๏ธโฃ ( Part A ) ์ดํดํ๊ธฐ
- 2๏ธโฃ ( Part B ) CH 2. VAE
- 3๏ธโฃ ( Part B ) CH 2. DDPM (with VAE)

๋๋์ด ๊ธธ๊ณ ๊ธด VAE ์ ๋ํ ๋ด์ฉ์ ๋ง์น๊ณ DDPM ์ผ๋ก ๋์ด์๋ค.
์ฌ์ค DDPM ์ ๋ํ ๋งค์ฐ ์ข์ ์ค๋ช ๋ค์ด ์์ค์ ๋งค์ฐ ๋ง๊ธฐ ๋๋ฌธ์ ์์๊ฐ์ ๋ถ๋ถ์ ๋ค๋ฅธ ๊ธ๋ค์ ์ฐธ๊ณ ํ๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค. ์์๋ ๋งค์ฐ ์ค์ํ ํฌ์ธํธ ์ด์ง๋ง ๋ณธ ๋ ผ๋ฌธ์์๋ DDPM ์ด ๋ฌด์์ธ์ง์ ๋ํด์ ๋ ๊น๊ฒ ์ดํดํด๋ณด๋ ค๊ณ ํ๋ค.
๋๋ ๋งค์ฐ ์์ ์ ์ ๋ฆฌ๋ฅผ ์ข ํด๋๊ฒ ์๋๋ฐ ์ต๋ํ ์๊ฐ์ ์ผ๋ก ์ดํด๋ฅผ ํด๋ณด๋ ค๊ณ ์๋ํ๋ ๋์๋ ๊ฒ ๊ฐ๋ค.
( ์ ๋ฆฌ๊ฐ ๊ฑฐ์ ์๋์ด ์์ง๋ง.. ) ๊ทธ๋๋ ํน์๋ ํด์ ์ฐธ๊ณ ํด๋ณธ๋ค!
https://www.notion.so/Background-of-Diffusion-28df1793501b801587b7ca032c7c094f?source=copy_link
์ ๊ทธ๋ผ ๋ค์ ๋ ผ๋ฌธ์ ์ฝ์ด๋ณด๋๋ก ํ์.
** ์ฃผ์ **
์ด ๋ฌธ์์์๋ DDPM์ VAE/HVAE์ ๊ฐ์ “variational ๊ด์ ”์ผ๋ก ์ค๋ช ํ๋ฉด์,
- **Forward(๊ณ ์ , encoder ์ญํ )**๋ “์ ์ด ์ปค๋”์ด๋๊น p(xiโฃxi−1)๋ก ํ๊ธฐ
- **Reverse(ํ์ต, decoder ์ญํ )**๋ ํ๋ผ๋ฏธํฐ๊ฐ ์์ผ๋ pฯ(xi−1โฃxi)๋ก ํ๊ธฐ
์ฆ, ์ ๋ ผ๋ฌธ์ “q=forward, pθ = reverse ” ๊ด๋ก๋ฅผ ๊ทธ๋๋ก ๋ฐ๋ฅด์ง ์๊ณ , “forward๋ p”๋ก ์ ์ด๋ฒ๋ฆฐ ๊ฒ๋๋ค(๋์ p๊ฐ ๋ถ์์ง๋ก ํ์ต/๋นํ์ต์ ๊ตฌ๋ถ).
PDF ๋ณธ๋ฌธ์์๋ forward๋ฅผ Fixed Encoder๋ก, reverse๋ฅผ Learnable Decoder๋ก ์๊ฐํ๋ฉด์
- forward: p(xiโฃxi−1)
- reverse(ํ์ต): pฯ(xi−1โฃxi)
( ์ ๋ ์ฝ๋ค๊ฐ ์ค๊ฐ์ ๋นํฉํ์๋๋ฐ , ํน์๋ ์ฝ์ผ์๋ ๋ถ๋ค์ ํผ๋์ ๋ฏธ๋ฆฌ ๋ฐฉ์งํ์ผ๋ฉด ์ข๊ฒ ์ต๋๋ค. )

2.2 Variational Perspective : DDPM
DDPM ๋ ๊ฒฐ๊ตญ VAE ๋ผ๊ณ ํ ์ ์๋ค. ( variational framework ์์์ ์ดํดํด๋ณด์. )
VAE : ์ธ์ฝ๋ , ๋์ฝ๋ ์กด์ฌ
HVAE : ์ฌ๋ฌ์ธต์ latent ์กด์ฌ
DDPM :
- ๊ฒ์ผ๋ก๋ noise ๋ฅผ ์กฐ์ ํ๋ ๋ชจ๋ธ์ฒ๋ผ ๋ณด์ด์ง๋ง
- ์์ผ๋ก ๋ ธ์ด์ฆ๋ฅผ ๋ฃ๋ ๊ณผ์ ( = ์ธ์ฝ๋ )
- ๊ฑฐ๊พธ๋ก ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ๋ ๊ณผ์ ( = ๋์ฝ๋ )
ใด> ์ด๋ ๊ฒ ์๊ฐํ๋ฉด๋ค๋ฉด latent ๊ฐ ์ฐ์๋ ์ํ์ค (x1,,,, xT) ์ธ ํน์ํ VAE ์ฒ๋ผ ๋ณผ ์ ์๋ค.
DDPM ์๋ ๋๊ฐ์ง ํ๋ก์ธ์ค๊ฐ ์กด์ฌํ๋ค.

Forward pass (Fixed Encoder)
๋ฐ์ดํฐ์ noise ๋ฅผ ์ถ๊ฐ์์ผ ์์ํ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ๋ก ๋ง๋๋, ๊ณ ์ ๋ ํ๋ฅ ๊ณผ์ ์ด๋ค.

์๋ณธ ๋ฐ์ดํฐ Xo ~ p_data(x)

๊ฐ ๋จ๊ณ์ trasition p(xi|xi-1) ์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ๋ฅผ ๋ํ๋ ์ปค๋์ด๋ค.
์ด๊ฑธ ๊ณ์ ๋ฐ๋ณตํด์ ์ต์ข x_T๋ ๊ฑฐ์ N(0,I) ์ ๊ฐ์ ๊ฐ์ฐ์์ ๋ถํฌ์ ์๋ ดํ๊ฒ ๋๋ค.
์ด์ ํฌ์คํ ์์๋ ์ธ๊ธํ์ง๋ง forward ๊ณผ์ ์ ํ์ตํ์ง ์๋๋ค.
vae์ ์ธ์ฝ๋ ์ฒ๋ผ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๊ณ ํ์ตํ๋ ๊ฒ์ด ์๋๋ผ ๋ฏธ๋ฆฌ ๊ณ ์ ํ ๊ฐ์ฐ์์ ์ปค๋์ด๋ค.
Reverse Denoising Process ( Learnable Decoder )
๋ฐ๋๋ก ๋ ธ์ด์ฆ์์ ์์ํด์ ์๋ ๋ฐ์ดํฐ๋ก ๋ณต์ํ๋ ๊ณผ์ ์ ํ์ตํ๋๊ฒ DDPM ์ ์์ฑ ๋ชจ๋ธ์ด๋ค.


์ฌ๊ธฐ์ P ๋ ์ ๊ฒฝ๋ง์ผ๋ก ํ๋ผ๋ฏธํฐํ ๋ ๋ถํฌ์ด๋ค.
ํ์ฌ noise ์ด๋ฏธ์ง xi ๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ -> ์ด์ ๋จ๊ณ x_(i-1) ์ ํ๊ท /๋ถ์ฐ์ ์์ธกํ๋ ํํ์ด๋ค.
( xi ๋ณด๋ค xi-1 ์ด ์๋ณธ ์ด๋ฏธ์ง์ ๊ฐ๊น์ด ๊ฒ์ด๋ค ( ์๋ณธ์ด๋ฏธ์ง๋ x_0 ์ผ๋ก ํ๊ธฐํ๋ค ))
์ด๋ ๊ฒ ๋๋ฉด ๊ฐ ์คํ ์ ์ด์ง ๋ noise ํ ์ด๋ฏธ์ง๋ฅผ ์์ธกํ๋ ๋น๊ต์ ์ฌ์ด ๋ฌธ์ ์ ํด๋นํ๋ค.
vae ์ฒ๋ผ z->x ์์ ์์ฑ ํ๋๊ฒ ์๋๋ผ noise ๋ฅผ ์กฐ๊ธ์ฉ ์ ๊ฑฐํ ๋ฒ์ ์ ์ถ์ธกํ๋ ๊ฒ์ด๋ค.
๊ทธ๋์ ๊ฐ๊ฐ denoisining step ์ VAE ์ฒ๋ผ ํ ๋ฒ์ ์ ์ฒด ์ํ์ ์์ฑํ๋ ๊ฒ ๋ณด๋ค ํจ์ฌ ๋ค๋ฃจ๊ธฐ ์ฝ๋ค๊ณ ์์ ๋์ด ์๋ค.
๊ฐ๋ ์ ์ด๋์ ๋ ์ดํด ๋์ผ๋ฆฌ๋ผ ์๊ฐ์ด ๋๋ค. ์ด์ ํ๋ฒ ๋์ ์์์ ์ผ๋ก ๋ค๋ค๋ณด์.
2.2.1 Forward Process (Fixed Encoder)

๊ธฐ๋ณธ ๊ฐ๋ ์ ์์์ ์ค๋ช ํ์ผ๋ ์๋ตํ๊ณ ์์์ ๋จผ์ ๋ณด๋ฉด
Fixed Gaussian Transitions.

forward step ์ ๋ค์๊ณผ ๊ฐ์ ํจ์๋ก ์ ์ํ ์ ์๋ค.
βi∈(0,1): step i์์ ๋ฃ๋ ๋ ธ์ด์ฆ์ ํฌ๊ธฐ
αi:=1−βi: ์ด์ ์ํ๋ฅผ ์ผ๋ง๋ ๋จ๊ธธ์ง(์ค์ผ์ผ)

์์ ๋ค๋ฅธ form ์ผ๋ก ์จ๋ณด๋ฉด ( ์ํ๋ง์ ) ๋ค์๊ณผ ๊ฐ๋ค ( ์์ ์์ ๋์ผํ ์ด์ผ๊ธฐ )

๊ฒฐ๊ตญ x i-1 ๋ผ๋ ์ด์ step ์ด๋ฏธ์ง์ α ๋งํผ ๋จ๊ธฐ๊ณ ๋ฒ ํ๋งํผ ์๋ก ๋ ธ์ด์ฆ๋ฅผ ์ง์ด ๋ฃ๋ ๊ฒ์ด๋ค. ์ ๋ฆฌํ๋ฉด
- αi xi−1: ์ด์ ์ด๋ฏธ์ง์ ์ ๋ณด๋ฅผ ์กฐ๊ธ ์ค์ธ ๊ฒ
- βiฯตi: ์๋ก ์ง์ด๋ฃ๋ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ
๋ผ๊ณ ์ดํดํ๋ฉด ๋๊ฒ ๋ค. ์ฆ ๊ฐ step ์์ ์ด์ ์ํ ์ถ์ + ๋ ธ์ด์ฆ ์ถ๊ฐ ํ๋ ๊ฐ๋จํ ์ฐ์ฐ์ด๋ค.
Perturbation Kernel and Prior Distribution.
์ฌ๊ท์ ์ผ๋ก ์ ์ปค๋์ ๋ฐ๋ณตํ๋ฉด ์ฐ๋ฆฌ๋ ๋ค์๊ณผ ๊ฐ์ ์์์ ์ป์ ์ ์๋ค.

์กฐ๊ธ ๋ ์ค๋ช ํด๋ณด์๋ฉด
i ๋ฒ step ์ ๊ฐ์๋ ๋ xi ์์ ์๋ ๋ฐ์ดํฐ x0( ์๋ณธ ์ด๋ฏธ์ง) ๋ฅผ ( αi ) ๋งํผ ๋จ๊ธฐ๊ณ , ๋๋จธ์ง๋ฅผ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ๋ก ์ฑ์ด ์ํ
๋ผ๊ณ ๋ณผ ์ ์๊ฒ ๋ค. ์ํ๋ง ์์์ ์๋์ ๊ฐ๋ค

์ฌ๊ธฐ์ ์ค์ํ์ :
- ์ค๊ฐ step ์ ๋ชจ๋ ๊ฑฐ์น ํ์ ์์ด , X0 ( ์๋ณธ ์ด๋ฏธ์ง ) ๋ง ์์ผ๋ฉด ๋ฐ๋ก ์์์ i ์์ ์ noisy ๋ฒ์ ์ ์ํ๋ง ํ ์ ์๋ค.
์ด๊ฒ ์ค์ DDPM ๊ตฌํ์์ ๋งค์ฐ ์ค์ํ๋ค.
ํ์ต์์ time step i ๋ฅผ ๋๋ค ์ํํ๋ค -> ํ๋ฒ์ xo->xi ๋ก ์ ํํ๋ค -> xi ์ ๋ํด ์ญ์ผ๋ก ๋ค์ ๊นจ๋ํ๊ฒ ๋ง๋๋ ๋ฐฉํฅ์ ํ์ตํ๋ค.
์ ๋ง์ง๋ง์๋ N(0,I)๊ฐ ๋๋๊ฐ? ๋ ์ดํด๋ณด๋๋กํ์.
๋ ธ์ด์ฆ ์ค์ผ์ค { βi } ๋ฅผ ์ฆ๊ฐํ๋ ์์ด๋ก ์ก๊ณ , step ์ L ์ ๋งค์ฐ ํฌ๊ฒ ํ๋ฉด (์์ ์์์์ i ๋ฅผ ๋ฌดํ๋๋ผ๊ณ ๊ฐ์ ํด๋ณด๋ฉด )
ํ๊ท ์ ์์ฐ์ค๋ฝ๊ฒ 0์ ์๋ ดํ ๊ฒ์ด๊ณ ( 1๋ณด๋ค ์์์๋ฅผ ๊ณ์ ๊ณฑํ๋๊น ! )
๋ถ์ฐ์ I ์ ์๋ ดํ ๊ฒ์ด๋ค. !

์ฌ๊ธฐ์ ํ๋ ์ค์ํ ์ ์ใด
- ์ด ๋ถํฌ๋ ๋์ด์ xo ์ ์์กดํ์ง ์๋๋ค๋ ์ ์ด๋ค.
์ด๋ ์ํ๊ฐ ์์ ํ ๋ ธ์ด์ฆ๋ผ "์ด๋์ ์๋์ง (xo)" ์ ์ ๋ณด๊ฐ ๋ผ์ด๋ค ํ์ด ์๋ค.
๊ทธ๋์ DDPM ์์๋

์ด๋ฅผ prior(์์ฑ ์์์ ) ์ผ๋ก ์ ํํ๋ค.
๊ทธ๋์ ์์ฑํ ๋๋ ๋จผ์ Xl ( ์์ ํ noise ) N( 0 , I ) ์์ ์ํ๋งํ๊ณ ,
๊ทธ๋ค์ ์ญ๋ฐฉํฅ ์ฒด์ธ์ผ๋ก ๋ง๋ค์ด ๋ธ๋ค.

ํ๋ฒ ์ ๋ฆฌ๋ฅผ ํด๋ณด๋ฉด ์ด 3๊ฐ์ง๊ฐ forward ์ ์ ๋ถ๋ผ๊ณ ํ ์ ์๊ฒ ๋ค.
2.2.2 Reverse Denoising Process (Learnable Decoder)

์ง๊ฐ ํ๊ฒ ์ง๋ง decoder ๋ถ๋ถ์ด ์กฐ๊ธ ๋ ์ด๋ ต๋ค ใ ใ ; ๊ทธ๋๋ ๋ด ์๊ฐ์ vae ๋ฅผ ์์ ํ ์ดํดํ์ผ๋ฉด ์ด์ชฝ ๋ถ๋ถ์ญ์ ๋ฌด๋ํ ๋๊ธธ ์ ์์ ๊ฒ์ด๋ผ ์๊ฐํ๋ค.
Reverse Denoising Process ๊ฐ ๋ญ ํ๋๊ฒ์ผ๊น ?
์ฐ๋ฆฌ๊ฐ forward ๊ณผ์ ์์ xo -> ๋ ธ์ด์ฆ -> ... -> xl ๊ณผ ๊ฐ์ด ์๋ณธ xo ๋ฅผ ์ ์ ๋ ธ์ด์ฆ๋ก ๋ฐ๊ฟ์ ๋ง์ง๋ง์๋ ์์ํ ๋ ธ์ด์ฆ ์ํ (prior) ๋ก ๋ง๋ค์๋ค. reverse ๊ณผ์ ์ ์ด๊ฑธ ๋ฐ๋๋ก ํ๋ ๊ฒ์ด๋ค.
- ์์์ : Xl ( pure noise )
- ๋ชฉํ : Xl -> Xl-1 -> ... -> Xo ๋ฅผ ๊ฑฐ์ณ ์ง์ง ๊ฐ์ ์ํ๋ก ๋ณํ

๊ทธ๋ ๋ค๋ฉด ์ด๋ป๊ฒ p(X_i-1 | X_i ) ๋ฅผ ์ ์์์๊น ? ์ ๋ํ ์ง๋ฌธ์ ๋์ง๋ค.
์ผ๋จ ์ง๊ด์ ์ผ๋ก ์๊ฐํ์๋ ๋ญ๊ฐ ์ฌ์ค ๋ต์ด ์ ํํ ๋ ์ค๋ฅด์ง๋ ์๋๋ค. ์ด๋ฏธ์ง์์ ๋ ธ์ด์ฆ๊ฐ ์์ด์ง๊ฑธ ์ด๋ป๊ฒ ์์ธกํ์ง ? ๋๋ฌด ๋ง๋งํ๋ค. ์ด๋ ๊ฒ ๋ง๋งํ ๋๋ ๋ณดํต ๋ฐ์ดํฐ ํ์ต์ ํตํด์ ํด๊ฒฐ์ ํ ์ ์์ํ ๋ฐ .. ๋ผ๋ ์๊ฐ์ด ๋ค์๊ณ ์ด๋ถ๋ถ์ ํ์ต์ํค๋ฉด ๋์ง ์๋? ๋ผ๋ ์๊ฐ์ด ๋ค ๊ฒ์ด๋ค.
์ผ๋จ ๋จผ์ ์ ์ง์ ์ ์ธ ๊ณ์ฐ์ด ๋์ง ์๋์ง์ ๋ํด์ ๋จผ์ ์์๋ณด์.
Overview: Modeling and Training Objective


์ฌ๊ธฐ์
P(xi | xi-1 ) : forward transition -> ์ด๊ฑด ์ฐ๋ฆฌ๊ฐ ์ ํด์ค Gaussian ์ด๋๊น ์ผ๋จ ์ค์ผ์ด
๋ฌธ์ ๋ pi-1(xi) , pi(xi) ๋ ์๋์์์ฒ๋ผ

์ ์ฒด ๋ฐ์ดํฐ ๋ถํฌ ( p_data(xo) ์ ๋ํด ์ ๋ถํ ํํ๋ผ ์ ์ ์๋ค )
์ฌ์ค ๋งค์ฐ ์ต์ํ ํํ๋ผ๊ณ ๊ฐ์ด ์ฌ ๊ฒ์ด๋ค. ( ๋งจ ์ฒ์ ๋ธ๋ก๊ทธ๊ธ์ ์์ธํ ์์ ๋์ด ์๋ค. ) - ์ฌ์ค ์ข ๋ฟ๋ฏํ๋ค.
์ ์๋๋ค๋๊ฒ ์ดํด๊ฐ ๋ ๊ฒ์ด๋ค.
๊ทธ๋์ p(xi-1|xi) ์์ฒด๊ฐ intractable ํ ํํ๋ผ์ ๊ฒฐ๊ตญ ์ง์ KL ์ ๊ณ์ฐํ๊ธฐ ์ด๋ ต๋ค.
๊ทธ๋์ DDPM์ “๊ทธ๋ผ p(xt−1โฃxt)๋ฅผ ์ง์ ๊ณ์ฐํ์ง ๋ง๊ณ , ๊ทธ๊ฒ์ ๊ทผ์ฌํ๋ ์ ๊ฒฝ๋ง ์ ์ด๋ชจ๋ธ pฯ(xt−1โฃxt)๋ฅผ ํ์ตํ์”๋ก ๊ฐ๋๋ค
์กฐ๊ธ ๋ ์์ธํ ์ดํด๋ณด์.
Overcoming Intractability with Conditioning.
์ฐ๋ฆฌ๋ tractable ํ๊ฒ ๋ง๋ค๊ธฐ ์ํด์ " ๋ง์ฝ ์ฐ๋ฆฌ๊ฐ ์๋ณธ ์ด๋ฏธ์ง x ๋ฅผ ์๊ณ ์์ผ๋ฉด ์ด๋จ๊น ? " ๋ฅผ ๊ฐ์ ํ๋ค.
( ์ง์ง ๋ฉ์ง ์์ด๋์ด ์ธ ๊ฒ ๊ฐ๋ค. )
“intractable ํ p(xi−1โฃxi) ๋์ , ๊นจ๋ํ ๋ฐ์ดํฐ x (=x0)์ ์กฐ๊ฑด์ ๊ฑด
tractable ํ p(xi−1โฃxi, x) ๋ฅผ ๋ณด์.”
( ํ๋ จํ ๋๋ x ( clean sample ์ ์๊ณ ์์ผ๋๊น ! ))
๊ทธ๋์ ์ด๋ฅผ ์์ผ๋ก ๋ํ๋ด๋ฉด

๋ค์๊ณผ ๊ฐ์ ์์์ผ๋ก ๋ํ๋ผ ์ ์๋ค

๊ฒฐ๊ตญ ๊ทธ๋ฌ๋ฉด ์ด๋ ๊ฒ ์ ๋ฆฌ๊ฐ ๋๋ค. ( ์๋์ ๋ ์์ธํ๊ฒ ์์๋ณด์ )

๊ธฐ๋ณธ ๋ฒ ์ด์ฆ ์ ๋ฆฌ์์
์กฐ๊ฑด c ๊ฐ ์ถ๊ฐ๋ ๋ฒ ์ด์ฆ ์ ๋ฆฌ์ ์์ ๋ค์๊ณผ ๊ฐ๋ค. ( b,c ๊ฐ ๋ชจ๋ ์ผ์ด๋ฌ์๋ a ์ผ ํ๋ฅ ์ด๋ผ๊ณ ์ดํดํ๋ฉด ๋จ . )

๊ทธ๋ฌ๋ฉด ์ ์์์ ์ tractable ์ธ๊ฐ ?
1. Markov property

-> forward chain ์ ๋ฐ๋ก ์ ๋จ๊ณ ๋ง ๋ณด๋ฉด ๋์ง , ์๋ ์๋ณธ x ๋ฅผ ๋ณผ ํ์๊ฐ ์๋ค.
( ์ฐ๋ฆฌ๋ ์๋ forward ์์ ์ด์ ๋จ๊ณ์ ๊ทธ๋ฆผ๋ง ํ์ํ์ง , ์๋ณธ์ ํ์ํ๋์ ์ด ์๋ค. )
2. ์ ๋ถ Gaussian
P(xi | xi-1 ) ์ Gaussian ์ด๋ค.
p(xi−1โฃx)์ p(xiโฃx)๋ ์ฐ๋ฆฌ๊ฐ ์์์ ๋ณธ ๊ฒ์ฒ๋ผ

๊ผด์ด๊ธฐ ๋๋ฌธ์ Gaussian ์ด๋ค.
" ์ฆ , Gaussian ๋ค์ ์กฐํฉ์์ ๋์ค๋ ์กฐ๊ฑด๋ถ๋ถํฌ๋ Gaussian "
์ด๋ผ๋ ์ฌ์ค ๋๋ถ์ P(xi-1 | xi ) ๋ ์ญ์ Gaussian ์ด๊ณ , closed form์ผ๋ก ๊ณ์ฐ์ด ๊ฐ๋ฅํด์ง๋ ๊ฒ์ด๋ค.
์ฆ, ์ง์ ๋ชป ๊ตฌํ๋ p(xi−1โฃxi) ๋์ ,
์๋ณธ์ด๋ฏธ์ง (x) ๋ฅผ ์กฐ๊ฑด์ผ๋ก ๊ฑด p (xi-1 | xi, x ) ๋ฅผ ์ฌ์ฉํ๋ฉด ์ํ์ ์ผ๋ก ํจ์ฌ ๋ค๋ฃจ๊ธฐ ์ฌ์์ง๋ค.

์ฐ๋ฆฌ๋ ์ด๋ ๊ฒ ์์ ๊ตฌ์ฑํ๋ฉด
ํ๋ จ์์๋ ๋ฐ์ดํฐx ๊ฐ ์ฃผ์ด์ง ๊ฒ์ด๊ณ , forward ๋ก xi๊ฐ ์ํ๋ง์ด ๊ฐ๋ฅํฉ๋๋ค. ๊ทธ๋์ ๋งค ์คํ ๋ง๋ค Teacher ๋ถํฌ์ธ

๋ฅผ ๋ซํํ ๊ฐ์ฐ์์์ผ๋ก ๊ณ์ฐํ ์ ์์ต๋๋ค. ์ด๋ฅผ ๊ณ์ฐํ๋ฉด ๊ฒฐ๊ตญ ํ์ต ๋ชจ๋ธ P_phi(xi-1|xi) ๊ฐ ์ด๋ฅผ ๋ฐ๋ผ๊ฐ๋๋ก ๋ง์ถฅ๋๋ค.

x (clean)
|
| forward (known Gaussian)
v
x_{i-1} ----> x_i
p(x_i|x_{i-1}) (Gaussian)
์ ๋ต posterior(teacher):
p(x_{i-1} | x_i, x) = closed-form Gaussian โ
๋ชจ๋ธ์ด ๋ง์ถ ๋์:
p_φ(x_{i-1} | x_i) (learnable) โ
์งง๊ฒ ์ ๋ฆฌํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค ( with gpt )
์ด๋ ๊ฒ ํ๋ฉด ์์ฑ๋๋ x ๊ฐ ์์ผ๋๊น teacher posterior ๋ ๋ชป๋ง๋ค๊ณ , ํ์ต๋ p_phi ๋ก denoising ์ ํ๋ฉด์ ์์ฑํฉ๋๋ค.
< 2.2.1 ์ ๋ฆฌ ๋ฐ ์ฆ๋ช >
๋ค์์ผ๋ก ๋์ด๊ฐ๊ธฐ์ ์ ์งง๊ฒ ์ ๋ฆฌํ๊ณ , ์์์ ์ผ๋ก ์ฆ๋ช ์ ์ ๋ํด๋ณด๋ ๊ณผ์ ์ ํ์ธํด๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.

1) ์ ๋ฆฌ ( 2.2.1 ) ์์ฝ ( ์ฝ๊ฒ ์ดํด๋ฅผ ํ๋ฒ.. )
์๋ ํ๊ณ ์ถ์๋ ๋ชฉํ๋ "marginal reverse kernel" ์ KL ์ต์ํ :

- ์ํฉ : ๋ชจ๋ธ p_phi ์๊ฒ ํ๋ฆฟํ ์ด๋ฏธ์ง (xi) ๋ง ์ฃผ๊ณ , ๋ฐ๋ก ์ง์ ์ด๋ฏธ์ง(xi-1) ์ด ์ด๋ค ๋ชจ์ต์ด์๋์ง ๋ง์ถ๋๋ก ์ํด
- ์ด์์ ์ธ ์ ๋ต (teacher , p(xi-1|xi) ) : ์ฌ๊ธฐ์ ์ ๋ต์ง ์ญํ ์ ํ๋ p(xi-1| xi) ๋ ๊ณ์ฐ์ด ๋ถ๊ฐ๋ฅ ( p_data ๋ผ๋๊ฒ ํ์ํ๋ฐ ์ด๊ฑด ์ฐ์ฃผ์ ์๋ ๋ชจ๋ ์ด๋ฏธ์ง์ ํต๊ณ๋ฅผ ์์์ผ์ง.. ๊ฒฐ๊ตญ ์ ๋ ๋ถ๊ฐ๋ฅํ ์์ญ์ . )
-> tractable ํ๊ฒ ๋ฌธ์ ๋ค.

- ์ํฉ : ํ๋ จ๊ณผ์ ์์๋ ์๋ณธ์ด๋ฏธ์ง (x) ๋ฅผ ๊ฐ์ง๊ณ ์๋ค.
- ํ์ค์ ์ธ ์ ๋ต ( p(xi-1 | xi ) ) : ์ด๊ฑฐ ์๋ ๊ฐ์์ง ์ด๋ฏธ์ง(x) ์. ๊ฐ์์ง ์ด๋ฏธ์ง๋ผ๊ณ ๊ฐ์ ํ์๋ , ๋ฐ๋ก ์ง์ ๋จ๊ณ๋ ์ํ์ ์ผ๋ก ์ด๊ฒ์ด๋ค. ๋ผ๊ณ ์๋ ค์ค๋ค.
-> ์๋ณธ(x) ๋ฅผ ์๊ณ ์์ผ๋ฉด , ์ง์ ๋จ๊ณ๋ก ๊ฐ๋ ํ๋ฅ ์ ๊ฐ์ฐ์์ ์์์ผ๋ก ๋งค์ฐ ์ฝ๊ฒ ๊ณ์ฐํ ์ ์๋ค.
๊ฐ์ฉ๋ ํฌ์ธํธ : "๊ฒฐ๊ณผ๊ฐ ๊ฐ๋ค"
์ค์ ์์ ์๋ณธ x ๋ฅผ ๋ชจ๋ฅด๋๋ฐ , ํ๋ จํ ๋๋ง x ๋ฅผ ๋ณด์ฌ์ฃผ๋(conditioning) ๊ฐ๋ฅด์น๋ฉด ๋์ค์ ์๋ณธ(x) ๊ฐ ์์ด๋ ์ ํธ๋๊ฐ ?
๋ต์ yes
๋ฐ์ดํฐ๊ฐ ๋งค์ฐ ๋ง๊ณ , ๋งค์ฐ ๋ง์ ํ๋ จ์ ๋ฐ๋ณตํ๋ค. ( ํนํ ์๋ง์ x ์ ๋ํด์ ๋ฐ๋ณตํด์ ๊ฐ๋ฅด์น๋ค )
์๋ฅผ๋ค์ด๋ณด์. ๊ฐ์ ๋ชจ์์ noise ๊ฐ ๋ xi ๋ฅผ ๋ง๋ฌ๋๋ฐ , ์ด๋จ๋๋ ๊ฐ์์ง ๋ ์ด๋จ๋๋ ๊ณ ์์ด๋ผ๊ณ ๊ฐ๋ผ๊ณ ํ๋ค ํด๋ณด์.
๋ชจ๋ธ์ ๊ทธ๋ผ ์ด ์๋ฌ๋ฅผ ์ต์ํ ํ๊ธฐ ์ํด์ ๊ฒฐ๊ตญ ์ ์ฒด ํ๋ฅ ๋ถํฌ์ ํ๊ท
2. Proof of Theorem ( ์์ง ๋ฏธ์ )

์ฆ๋ช ์ ์กฐ๊ธ ํ๋ํ๊ธฐ ๋๋ฌธ์ ์ข ๋ฐ๋ก ๋นผ์ ์ธ๊น ํ๋ค.
Section D.1.1 ( Supplementary Materials and Proofs ) ์ ๋ถ๋ถ์ด๋ค.



์ข๋ค ์ด์ ํด์์ ํด๊ฐ๋ฉด์ ์ดํด๋ฅผ ์ข ํด๋ณด๋ ค๊ณ ํ๋ค.
๊ฒฐ๊ตญ ์ฆ๋ช ํ๊ณ ์ํ๋๊ฒ์ ๋ค์๊ณผ ๊ฐ๋ค.

์ด๊ฑธ ๋ค์ ์ฐ๋ณ์ผ๋ก ์ฎ๊ธฐ๋ฉด

(์ฌ๊ธฐ์ C ๋ PHI ์ ๋ฌด๊ดํจ , ๋ฏธ๋ถํ๋ฉด ์ด์ฐจํผ ์ฌ๋ผ์ง๋ค. )
์ฆ . ๋์ค์ ์ด๋ค๊ฑธ ์ต์ํ ํด๋ ์ต์ ์ p_phi ๋ ๋์ผํ๋ค.
์์์ ๋ณด๊ณ LLM ์ด๋ ๋ํ๋ฅผ ํ๋ค๋ณด๋๊น ๋ค์ ์๋ก์ด ์์ ๋๋์ ๋ฐ์์ ๋ค์ ์์ฑํ๋ค.
์ฐ๋ฆฌ๊ฐ ์ฐพ๊ณ ์ ํ๋ ์ต์ ์ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ phi๋ฅผ **"๊ณ๊ณก์ ๊ฐ์ฅ ๋ฎ์ ์ง์ (๋ฐ๋ฅ)์ ์ฐพ๋ ๊ฒ"**์ด๋ผ๊ณ ์์ํด ๋ณด์ธ์.
์ข๋ณ(Marignal KL ) : ๋ ๋ฐ๋ฅ์ ์๋ ๊ณ๊ณก
์ฐ๋ณ : ์ข๋ณ ๊ณ๊ณก ์งํ์ ๊ทธ๋๋ก ๋ณธ๋ ์ , ๋์ด C ๋งํผ ๋ค์ด์ฌ๋ฆฐ ๊ณ๊ณก
๊ฒฐ๊ตญ ๋ ํด๋ฐ ๊ณ ๋ ( Loss ๊ฐ ) ์ ๋ค๋ฅด๋ค. ํ์ง๋ง , ๊ฐ์ฅ ๋ฎ์ ์ง์ ์ ์๋์ ๊ฒฝ๋ ( ์ต์ ์ ํ๋ผ๋ฏธํฐ ) ๋ ์ ํํ ์ผ์นํ๋ค.
-> ์ค์ ๋ก ๋ฏธ๋ถ์ ํด๋ณด๋ฉด C ๋ผ๋ ๊ฐ์ ์์ด์ง๊ฒ ๋๋ค. ๋ฐ๋ผ์ ๋ ์์ ๊ธฐ์ธ์ด(gradient ๊ฐ์ด ์๋ฒฝํ ์ผ์นํ๋ค
๊ทธ๋ผ ์์ C ์ ์ ์ฒด๋ ๋ฌด์์ผ๊น

๋ผ๊ณ ์ดํดํ๋ฉด ๋ ๊ฒ ๊ฐ๋ค. ( ๊ณ ๋ง์์ gemini.. )
--------------------------------------------------------------------------------------------------------------------------------------------------------
1) Conditional KL ๊ธฐ๋๊ฐ์ ์ ๋ถ์ผ๋ก ์ ๊ฐ
์ ๋ค์ ๋์๊ฐ์ ๋จผ์ ์ฐ๋ณ์ ๋ณด์ ( conditional )

KL ์ ์๋ฅผ ๋ฃ์ผ๋ฉด


๊ฒฐ๊ตญ ์๋ณธ์ด๋ฏธ์ง(x) ๋ฅผ ์๋ฉด ๊ณ์ฐ์ด ๊ฐ๋ฅํ๊ฒ ๋ฉ๋๋ค.
ํ์ฌ์ํ xi ๋ฟ๋ง ์๋๋ผ ๋งจ ์ฒ์ ์๋ณธ์ด๋ฏธ์ง x ๋ฅผ ์๊ณ ์๋ค๋ฉด , ์ง์ ๋จ๊ณ xi-1 ์ด ๋ฌด์์ด์์์ง ํ๋ฅ ์ ์ผ๋ก ๊ณ์ฐ ๊ฐ๋ฅํ๊ฒ ๋ฉ๋๋ค. (closed form )
๋ํ ์ด ๋ถํฌ๊ฐ ๋๋๊ฒ๋ ๊ฐ์ฐ์์ ํํ๋ฅผ ๋๊ฒ ๋ฉ๋๋ค.
๊ฐ์ฐ์์ ํํ์ด๋ฏ๋ก -> ํ๊ท , ๋ถ์ฐ๋ง ์๋ฉด ์ด ๋ถํฌ๋ฅผ ์์ ํ ์ ์ํ ์ ์๊ฒ ๋ฉ๋๋ค.
2.2.3 Modeling of Reverse Transition Kernel pฯ(xi−1|xi)
DDPM ์ ๊ฐ ์คํ ์ ๋ชจ๋ธ ์ญ์ ์ ๊ฐ์ฐ์์์ผ๋ก ๋ก๋๋ค.

- μฯ(xi,i): ์ ๊ฒฝ๋ง์ด ์์ธกํ๋ ํ๊ท (ํ์ต ๋์)
- σ2(i): ์คํ ๋ณ ๋ถ์ฐ(๋ณดํต ์ค์ผ์ค๋ก ๊ณ ์ , ํน์ ๋ณํ์์ ํ์ตํ๊ธฐ๋ ํจ)
ํฌ์ธํธ๋ ์ฌ๊ธฐ์ ๋ชจ๋ธ์ด (๋ ธ์ด์ฆ๋ฅผ ์ผ๋ง๋ ์คฌ๋์ง ) ๋ฅผ ์์ธกํ๋ค๊ธฐ ๋ณด๋ค (xi ๋ฅผ ๋ณด๊ณ xi-1 ์ ํ๊ท ( ๋ ๋ ธ์ด์ฆํ ๋ฐฉํฅ )) ์ ์์ธกํ๋๋ก ์ค๊ณ๋์ด ์๋ค.
ํ์ต ๋ชฉํ๋ ์คํ ๋ณ๋ก teacher ์ธ p(xi-1 | xi, xo ) ๊ณผ student pฯ(xi−1|xi) ๋ฅผ ๊ฐ๊น๊ฒ ๋ง๋๋ ๊ฒ์ด๋ค. (๋์ด ์ ์ฌํ๋๋ก )

- E_q(xi|xo) ์์ xi ๋ก ๋ ธ์ด์ฆ๋ฅผ ์ค์ ๋ก ๋ฃ์ด ๋ง๋ ์ํ๋ค์ ๋ํด ํ๊ท ์ ๋ธ๋ค.
- KL ๋ด๋ถ : ์ ๋ต posterior p(xi-1|xi,xo) ์ ๋ชจ๋ธ pฯ(xi−1|xi) ๋ฅผ ๋น๊ต.
์ฌ๊ธฐ์ Theorem 2.2.1 ์ด ํ๋ ์ผ์ ๊ฒฐ๊ตญ
์๋ ๋ชฉํ์๋ p(xi-1 | xi ) ์ ๋ํด์ KL ์ ์ง์ ๋ชปํ๋๊น conditional ( ํ์ต์์๋ ์๋ณธ ์ด๋ฏธ์งx ๋ฅผ ๊ฐ์ง๊ณ ์๋ ๊ฒ์ ) ์ด์ฉํ์ฌ ์ด์ ๋ง์ถ์ด ํ์ต์ ํ๋๋ก ํ๋ ๊ฒ์ด๋ค.
(์ค์)
๋ง์ฝ์ KL ์์ ๋ ๋ถํฌ๊ฐ ๋ชจ๋ ๊ฐ์ฐ์์์ด๋ฉด , kl ์ด closed-form ์ด ๋๋ค.
๋ฐ๋ผ์ ๋ ๊ฐ์ฐ์์ ๋ถํฌ ์ฌ์ด์ KL Divergence ๋ L2 Norm ์ ๋น๋กํ๊ฒ ๋๋ค.
๋ฐ๋ผ์ ๋ณต์กํ ํ๋ฅ ๊ณ์ฐ์ด ํ๊ท ๋ฌธ์ ๋ก ๋ฐ๋๊ฒ ๋๊ณ ์์์ ์๋์ ๊ฐ๋ค.


๋๋จธ์ง ( ๋ถ์ฐ ๊ด๋ จ ๋ก๊ทธ / trace ํญ ) ์ ํ๋ผ๋ฏธํฐ์ ์์กดํ์ง ์๊ฑฐ๋ ๋ถ์ฐ์ ๊ณ ์ ํ๋ฉด ์์๋ก ๋ฌถ์์ ์์ด์ C ๊ฐ ์๊ธด๋ค.
์กฐ๊ธ๋ ์ค๋ช ์ด ํ์ํ ๊ฒ ๊ฐ์์ ์ด๋ถ๋ถ์ llm ๊ณผ ๊ฐ์ด ์ ๋ฆฌ๋ฅผ ํ๋๊ฑธ ์ ์ด๋ณผ๊น ํ๋ค.
( ๊ฐ์ฐ์์ KL https://simpling.tistory.com/33 )
1. ์ ์ ์กฐ๊ฑด
์ ๋ต ๋ถํฌ p ( xi-1 | xi , xo )
ํ๊ท ( ์์์ผ๋ก ๊ณ์ฐ๋ ์ ๋ต )
๋ถ์ฐ : ๊ณ ์ ๊ฐ .
์์ธก๋ถํฌ p_phi(xi-1 | xi ) ( ์ฐ๋ฆฌ๊ฐ ํ๋ จํ๋ ํ๋ผ๋ฏธํฐ )
ํ๊ท : ๋ชจ๋ธ์ด ์์ธกํ ๊ฐ
๋ถ์ฐ : ๊ณ ์ ๋ ๊ฐ ( ์ ๋ต๊ณผ ๋์ผํ๋ค๊ณ ๊ฐ์ ํจ .)

ํต์ฌ์ ๋ ๋ถํฌ์ ๋ถ์ฐ์ด ๊ฐ๋ค๊ณ ๊ฐ์ ํ๋ ๊ฒ์ด๋ค.
ํญ์ด ๊ฐ๋ค๋ฉด , ๋ ์ฐ๋ด์ฐ๋ฆฌ๋ฅผ ๊ฒน์น๊ฒ ํ๋ ค๋ฉด ์ค์ฌ๋ง ์ด๋ํ๋ฉด ๋๊ธฐ ๋๋ฌธ์ด๋ค.
2. ์ํ์ ์นํธํค (KL Divergence ๊ณต์)


์ด๋ ๊ฒ ๋๋ฉด . ( ์๋ ๊ทธ๋๋ก ๋์ ํ๋ฉด ๋๋ค )

์์์๋ ์์ ๊ทธ๋๋ก ๋ฃ์ผ๋ฉด ๋ค์๊ณผ ๊ฐ์ด ๋๋ค. ๊ทธ๋ฌ๋ฉด ๊ฒฐ๊ตญ

์ด๋ ๊ฒ ๋๋๋ฐ
ํ๋ผ๋ฏธํฐ์ ์์กด ํ๋ ํญ์ ์ค์ง ๋ค์๊ณผ ๊ฐ์ด ๊ตฌ์ฑ์ด ๋๋ค ( C ์ ์ธ )

๋งค์ฐ ๋ฉ์ง๋ฉด์๋.. ์ด๋ป๊ฒ ์๊ฐํ๋ ์ถ๋ค.
cf.
( Improved DDPM ๋ฅ์์๋ ๋ถ์ฐ๋ ํ์ตํ๋ ๊ฒฝ์ฐ๊ฐ ์๋ค๊ณ ํ๋ค - ๋งค์ฐ ๊ถ๊ธํ๋ค.. )

์ฒ๋ผ “ํ๊ท ์ค์ฐจ ํญ” + “๋ถ์ฐ ํ๋ํฐ(๋น์จ + ๋ก๊ทธ)”๊ฐ ๊ฐ์ด ์๊น๋๋ค.
- ์ฅ์ : likelihood/์ํ ํ์ง์ด ์ข์์ง ์ฌ์ง๊ฐ ์์ต๋๋ค
ํนํ ์คํ ๋ณ๋ก “์ด๋ ๊ตฌ๊ฐ์ ๋ ํ์คํ๊ฒ, ์ด๋ ๊ตฌ๊ฐ์ ๋ ๋ถํ์คํ๊ฒ”๋ฅผ ํ์ตํด์ ๋ํ ์ผ/๋ ธ์ด์ฆ ์ฒ๋ฆฌ์์ ์ด๋์ ๋ณด๋ ๊ฒฝ์ฐ๊ฐ ์์ต๋๋ค. - ๋จ์ : ํ์ต์ด ๊น๋ค๋ก์์ง ์ ์์ต๋๋ค
๋ถ์ฐ์ ์๋ชป ์์ธกํ๋ฉด(๋๋ฌด ์๊ฒ/ํฌ๊ฒ) ๊ทธ ์คํ ์ loss๊ฐ ํ๊ฑฐ๋, ์ ์ฒด ์ํ๋ง์ด ๋ถ์์ ํด์ง ์ ์์ด์ ๋ณดํต์- ๋ถ์ฐ์ ์์ ์์ ๋กญ๊ฒ ๋๊ธฐ๋ณด๋ค,
- “๊ณ ์ ๋ถ์ฐ ์ค์ผ์ค๊ณผ posterior ๋ถ์ฐ ์ฌ์ด์์๋ง” ์์ธกํ๊ฒ ํ๋ ๋ฑ
๋ฒ์๋ฅผ ์ ํํ๋ ํธ๋ฆญ์ ์๋๋ค(Improved DDPM๋ฅ์์ ํํจ).
-->
OpenAI๊ฐ ๊ณต๊ฐํ improved-diffusion ๋ ํฌ
Guided diffusion๋ฅ(๋ถ๋ฅ๊ธฐ/์กฐ๊ฑด guidance)๋ก ํ์ฅ๋๋ ์ถ๋ฐ์
“ํ ๋จ๊ณ ์ญ์ ์ด + ์ค์ผ์ค + (์ ํ์ ) learned sigma” ๊ฐ์ ๊ตฌ์ฑ์ ์ดํ ๋ณํ/๊ฐ์ด๋์ค ๊ณ์ด๋ก ์์ฐ์ค๋ฝ๊ฒ ์ด์ด์ง๊ธฐ ๋๋ฌธ์, ๊ฐ๋
์ ์ผ๋ก๋ ๋ง์ ํ์ ์์
์ ๊ธฐ๋ฐ์ ๊น๋ ค ์์ต๋๋ค(๋ค๋ง ์ด๋ฆ์ “Improved DDPM”์ด๋ผ๊ณ ๋ถ๋ฅด์ง ์์ ์ ์์).
๋ ํํ ๊ฑด ๊ทธ ๋ ผ๋ฌธ์์ ์ ์ํ ๊ตฌ์ฑ์์(ํนํ cosine schedule, learned sigma/learned_range, hybrid loss)๊ฐ ์ฌ๋ฌ diffusion ํ์ดํ๋ผ์ธ์ ํก์๋ผ ์ฐ์ด๋ ํํ์ ๋๋ค
์.. ์์ฃผ ์ฐ์ด์ง๋ ์๋๋ฏ. ๋ฑ๋ด๋ ํ์ตํ๊ธฐ ๋งค์ฐ ๊น๋ค๋ก์ธ๊ฒ ๊ฐ๊ธดํ๋ค. (๋ ์ข์ ๋ฐฉ๋ฒ๋ค๋ก ์ ๋นํ ์ฒ๋ฆฌํ๋ ๋ฐฉํฅ์ผ๋ก ์ ๊ทธ๋ ์ด๋ ๋๊ฑฐ ๊ฐ๋ค )

๊ทธ๋์ ์ต์ข ํ์ต ๋ชฉํ๋ ๋ฐ์ดํฐ์ ๋ํด ํ๊ท ์ ๋ด๊ณ ์์๋ฅผ ์ ๊ฑฐํ๋ ๊ฒ์ด๋ค.
xo ~ pdata ์ ๋ํด์ ํ๊ท ์ ์ทจํ๊ณ , ์์ c ๋ ํ์ ์์ผ๋๊น ๋ฒ๋ฆฌ๋ฉด ์์ ์์ฒ๋ผ ๋ณํ๋ค.
๊ทธ๋ฌ๋ฉด ๊ฒฐ๊ตญ DDPM ์ด ์คํ ๋ณ๋ก ๊ฐ์ค๋ MSE regression ๋ก ํ์ต์ ํ ์ ์๋ ๊ฒ์ด๋ค.
2.2.8 ์ ๊ทธ๋๋ก ๋ณด๋ฉด ๋คํธ์ํฌ ์ ๋ ฅ์ด (xi , i ) ์ด๊ณ ์ถ๋ ฅ์ m(xi,i) ๋ผ์ xi ์์ ํ๋จ๊ณ ์ "ํ๊ท " ์ ๋ณต์ํ๋ ๋ฐฉํฅ์ ํ์ตํ๋๋ฐ,
ํ์ง๋ง ๋ณดํต (noise) ์์ธก์ผ๋ก ๋ฐ๊ฟ ํ๋๋ค. ( ์ด์ด๊ฐธ์ด๋ 2.2.4 ) ์์ ๋ ์์ธํ ํ๋๋ก ํ๋ ค๊ณ ํฉ๋๋ค.
2.2.4 Practical Choices of Predictions and Loss
๊ทธ๋์ " ์ ํ๊ท ์ ์ง์ ๋ง์ถ์ง ์๊ณ ๋ ธ์ด์ฆ๋ฅผ ๋ง์ถ๋๊ฒ ๊ฐ์ ์ผ์ธ์ง " ์ ๋ํด์ ์ค๋ช ํด๋ณด๊ณ ์ ํฉ๋๋ค.
1) forward
DDPM forward ๋ ์๋ณธ์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ๋ฅผ ์๋ ๊ณผ์ ์ด๊ณ , ํ๋ฒ์ xi ๋ฅผ ์๋์ ๊ฐ์ด ์ธ ์์์ต๋๋ค.

( ์ฌ๊ธฐ์ αหi ๋ ๋์ ์ค์ผ์ค ( ์ ์ ์์์ ธ์ ๋ ธ์ด์ฆ๊ฐ ์ปค์ง ) ์ด๋ผ๊ณ ๋ณด๋ฉด ๋๋ค. )
๊ทธ๋์ ์ ์์์ด ์๋ฏธํ๋๊ฑด
๋ x0์ ๋ ธ์ด์ฆ ฯต๋ฅผ ์ ํด์ง ๋น์จ๋ก ์์ด ๋ง๋ ๊ฒ์ ๋๋ค
2) ์ m-loss๋ฅผ ε-loss๋ก ๋ฐ๊ฟ ์ ์๋?
์๊น 2.2.8 ์์ ๋ณด์๋ ํ์ต ๋ชฉํ๋

๋ค์๊ณผ ๊ฐ์์ต๋๋ค.
๊ทธ๋ฐ๋ฐ μ(xi,x0,i) ๋ฅผ xi ์ ε ๋ก ๋ค์ ์ธ ์์์ต๋๋ค.
์ forward ์์์ ์ ๋ฆฌํ๋ฉด ์ด๋ฐ ํํ๊ฐ ๋๋๋ฐ

์ด๋ฅผ μ(xi,x0,i) ์ ๋์ ํ๋ฉด μ๊ฐ ์๋์ ๊ฐ์ด ๋ฉ๋๋ค. ( ์ด๋ป๊ฒ ์์์ด ์ ๋ฆฌ ๋์๋์ง๋ ๋์ค์ ์ค๋ช . ์ผ๋จ์ ํ๊ท ์ด ์๋์ ๊ฐ์ด ์ ๋ฆฌ ๋๋ค๊ณ ์๊ณ ์์ผ๋ฉด ๋๋ค. )


(๋์ ๋์น)
์ฌ๊ธฐ์ ci ๋ i ์ ๋ง ์์กดํ๋ ์ค์นผ๋ผ ์ด๋ฏ๋ก , ํ๊ท ์ xi ์์ ε ๋ฐฉํฅ์ผ๋ก ์ผ์ ๋ ๋นผ๊ณ ์ค์ผ์ผ๋ง ํ๋ ์๋ฏธ์ ์์์ผ๋ก ์ดํดํ๋ฉด ๋ ๊ฒ ๊ฐ์ต๋๋ค.
๊ทธ๋์ ์ด์ ๋ชจ๋ธ ํ๊ท ์ ํ๋ผ๋ฏธํฐํ ํ๋ฉด

๊ทธ๋์ ์ด์ loss ์์์ ๋ค์ ์จ๋ณด๋ฉด

๋ค์๊ณผ ๊ฐ์ ๊ผด๋ก ๋ณํ๋๋ฐ ์ด๊ฒ ๊ฒฐ๊ตญ ํ๊ท ์ ์ง์ regression ํ๋ ๊ฒ๊ณผ ε ๋ฅผ regression ํ๋ ์ฌ์ค์ ๊ฐ์ ์ต์ ์ ํด๋ฅผ ๊ฐ์ง๊ฒ ๋๋ค๊ณ ํฉ๋๋ค.
Simplified Loss with ฯต-Prediction.
์๋๋ ์ค์ DDPM loss ์ ๋๋ค.

์๋๋ timestep ๋ณ ๊ฐ์ค์น๊ฐ ์์ด์ผ ์ ๋ฐํ์ง๋ง , ์ค๋ฌด์์๋ ์ด๋ฐ์์ผ๋ก ์๋ตํด์ ์ฌ์ฉํ๋ค๊ณ ํฉ๋๋ค. ( ์๋ฐํ ์์์ ์ผ๋ก๋ ์๋ c(i) ๋ผ๋ i ์ ์์กดํ๋ ๊ฐ์ค์น๊ฐ ์์ด์ผ ํ์ง๋ง ์ฐ์ง ์๋ ๊ฒฝ์ฐ๊ฐ ์์ -> ๋ง์ฝ์ ๊ฐ์ค์น๊ฐ ์๋ค๋ฉด ์ด ๊ฐ์ค์น๋ ์ด๋ค timestep ์ ๋ ์ค์ํ๊ฒ ์๊ฐํ๋์ง / ์๋ค๋ฉด ์๋ง๋ ๋ชจ๋ timestep ์ ๊ฐ์ ์ค์๋๋ก ๋ง์ถ๋ค๊ณ ๋ณด๋ฉด ๋ ๋ฏ. )
( ์ฌ๊ธฐ์ c(i) ๋ 1/alpha_i ๋ฅผ ์๋ฏธํ๋ค๊ณ ๋ณด๋ฉด ๋ฉ๋๋ค. )
+ ์ถ๊ฐ : ์คํ์ ํตํด์ ๊ฐ์ค์น๋ฅผ 1๋ก ํต์ผํ๋๊ฒ ๋ ์์ฑ๋ ์ด๋ฏธ์ง์ ํ์ง์ด ์ข๋ค๋ ๊ฒฐ๊ณผ๊ฐ ์๋ค๊ณ ํ๋ค์.
์ด๋ ๊ฒ ๋๋ฉด ์ฅ์ ์ด ์ฌ๋ฌ๊ฐ์ง ์๊ธฐ๋๋ฐ
1. ํ๊น ์ค์ผ์ผ์ด ์ผ์ ํด์ง๋ค.
- ฯต∼N(0,I) ์ด๋ฏ๋ก ๋ชจ๋ timestep ์์ ํ๊น ๋ถ์ฐ์ด 1์ด ๋ฉ๋๋ค.
- ์๋ xo ์์ฒด๋ฅผ ํ๊น์ผ๋ก ๋๋ฉด xi ์์ ์ ํธ๊ฐ ์์ด์ง ์๋ ์์ด์ ํ๊ท๊ฐ ๋ถ์ํด์ง๊ธฐ ์ฝ์ง๋ง
ฯต ๋ฅผ ํ๊น์ผ๋ก ๋๋ฉด ์ค์ผ์ผ์ด ์ผ์ ํ๋๊น , ๊ณจ๊ณ ๋ฃจ ํ์ต์ด ์ ๋ฉ๋๋ค.
( ํนํ , vanishing or exploding ํ๋ ๋ฌธ์ ๋ ์ฌ๋ผ์ง๋ค๊ณ ํ๋ค์ )
cf. ์กฐ๊ธ ๋ ์ดํด๋ฅผ ์ฝ๊ฒ ํ๊ธฐ ์ํด์..
์ด์ฏค ๋๋ฉด ์ฌ์ฌ ์์ ๋ด์ฉ์ด ๊ธฐ์ต์ด ํฌ๋ฏธํด์ง๊ธฐ๋ ํ๊ณ . ๊ฐ์ธ์ ์ผ๋ก ์ข ๋ ์ง๊ด์ ์ผ๋ก ์๋ฏธ๋ฅผ ๊ฐ์ง๊ณ ์ถ์ด์ ์ ๋ฆฌํด๋ณธ๋ค.
( gpt ์ ํจ๊ป ์ ๋ฆฌํ๋ค. )
1. xt ์์ ๋ ธ์ด์ฆ์ ์ด๋์ด ์ปค์ง๋ ๊ฒ์ ๋ง๋ค.

(์์์ ๋ณด๋ฉด ๋ฃจํธ ์์ ๋ค์ด๊ฐ์๋ ๊ฒ์ด ์ ์ ์ปค์ง๋ค. )
2. ๊ทผ๋ฐ loss ๊ฐ ๋ง์ถ๋ ์ ๋ต์ "๋ฃจํธ์" ์ด ์๋๋ผ ์์ฒด ์ด๋ค.

์ ๋ต ๋ ํญ์ N(0,I) ์์ ๋ฝ์ ๊ฐ์ด๋ผ ํญ์ ๋ถ์ฐ(์ค์ผ์ผ) ์ด ํญ์ 1์ด๋ค.
๋ฐ๋ผ์ ํ๊น(์ ๋ต)์ ํฌ๊ธฐ๋ t ์ ๋ฐ๋ผ์ ์ปค์ง์ง ์๋๋ค.
๊ทธ๋์ ์ค์ผ์ผ์ด ์ผ์ ํ๋ค๋๊ฒ ์ ๋ ฅ xt ์ ์ค์ผ์ผ์ด ์ผ์ ์ด ์๋๋ผ ,
์ ๋ต์ผ๋ก ํ๊ทํ๋ ํ๊น ์ด ์ผ์ ํ๋ค๋ ๋ง์ด๋ค.
-----------------------------------------------------------------------------------
๊ทธ๋์ ๋ด๊ฐ ๊ณ์ ํท๊ฐ๋ ธ๋ ๋ถ๋ถ์ด ์ด๊ฑฐ๋ค ( ์ด์ฏค ๋๋๊น ์ข ์์์ ๋ํด์ ๋ง์ด ํ๋ ค์ง๊ฑฐ ๊ฐ๋ค. )
1. ๋๋์ฒด ์ ๋ฌด์์ธ๊ฐ?

- ์ด๋ฏธ์ง๋ ๊ฐ์ shape ์ ๋๋ค ํ ์์ด๋ค ( C , H , W )
- ํฝ์ / ์ฑ๋ ๋ง๋ค ( ํ๊ท 0 , ๋ถ์ฐ 1 ) ์ธ ๊ฐ์ฐ์์ ๋์๋ฅผ ๋ฝ์์ ๋ง๋ ๊ฒ์ด๋ค.
( ์ค์: ์ด $\epsilon$ ์์ฒด๋ t๊ฐ 1์ด๋ 1000์ด๋ ํญ์ ๋๊ฐ์ '๊ฐ๋'๋ฅผ ๊ฐ์ง ๋๋ค ๋ ธ์ด์ฆ ๋ฉ์ด๋ฆฌ์ ๋๋ค. (ํ๊ท 0, ๋ถ์ฐ 1)
๊ทธ๋์ ์ด๋ ๋ฑ์ฅํ๋๋ฐ ?
forward ์์ xt ๋ง๋ค๋ ์ง์ ์ํ๋งํด์ ์๋๋ค.


์ด๋ฐ์์ผ๋ก ํ์ตํ๋ค๊ณ ํจ.
Q. ์ ๊น๋ง ๊ทผ๋ฐ ์ ์ค๋ก ์ ํ์ต์ํค๋๊ฑฐ ์๋์๋ ?
A. “ฯต์ ํ์ต์ํจ๋ค”๋ ๋ง์ ฯต ์์ฒด๋ฅผ ๋ฐ๊พธ๊ฑฐ๋ ํ์ตํ๋ค๋ ๋ป์ด ์๋๋๋ค.
ฯต์ ๋งค๋ฒ ์ฐ๋ฆฌ๊ฐ ๋๋ค์ผ๋ก ๋ฝ๋ ํ์ค์ ๊ท ๋
ธ์ด์ฆ(์ ๋ต์ง) ๊ณ , ํ์ต๋๋ ๊ฒ์ ์ ๊ฒฝ๋ง ฯตฯ ์
๋๋ค.
-> ๋ ธ์ด์ฆ๋ฅผ ๋ฃ์ด ๋ง๋ xt๋ฅผ ๋ณด๊ณ , ๊ทธ๋ ์ค์ ๋ก ์์ด ๋ฃ์๋ ๋ ธ์ด์ฆ ฯต์ ์ ๊ฒฝ๋ง์ด ๋ง์ถ๋๋ก(ํ๊ทํ๋๋ก) ํ์ตํ๋ค.

Well.... ์ ์ฌ๊ธฐ๊น์ง ์ค๋๊น ๋ญ๊ฐ ๋ ์ง๊ด์ด๋ ๋ฉ์ด์ง ๋๋ ? ์ ์คํ ๋ง๋ค ๋๋ค์ธ๋ฐ , ๊ทธ๊ฑธ ์ ์ด๋ป๊ฒ ์์ธกํ์ง ?
์ญ์ LLM ์ ๋์์ ๋ฐ์์ ์กฐ๊ธ ๋ ๋ฅ๋ค์ด๋ธ ํด๋ดค๋ค.
1) “์คํ ๋ง๋ค ๋๋ค ฯต์ธ๋ฐ, ๊ทธ๊ฑธ ์ ์์ธกํด?”
์ด๊ฒ ์ข ๊ฐ์ฅ ๋ฐ์๋๋ฆฌ๊ธฐ ์ด๋ ค์ ๋ค (์ง๊ด์ ์ผ๋ก) .
์์์ผ๋ก ๋ดค์๋๋ ์ ๊ทธ๋ ๊ตฌ๋.. ์์ง๋ง ( ํนํ ํ๊ท ์ ์์ธกํ๋ค๊ณ ํ์๋๋ ) ํฌ๊ฒ ์ํ๊ฐ์ด ์์๋๋ฐ ,
๋๋ค ์ฑ์ค๋ก ์ ์์ธกํ๋ค๊ณ ํ๋๊น ๋ญ๊ฐ ์ด์ํ๋ค ๋งค์ฐ.

2) ์ ํํ ฯต์ ๋ง์ถ๊ฒ ํ๋? “์ง์ฐ๋ ค๋ฉด ๋ญ๊ฐ ์ผ๋ฃฉ์ธ์ง ์์์ผ ํด์”
๋ชฉํ๋ xt_์์ ๋ ธ์ด์ฆ๋ฅผ ์กฐ๊ธ ๋์ด x_t−1๋ก ๊ฐ๋ ๊ฒ(๋ ๊นจ๋ํด์ง๋ ๊ฒ)์ ๋๋ค.
๋ ธ์ด์ฆ ์ฑ๋ถ์ด σ์ด๋๊น,
- “๋ ธ์ด์ฆ ํจํด์ด ์ด๋์ ์ด๋ป๊ฒ ๋ค์ด๊ฐ๋์ง(ฯต)”๋ฅผ ์๋ฉด
- ๊ทธ๊ฑธ ๋นผ์ ๊นจ๋ํ๊ฒ ๋ง๋ค ์ ์์ต๋๋ค.
์ฆ ๋ชจ๋ธ์ ๋งค ์คํ ๋ง๋ค ์ด๋ ๊ฒ ํ๋ํ๋ “์ง์ฐ๊ฐ”๊ฐ ๋ฉ๋๋ค:
์ ๋ ฅ: ๋๋ฌ์ด ์ด๋ฏธ์ง xt
์ถ๋ ฅ: “์ฌ๊ธฐ๊ฐ ๋๋ฌ์(๋ ธ์ด์ฆ)์ด๋ค”๋ผ๋ ํจํด ฯต
2) “๋๋ค์ธ๋ฐ ์ ๋ง์ถฐ?”์ ๋ํ ๋ต
๋๋ค์ด๋๊น ๋ง์ถ ์ ์์ง ์๋๊ฐ ์๋๋ผ,
“๋ด๊ฐ ๋ฐฉ๊ธ ์์ด ๋ฃ์ ์ก์์ด ๋ญ์๋์ง”๋ฅผ
๊ฒฐ๊ณผ๋ฌผ x๋ฅผ ๋ณด๊ณ ๋์ง์ด ๋ณด๋ ๊ฒ(์ถ์ ) ์ ๋๋ค.
๋น์ :
- ๋ด๊ฐ ์ข ์ด์ ๋๋คํ ๋์(ฯต) ๋ฅผ ํ๊ณ
- ๊ทธ ์์ ๊ทธ๋ฆผ์ ๋ฎ์ด์จ์ x๋ฅผ ๋ง๋ค์์ผ๋ฉด,
- xt๋ฅผ ์์ธํ ๋ณด๋ฉด ๋์ ํ์ ์ด ๋ณด์ ๋๋ค.
- ๋ชจ๋ธ์ ๊ทธ “๋์ ํ์ ”์ ๋ณด๊ณ ๋์๊ฐ ๋์ถฉ ์ด๋ป๊ฒ ์๊ฒผ๋์ง ๋ง์ถ๋ ๊ฒ๋๋ค.
์ฆ ๋ฏธ๋ ์์ธก์ด ์๋๋ผ ์ด๋ฏธ ์์ธ ๊ฒ์ ๋ณต์ํ๋ ๊ฒ๋๋ค.
3) ์ ๊ตณ์ด ๋์(ฯต)๋ฅผ ๋ง์ถ๋ฉด ๋์์ด ๋๋?
์๋ํ๋ฉด ๋์๋ฅผ ์์์ผ ์ง์ธ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
- “์ฌ๊ธฐ๊ฐ ๋์ ์ฑ๋ถ์ด๋ค”๋ฅผ ์๋ฉด
- ๊ทธ ๋ฐฉํฅ์ผ๋ก ๋นผ๋ฉด ๋ ๊นจ๋ํด์ง๋๋ค.
๊ทธ๋์ ํ ์คํ denoise๊ฐ ์ด๋ ๊ฒ ๋ฉ๋๋ค:
- ๋ชจ๋ธ์ด “์ก์ ํจํด” ฯต์ ์ถ์
- xt์์ ๊ทธ ์ก์ ์ฑ๋ถ์ ์กฐ๊ธ ๋นผ์ xt๋ก ๊ฐ
์ด๊ฑธ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณตํ๋ฉด “๋ ธ์ด์ฆ → ๊นจ๋ํ ์ด๋ฏธ์ง”๋ก ๋ณต์/์์ฑ์ด ๋ฉ๋๋ค.

2) ์.. ๋ ๋ค ๋ ธ์ด์ฆ ์ธ๊ฑด๊ฐ ?

๋์ ํฉ์ณ์ผ ์ง์ง xt ์ ๋ํด์ง๋ ๋ ธ์ด์ฆ์ด๊ธดํจ.

์ฐ๋ฆฌ๊ฐ "๋ ธ์ด์ฆ๋ฅผ ์์ธกํด๋ผ"๋ผ๊ณ ํ ๋, ํฌ๋ช ๋ ์์น๋ฅผ ๋ง์ถ๋ผ๋ ๊ฒ ์๋๋ผ ๋ ์ด์ด 2์ ์๋ ์๊ธ์๊ธํ ์ด๋ฏธ์ง($\epsilon$)์ ํฝ์ ๊ฐ์ ๊ทธ๋ ค๋ด๋ผ๋ ๋ป์ ๋๋ค.
3) ๊ทธ๋ฌ๋ฉด ์ฑ์ค๋ก ์ ํฝ์ ๋ง๋ค ๋์ค๋ ? ( C H W ํํ ? )
-> ๋ณดํต ์ด๋ฏธ์ง ํ ์์ ์์ ํ ๊ฐ์ SHAPE ์ด๋ค.

์ค์ผ์ด.. ๋ดค๋๋ฐ ๋ค์ 1๋ฒ ์๋ฌธ์ด ์ข ๋จธ๋ฆฌ์์ ๋๊ฐ์ง ์๋๋ค. ๋ญ๊ฐ ์ง๊ด์ ๋งค์ฐ ๋ฐํ๋ ์ผ์ธ๊ฑฐ ๊ฐ๋ค..; (๋ด ์ง๊ด์ด ๋ถ์กฑํด์..) ๋ญ ํค์ฐ๋ฉด ๋๋๊ฑฐ๋๊น ์ผ๋จ ์ข ๋ค๋ฅธ ์๋ฃ๋ฅผ ์ดํด๋ณด๊ธฐ๋ก ํ๋ค.



-> https://ksh0416.tistory.com/147
why diffusion models don't memorize ๋
ผ๋ฌธ์ ์ฝ์ผ๋ฉด์๋ ์ข ์๋ฌธ์ด์๋ ์ ์ด ์ฌ๊ธฐ์๋ค.
๊ฒฐ๊ตญ MSE ๋ฅผ ํ๋๋ฐ๋ SHARP ํ๊ฒ ํ์ต๋ฐ์ดํฐ๋ฅผ ์ธ์ธ ์ ์๋ค๋.?
์..
์ด๋ถ๋ถ์ ๋ํด์๋ ์ ์ชฝ ๋ ผ๋ฌธ ์ชฝ์๋ค๊ฐ ์ ๋ฆฌํธ๋ณด๋๋ก ํ๊ฒ ๋ค.


q. ๊ทธ๋ผ ํ์ต์ xo ์๋ณธ์ผ๋ก ๋ฐ๋ก ์์ธกํ๋๊ฑฐ๊ณ ? ์ถ๋ก ์์๋ ๋ญ ์ด๊ฑธ ์ด๋ป๊ฒ ํ์ฉํ๋ค๋๊ฑฐ์ง ๊ทธ๋ผ ์ฑ์ค๋ก ํ๋ผ๋ฏธํฐ๋ ๊ฒฐ๊ตญ xo ์์ ๋ฐ๋ก ๊ฐ๋๋ก ํ์ต์ํค๋๊ฑฐ ์๋๊ฐ ? ๊ทธ๋ฆฌ๊ณ ์ฌ๊ธฐ์ ์ฑ์ค๋ก ํ๋ผ๋ฏธํฐ๊ฐ ๊ฒฐ๊ตญ ๋ญ์ง๋ ์ ๋ชจ๋ฅด๊ฒ ์ด
a.

๋ณด๊ณ ๋ค์ ์๋ฌธ -> ๊ทผ๋ฐ ๋ด๊ฐ ์ข ์ ๋งคํ๋ค๊ณ ๋๋ผ๋๊ฒ ๋ ธ์ด์ฆ ํฌ๊ธฐ x ํ์ค ์ ๊ท๋ถํฌ(๋ ธ์ด์ฆ ํจํด -> ์ด๊ฒ ์ฐ๋ฆฌ๊ฐ ์์ธกํ๋๊ฑฐ ) ) ์ด๋ ๊ฒ ๋๋๋ฐ ์ด๊ฒ ๊ทธ๋ฌ๋ฉด.. ์.. ์ฑ์ค๋ก ๋ง ์ ํ์ต์ ํ๋๊ฑฐ์ง ? ๋ ธ์ด์ฆ ํฌ๊ธฐ๋ ๊ทธ๋ฌ๋ฉด ๊ณ ์ ์ด๋๊น ๋งค ์คํ ๋ง๋ค ์๊ณ ์๋๊ฑฐ์ผ ? ( ํ์ต / ์ถ๋ก ์ ๋๋ค ? )


2) ๊ทธ๋ผ ฯต-prediction์ด ๊ฒฐ๊ตญ x0๋ก ๊ฐ๊ฒ ํ์ตํ๋ ๊ฑฐ ์๋๊ฐ?

3) ์ถ๋ก ์์ ?



( ์๋ง๋ ๋์ด์ค๋ฉด์ ์ฑ์ค๋ก ์ ๋ํด์ ์กฐ๊ธ ์ดํด๊ฐ ๋ถ์กฑํด์ ์ด์ชฝ์์ ์๊ฐ์ด ๋ง์ด ๊ฑธ๋ ธ๋ ๊ฒ ๊ฐ์์. .. ์์๋ ๊ฑฐ์ gpt ๋ ๋ํํ๋ฉด์ ์ข ๋ชจ๋ฅด๋ ๋ถ๋ถ์ ๊ธฐ๋กํด๋๊ฑด๋ฐ ์ง์ gpt ๋๋ ค๋ณด์๋๊ฒ ์ข์๊ฒ ๊ฐ๊ธฐ๋ ํฉ๋๋ค.
-> ์๋ ๋ด์ฉ์ ์ฝ๊ณ ๋์ ๋ฅ๋ค์ด๋ธ๋ฅผ ์ข ๋ ํด๋ดค์ผ๋ฉด ์ข์์๊ฒ ๊ฐ๋ค์ ์ข ํท๊ฐ๋ฆฌ๋ ๋ถ๋ถ์ด ์์๋๋ฐ ๋ช ํํด์ก์ต๋๋ค.
( ์ญ ๋ค์ ํ๋ฒ ์ฝ์ด๋ณด๊ณ ์๋๋ฐ , ๋ค์ฃฝ๋ฐ์ฃฝ์ด๊ธดํด๋ ๋๋ฒ์ ๋ ์ฝ์ผ๋ฉด ์ดํด๊ฐ ์ข ๋๋๊ฒ ๊ฐ์ต๋๋ค ))
2.

๊ฒฐ๊ตญ ์ด ์์์ด ๋งํ๊ณ ์ถ์๊ฑด MSE ํ๊ท์ ์ ๋ต์ด ํญ์ ์กฐ๊ฑด๋ถ ํ๊ท ์ด ๋๋ ๊ฒ ์ ๋๋ค.
์ฆ ,
- xi ๋ฅผ ๋ณด๊ณ
- ๊ฐ๋ฅํ ๋ชจ๋ ์ฑ์ค๋ก ๋ค ํ๋ณด์ค์์
-> "ํ๊ท ์ " ์ผ๋ก ๊ฐ์ฅ ๋ง๋ ๊ฐ์ ๋ด๋ ํจ์๊ฐ ์ต์
( ํต๊ณํ ์ ์ผ๋ก๋ MSE ์ต์ํ ํ๋ ๊ฐ์ฅ ์ ํํ ์ ๋ต์ด ํ๊ท ์ด๊ธฐ๋ ํ๊ณ . )
๊ทธ๋์ ์ต์ ์ ๋คํธ์ํฌ๋ ์ด xi ๊ฐ ๋ง๋ค์ด์ง๋ ( given xi ๋ผ๋ ์กฐ๊ฑด์์ ) ,
๋ค์ด๊ฐ์ ๋ ธ์ด์ฆ ์ฑ์ค๋ก ์ ํ๊ท ์ ์ธ ๋ชจ์ต์ด ๋ญ์์๊น ?๋ฅผ ์ถ๋ ฅํ๊ฒ ๋ฉ๋๋ค.
( ๊ทธ๋๊น ์ง์ง ์ฑ์ค๋ก ์ ์ ํํ ๋ง์ถ๋ค x
-> ํต๊ณ์ ์ผ๋ก ๊ฐ์ฅ ๊ทธ๋ด๋ฏํ ๋ ธ์ด์ฆ๋ฅผ ๋ด๋ ๊ฒ )
์๋ํ๋ฉด ๊ฐ์ xi ๋
-> ์ฌ๋ฌ๊ฐ์ xo
-> ์๋ก ๋ค๋ฅธ ์ฑ์ค๋ก
์ ์กฐํฉ์ผ๋ก ๋ง๋ค์ด ์ง ์ ์๊ธฐ ๋๋ฌธ์
xi ๋ง ๋ณด๊ณ xo ์ด๋ , ์ฑ์ค๋ก ์ 100 % ์ ํํ ๋ณต๊ตฌํ๋๊ฑด ๋ถ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ ,
๋คํธ์ํฌ๋ ์ ์ผํ ์ ๋ต์ด ์๋๋ผ ์กฐ๊ฑด๋ถ ๊ธฐ๋๊ฐ์ ํ์ตํ๋๋ก ํฉ๋๋ค.
์ฆ ์ ๊ฐ ์๊น ์์์ ๊ฐ์ฅ ์๋ฌธ์ ๊ฐ์ก๋ , " ๋๋ค์ ์ด๋ป๊ฒ , ๊ทธ๋ฆฌ๊ณ ์ ๋ง์ถฐ ? " ์ ๋๋ ๋๋ต์ผ๋ก์จ
๋ชจ๋ธ์ด ๊ณผ๊ฑฐ์ ์ค์ ๋๋ค ๋ ธ์ด์ฆ๋ฅผ ์ ํํ ์ฐ์ ์ ์์ผ๋ , MSE ๋ฅผ ์ค์ด๊ธฐ์ํด์
๊ฐ์ฅ ๊ทธ๋ด๋ฏํ ๊ฐ๋ฅ์ฑ๋ค์ ํ๊ท ์ ์ ์ํ๋ฉด ํต๊ณํ์ ์ผ๋ก ๊ฐ์ฅ ์์ ํ๊ฒ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
( ์ด๋ถ๋ถ์ ๋ํ ์์์ ๋์ค์ ๋ ์์ธํ๊ฒ ์ค๋ช ํ๋ค๊ณ ํฉ๋๋ค . )
( 2.2.4 ์ดํ๋ก ์ด์ง ๊ณต๋ถ์ ๊ณต๋ฐฑ์ด ์์ด์ ๋ค์ ๋ฆฌ์บก๊ฒธ gpt ํตํด์ ํต์ฌ๋ง ์ ๋ฆฌํด๋ฌ๋ผ๊ณ ํ์ต๋๋ค. )

2.2.5 DDPM’s ELBO

Reverse Markov chian ์ ๋ค์ ์๊ณผ ๊ฐ๋ค. ( ๋๋ ธ์ด์งํ ๋ ์์ )
๊ทธ๋ฆฌ๊ณ ์ฐ๋ฆฌ๊ฐ ์ํ๋๊ฒ ์ค์ ๋ฐ์ดํฐ์ marginal liklihood ์ด๋ฏ๋ก,

์ด๋ ๊ฒ ๋๋๋ฐ , ์ด ์ ๋ถ์ ๊ณ์ฐ์ด ์ด๋ ค์ฐ๋๊น vae ์ฒ๋ผ ELBO ๋ฅผ ์ด๋ค.

์ฆ๋ช ์ D.1.2 ์ ์กด์ฌํ๋ค
์ฆ๋ช ์ ์ํ๊ณ ๊ฐ๊ธฐ๋ ๋ ์์ฝ๊ธฐ ๋๋ฌธ์ ํ๋ฒ ํ์ธํด๋ณด๊ณ ๊ฐ๋ณด์.


๋ค์ ์ข ์ดํด๋ณด์.
VAE ๋ ๋ฐฉ๋ฒ์ ์ผ๋จ ์์ ํ ๋์ผํ๋ค. ์ผ๋จ ๋จผ์ ๊ณ์ฐ์ ์ฉ์ดํ๊ธฐ ์ํด์ LOG ๋ฅผ ์ทจํด์ค๋ค.
STEP1 ) Jensen's inequality

๊ทธ๋ฆฌ๊ณ ์ฌ๊ธฐ์ ์์์ ๋ถํฌ q(x1:l | xo ) ๋ฅผ ๋ฃ๋๋ค. ๊ทธ๋ฌ๋ฉด

์ฌ๊ธฐ์ ๊ธฐ๋๊ฐ ํํ๋ก ๋ฐ๊พธ๋ฉด . ( ์ฑ ์ด๋ ์์์ด ์ด์ง ๋ค๋ฅธ๋ฐ 0 / 1 ์์ ๋๋ค ์๊ด์์ต๋๋ค )
๊ธฐ๋๊ฐ์ ๋ํ ์์์ด๋ฏ๋ก

๊ทธ๋์ ์ฌ๊ธฐ์ jensen ์ ์ฉํ๋ฉด
log ์์ผ๋ก ๋ฃ์ด์ ์ ๊ฐํ๋ฉด

๋ฐ๋ผ์


( cf. ๊ธฐ๋๊ฐ <-> ์ ๋ถ )



ELBO ๊น์ง๋ VAE ์์ ํ๋ ๋ถ๋ถ์ด๋ผ ๊ฐ๋ตํ๊ฒ ์ ์ด๋๊ณ . ๊ทธ๋ค์ ๋ ์ค์ํ ๋ด์ฉ์ ๊ฒฐ๊ตญ ์ด๋ป๊ฒ ์ดํญ์ด 3๊ฐ์ง๋ก ๋๋ ์ง๋์ง์ ๋ํด์๋ ํ์ธํด๋ณด๊ณ ๋์ด๊ฐ๋ ค๊ณ ํ๋ค.
ELBO ์์์

๋ค์๊ณผ ๊ฐ์๋ฐ ( ์ฌ๊ธฐ์ P_phi : reverse / q : forward )
DDPM ์ chain rule ๋์ ํ๋ฉด

๊ทธ๋์ ์ด ๋ก๊ทธ๋ฅผ ํผ์น๋ฉด

๊ทธ๋์ ๊ฒฐ๊ตญ

์ด๋ ๊ฒ 3 ํญ์ผ๋ก ๋๋ ์์๋ค.
๋ค์ ๋ ๊ธ์ด ๊ธ์ด์ง ๊ฒ ๊ฐ์์.. ์ ์ ๊ธ๋ก ์ฆ๋ช ์ ๋ฐ๋ผ๊ฐ๋ณด๊ณ ์ ํ๋ค.

๊ฒฐ๊ตญ ์์ 3ํญ์ ๋ค์๊ณผ ๊ฐ์ ํญ์ผ๋ก ๋ง๋ค๊ณ ์ถ์๊ฒ์ด๋ค.
( ์ด์ ์๋ ์ด๋ฐ ์์ ๋ค๋ฃจ๊ธฐ๋ ๋ง์ด ํด๋ณด์๋ค. )






์ด๋ถ๋ถ์ด ์ด์ง ์ ๋งคํ๊ธด ํ๋ฐ..
์ด์ฉ๋ ์ด๋ ๊ฒ ์ ๋ฆฌํ ์ ์๋ค.

DDPM ์ ELBO ๋ฅผ ์ด์ ์ ์ฐ๋ฆฌ๊ฐ ํํํ๋ ์ ๋ณด ์ฒ๋ฆฌ ๊ด์ ์์ ํด์ํ๋ฉด ๋ฌด์์ ๋ค์ ์ ์ ์์๊น ์ด์ผ๊ธฐํ๊ณ ์๋ค.


์ผ์ชฝ :
p_data(x) vs p_phi (xo)
-> ์ฐ๋ฆฌ๊ฐ ์ง์ง ์ํ๋ ๋ถํฌ ( ์ง์ง ๋ฐ์ดํฐ vs ๋ชจ๋ธ์ด ๋ง๋๋ ์ต์ข ์ด๋ฏธ์ง ๋ถํฌ )
์ด๊ฑด ๋ชจ๋ธ์ด ์ง์ง ๋ฐ์ดํฐ๋ฅผ ์ ๋ชจ์ฌํ๋์ง ์ต์ข ๊ฒฐ๊ณผ๋ก๋ง ์ธก์ ํ๋ ๊ฒ์ด๋ค.
์ค๋ฅธ์ชฝ :
p(xo , x1:L ) vs p_phi ( xo , x1:L )
- p(xo, x1:L ) : ์ง์ง ๋ฐ์ดํฐ xo ์์ ์์ํด์ forward ๋ก ๋ ธ์ด์ฆ๋ฅผ ๋จ๊ณ๋ณ๋ก ์์ด๊ฐ ์ ์ฒด ๊ถค์ ์.
-p_phi(xo , x1:L) : prior ์์ ์์ํด์ reverse ๋ก ๋จ๊ณ๋ณ๋ก ๋ณต์ํด๊ฐ๋ ์ ์ฒด ๊ถค์
์ฆ ์ฌ๊ธฐ๋ ์ต์ข ์ด๋ฏธ์ง ๋ฟ๋ง ์๋๋ผ ์ค๊ฐ ๋จ๊ณ x1 , x2 ,,,, xl ๊น์ง ํฌํจํ ์ ๊ณผ์ ์ด ์ผ๋ง๋ ๋ฎ์๋์ง ๋ณด๋ ๊ฒ์ด๋ค.
( ์ ํํ ๊ธฐ์ต ์๋๋๋ฐ HVAE ์์๋ ์ด๋ฐ ๋น์ทํ ์์์ด ์์๋ค. )
๊ฒฐ๊ตญ ์ค๊ฐ ๋จ๊ณ ( x1 ,,,, xl ) ์ด ์ถ๊ฐ ์ ๋ณด๊ฐ ๋๋๋ฐ
- ๊ฒฐ๊ณผ xo ๋ง ๋ณด๋ฉด ์ด ๋ชจ๋ธ ๊ฒฐ๊ณผ ์ด๋ฏธ์ง๊ฐ ๊ทธ๋ด๋ฏํ๋ค ? ๋ผ๊ณ ๋์ด๊ฐ ์ ์๋๋ฐ
- ์ค๊ฐ๋จ๊ณ ๊น์ง ๋ณด๋ฉด ์ด๋ค ๋ ธ์ด์ฆ ๋ ๋ฒจ์์ ๋ณต์์ด ์ ์๋๋์ง , ํน์ ๋จ๊ณ์์ ์ด๊ธ๋๋์ง ๋ ๋ง์ด ๋๋ฌ๋๋ค.
๊ทธ๋์ ๊ฒฐ๊ตญ ๋น๊ต์ ์ธ ์์๋ ๋จ์๊ฐ ๋ง์์ง๊ณ ์ด์ ๋ฐ๋ผ์ ๋ ์ ๊ฐ์งํ ์ ์์ด์
์ค๋ฅธ์ชฝ KL ์ด ๋ ํฐ ๊ฐ์ ๊ฐ์ง๊ฒ ๋๋ค.
์กฐ๊ธ ๋ ์ ๋ฆฌ๋ฅผ ํด๋ณด์๋ฉด .. ( gpt ์ ํ์ ๋น๋ ค.. )
์ด ๋ฌธ์ฅ์ด DDPM์์ ํ๊ณ ์ถ์ ๋ง(๋ฉ์์ง)
์ด ๋ถ๋ฑ์์ ์ฌ์ค ๋ค์ ๋ง์ ํ๊ณ ์ถ์ด์ ๋์ค๋ ๊ฒ๋๋ค:
“์ฐ๋ฆฌ๊ฐ ์ง์ง ์ํ๋ ๊ฑด ์ต์ข ๋ถํฌ pฯ(x0)p_\phi(x_0)๋ฅผ ๋ฐ์ดํฐ์ ๋ง์ถ๋ ๊ฑด๋ฐ, ๊ทธ๊ฑธ ์ง์ ํ๊ธฐ ์ด๋ ต๋ค. ๋์ ์ ์ฒด ๊ณผ์ (joint) ๋ฅผ ๋ง์ถ๋ ๋ ๊ตฌ์กฐ์ ์ธ ๋ชฉํ๋ฅผ ์ต์ ํํ๋ฉด, ๊ทธ๊ฑด ์ต์ข ๊ฒฐ๊ณผ๋ฅผ ๋ง์ถ๋ ๋ชฉํ๋ณด๋ค ‘๋ ๊ฐํ ์กฐ๊ฑด’์ด๋ผ์ ๊ฒฐ๊ณผ์ ์ผ๋ก ์ต์ข ๋ถํฌ๋ ์ข์์ง๋ค.”
์ฆ,
- DDPM ํ์ต์ “์ ์ฒด ๋๋ ธ์ด์ง ๋จ๊ณ๋ค์ ์ ๋ง์ถ๋ ๊ฒ”(์ค๋ฅธ์ชฝ์ ์ค์ด๋ ๋ฐฉํฅ)
- ๊ทธ๋ฌ๋ฉด “์ต์ข ์์ฑ ๊ฒฐ๊ณผ๋ ์ข์์ง๋ค”(์ผ์ชฝ๋ ํจ๊ป ์ค์ด๋ ๋ค)
๋ผ๋ ์ ๋นํ์ ๋๋ค.
๋ผ๊ณ ํฉ๋๋ค. ๊ฝค๋ ์ง๊ด์ ์ด๊ณ ์ดํดํ๊ธฐ ํธํด์ง๊ฒ ๊ฐ์ต๋๋ค.
2.2.6 Sampling
๊ธธ๊ณ ๊ธด ๋จ์์ ๋ง์ง๋ง ๋ถ๋ถ์ธ sampling ์ ๋๋ค.
์ ๋ ์ฌ์ค ์ฒ์์ ๋ํจ์ ์ ๋ฐฐ์ธ๋ ๋ญ ํ์ต์ด์ผ ๊ทธ๋ ๋ค ์น๋๋ฐ sampling ์ด ์๊ฐ๋ณด๋ค ์ดํด๊ฐ ์ ์๊ฐ๊ฑฐ๋ ์
๋๋ค ๋ ธ์ด์ฆ์์ ์ํ๋ ์ด๋ฏธ์ง๋ฅผ ๋ง๋ ๋ค๊ณ ? ( ์ด๋๋ conditional ์ด๋ผ๋๊ฑธ ์์ ์๊ฐ์ ์ํ๊ณ , ์ํ๋ ๋ชจ์์ด ๋์ค๋ ์ค ์์์ต๋๋ค. ) ์ด์จ๋ ์ํ๋ง์ ๋ํด์ ์ข ๋ ์์๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.

์ผ๋จ DDPM์์ ์ํ๋ง์ด๋
์์ ๋ ธ์ด์ฆ XL ์์ xo ์ต์ข ์ด๋ฏธ์ง๋ฅผ ์์ฑํฉ๋๋ค.
๊ฐ ๋จ๊ณ์์
1. ํ์ฌ ์ํ xi ๋ฅผ ๋ณด๊ณ ๋คํธ์ํฌ๊ฐ ๊ทธ ์์ ์์ธ ๋ ธ์ด์ฆ(์ ์ค๋ก ) ์ด ๋ฌด์์ธ์ง ์ถ์ ํ๊ณ
2. ์ถ์ ์น ์ด์ฉํด์ ๋ ๊นจ๋ํ xi-1 ๋ฅผ ์ํ๋ง ํฉ๋๋ค.

์๋ฌธ์ ์ค๋ช ๊ทธ๋๋ก ์ ๋๋ค. (์ฌ์ค ์ฌ๊ธฐ์ ์ด๋ ค์ธ๊ฑด ์์ต๋๋ค. )

๊ทธ๋์ ๊ฒฐ๊ตญ ๋ ธ์ด์ฆ๋ฅผ ํตํด ( = ํ๊ท ์ ๋ง๋ค์ด ) ๋ค์ xi ๋ฅผ ์์ฑํฉ๋๋ค.
Another Interpretation of DDPM’s Sampling.
์ฌ๊ธฐ์ ์ด์ผ๊ธฐ ํ๊ณ ์ถ์๊ฑด clean sample ์ noise ๋ฅผ ์์ธกํจ์ผ๋ก์จ ์ถ์ ํ ์ ์๋ค๋ ๊ฒ ์ ๋๋ค.
forward ๊ฐ ์๋์ ๊ฐ์ ์์์ธ๋ฐ

์ด๋ ๋คํธ์ํฌ๊ฐ ์ ์ค๋ก ์ ๋ง์ท๋ค๊ณ ์น๋ฉด xo ๋ฅผ ์ญ์ผ๋ก ์ถ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.

์ด๊ฑธ ๊ทธ๋ฌ๋ฉด clean sample ์ด๋ผ๊ณ ํ ์ ์์ต๋๋ค.
๊ฒฐ๊ตญ ์ด๋ค์๋ฏธ๋๋ฉด.

xi-1 ์ ( xi ์ clean ์์ธก ์ฌ์ด ์ด๋๊ฐ ) + ๋ ธ์ด์ฆ ( ๋ถํ์ค์ฑ ๋ฐ์ )
๊ทธ๋์ DDPM ์ํ๋ง์ ์ฌ์ค์ ์ด๋ฅผ ๋ฐ๋ณตํฉ๋๋ค.

1. ๋ณต์ : xi -> x^o ( ํ์ฌ๋ฅผ ๋ณด๊ณ ์๋ณธ์ ์ถ์ ํ๋ค )
2. ์ฌ์ํ : x^o ๋ฅผ ์ค์ฌ์ผ๋ก ๋ ๋ ธ์ด์ฆ์ธ xi-1 ๋ฅผ ๋ฝ๋๋ค.
(๋๋ ์ฌ์ค ์ด๋ถ๋ถ์ด ๊ฝค๋ ์ฌ๋ฐ์๋ค )
์ x^o ๋ ํนํ ํฐ ๋ ธ์ด์ฆ์์ ํ๋ฆฟํด์ง๋ ? ( ์ ํํ์ง ์๋ ? ) ํ๋๋ฅผ ๋์ง๋ค.
์ด๋ถ๋ถ์ด ์ด์ ์ https://ksh0416.tistory.com/147
์ฌ๊ธฐ์ ๋ค์๋ ์๋ฌธ : ์ด๋ป๊ฒ ์ด๋ฐ๊ฑธ ์๊ฐํ์๊น . ๋ ๋ํจ์ ์ ์ด๋ป๊ฒ ๊ณ์ฐ์ ํ๊ธธ๋ ์ด๋ฐ ์๊ฐ์ ํ์๊น . ๊ถ๊ธํ๋๋ฐ ์ด๋ถ๋ถ์ ์ฝ๋ค๋ณด๋๊น , ์ถฉ๋ถํ ์ด๋ฐ ๋ ผ์๋ก ์ด์ด์ง ์ ์๋ค๋๊ฒ ์ดํด๊ฐ ๊ฐ๊ธฐ๋ ํ๋ค. (์์ฃผ ์กฐ๊ธ์ด๋๋ง)
์ด๊ฒ ์ ๊ฐ ์ ๋ฆฌํ๊ธฐ์๋ ์๊ณ ์๋ ์ง์์ ๊ธ๋ก ํํํ๊ธฐ ์ด๋ ค์์
์ด๋ถ๋ถ์ gpt ํตํด์ ์ ๋ฆฌํ์ต๋๋ค. ( ๋ค๋ฅธ ๋ ผ๋ฌธ๋ค์ด๋ ์ง์์ด ์์ฌ์์ด์ ์ข ์ค๋ช ์ด ์ด์ํด์ ์ง์ ์ต๋๋ค )
์ฐ๋ฆฌ๋ ๊ฒฐ๊ตญ
1. MSE ๋ก ํ์ตํ ์ต์ ์ densoier ๋ ๊ฒฐ๊ตญ ์กฐ๊ฑด๋ถ ํ๊ท ๋ฐ์ ๋ชป๋ธ๋ค.
2. ์กฐ๊ฑด๋ถ ํ๊ท ์ multi - modal ๋ถํ์ค์ฑ์ "ํ๊ท " ๋ด์ ์์ด์ ๋ธ๋ฌ๋ฅผ ๋ง๋ ๋ค.
๊ทธ๋์ ๋ํจ์ ์ ํ๋ฒ์ ํฌ๊ฒ ๋ง์ ๋ณต์์ด ์๋๋ผ
๋ ธ์ด์ฆ๊ฐ ํฐ ๊ณณ -> ์์๊ณณ์ ์กฐ๊ธ์ฉ ๋ด๋ ค์์ ๊ตฌ์กฐ๋ฅผ ์ ๊ตํ ์ํจ๋ค.
์ฐ๋ฆฌ๊ฐ ์ง๊ธ๊น์ง ๋ค๋ค๋ ์์๋ค์ด๋ค. ๊ฒฐ๊ตญ ์์์๋ ์ด์ผ๊ธฐ ํ๋ฏ์ด mse ๋ฅผ ํตํด์ ๊ณ์ฐํ๊ฒ ๋๋ค.


( ๋ง์น diffusion policy ๋ ผ๋ฌธ ์ฝ์๋ explict policy ๋ฅผ ๋ณด๋ ๋ฏ ํ๋ค. )



Slow Sampling Speed of DDPM
๊ทธ๋์ DDPM ์์๋ ๋ง์ ์ํ๋ง์ ํตํด์ ์์ฑํด์ผํด์ ์๊ฐ์ด ๋๋ฆฌ๋ค๊ณ ํฉ๋๋คใ ฃ. (O(L) ๋ฒ์ ๋คํธ์ํฌ ์คํ)
cf. DDPM ์์ step ์ด 1000๋ฒ์ธ๋ฐ
์ค์ ๋ก ์์ฑ ๋ชจ๋ธ์์ ์ํ๋ง ํ ๋๋ 990~ 980 ๋ฒ๋ ์ํ์ ์๋๋ค.
์ด๊ฑด ์ ๋ ๊ฒฝํ์ ์ธ ๊ฑฐ๊ณ ๋ค๋ฅธ ๋ถ๋ค์ด ๋ง์ํ์๊ธธ ๋ณดํต 1000๋ฒ ๋คํ๋ฉด ์ํ์ด ๋ณ๋ก ์คํ๋ ค ์์ข๋ค๊ณ ํฉ๋๋ค. ( ์ค๋ฒ์ํ๋ง๊ฐ์ ๋๋ )
2.3 Closing Remarks
์ง์ง์ง์ง๊ธธ๊ณ ํ๋ํ ์ฌ์ ์ด์๋๊ฑฐ ๊ฐ์ต๋๋ค.
๊ฒฐ๊ตญ ์ ํฌ๋ VAE -> HVAE ๋ฅผ ์ดํดํ๊ณ
์ด๋ค์ด DDPM ์ผ๋ก ์ด๋ ๋ถ๋ถ์ด ๋ณํํ๋์ง ์๋ ค์ฃผ์์ต๋๋ค.
์ด ์ฅ์ ์ ๋ฆฌํ๋ฉด์ ๊ฐ์ธ์ ์ผ๋ก๋ ๋ํจ์ ์ ๋ํด์ ๋ง์ด ์๊ฒฌ์ด ๋์ด์ก๋๊ฒ ๊ฐ์ต๋๋ค.
๊ทธ๋์ ํํธํ ๋์ด์์๋ ์ง์์ ๋ค์ ์ฌ์กฐ๋ฆฝํ๋ฉด์ ์์ ๋ฟ๋ง ์๋๋ผ ๋ค๋ฅธ ๋ํจ์ ๋ ผ๋ฌธ์ ์ฝ์๋๋ ์์ฒญ ๋์์ด ๋ง์ด๋๊ณ
์ง๊ด๋ ์๊ฒจ์ ์ค์ค๋ก ์์ฒญ ๋ฐ์ ํ๋ค๊ณ ๋๊ผ์ต๋๋ค.
๋ค์์ฅ์์๋ Score-Based ๋ก ์ฐพ์๋ต๋๋ก ํ๊ฒ ์ต๋๋ค. !

