2025 Neurlps best paper 중 diffusion 에 관련한 논문 읽어보았다.
꽤나 흥미로운 논문이였고 최근에 디퓨전 관련해서 이런 이론적인 연구역시 아직 활발한 것 같다.
또한 내용도 직관적이여서 읽기 편했다 ( 그것은 내가 너무나 복잡한 수식을 생략했기 때문.. )
( Is Your Diffusion Model Actually Denoising? 라는 논문도 재밌어 보였다. )
( 아래는 빈약한 카드뉴스..)
+ ) https://ksh0416.tistory.com/146
다른 글을 정리하다가 갑자기 의문이 들어서 추가적으로 정리를 해볼까한다.
( 뭔가 다른 지식이랑 연결하는게 항상 재밌는거같다. )
결국 디퓨전도 mse 와 같은 형태로 학습을 하는데 , 대체 어떻게 데이터를 외우는 것일까..?
mse 는 데이터가 붕괴된다고 한것 아니였나 ?
그렇게까지 sharp 하게 데이터를 외울수가 있는것인가 ?
-----
일단 디퓨전 모델은 표면적으로 MSE 로 학습이 되긴하나 , 이 regression 의 대상이 최종 이미지가 아니라 noise 이다.
그래서 이미지 자체가 아니라 노이즈( 혹은 score 로 ) 노이즈가 섞인 분포의 로그 기울기를 추정하는 과정으로 해석이 된다.
그니까 디퓨전의 mse 수식은 결국 NOISE 를 regression 하는것인데 , 이건 결국 노이즈 레벨 마다 이미지를 출력한다기 보다 vector 장을 학습시키는 효과가 있습니다.
이게 MSE 면 결국 평균으로 가니까 블러가 맞는데 ( diffusion policy 에서 explict policy 처럼 .. )
dift 로 여러번 사용해서 샘플을 만들어서 , regression 인데도 sharp 하게 된다고 합니다.
샘플링할때 이 denoising과정을 여러번 진행하는데 , 이게 단일 입력에 대한 조건부 평균으로 붕괴되는 " MSE 블러 " 효과가 그대로 적용 되지 않는다. ( 같은말 )
음 정리해두니까 위 논문이랑 엄청 상관이 있는 논의는 아니였던 것 같지만 ..
그래서 mse 로 학습했는데 어떻게 memorize 까지 되는거지라는 의문이 있어서 잠깐 다시 정리해봤다.
사실 이걸 쓰면서도 중간에 ,
기존 overfitting 같은 경우가 위 논문에서 이야기하는 memorize 한 경우인데 이때도 mse 로 학습을 대부분 하니까 ..
이미 어떤 mse 로 학습을 해도 overfitting 될 수 있었지 싶었다.
'Paper' 카테고리의 다른 글
| VIST3A 리뷰 발표자료 (0) | 2026.02.08 |
|---|---|
| Diffusion Policy 발표자료 (0) | 2025.12.24 |
| TRELLIS 발표자료 (0) | 2025.11.26 |
| [The Principles of Diffusion Models] 이해하기 - ( Part B ) CH 2. VAE (1) | 2025.11.19 |
| [The Principles of Diffusion Models] ( Part A ) (0) | 2025.11.03 |