1. Introduction
Generative model을 control하여 원하는 이미지를 생성하는 방법은 다음과 같이 2가지가 있다.
1) 목적에 맞는 conditional generative model을 만드는 방법
2) well-performed unconditional generative model을 활용하는 방법
DDPM은 Markov transition으로 학습해서 다양한 samples를 만들어냈지만 원하는 이미지가 생성되도록 control하는 것은 어려움. 본 논문에서는 학습이 필요없는 Iterative Latent Variable Refinement(ILVR)을 제안하여 unconditional DDPM에서의 생성을 control함. ILVR은 각 latent variable을 matching시켜서 transition별 주어진 조건을 만족하는 sampling을 할 수 있게 만듦.
위의 Figure 1처럼 Downsampling, Image Translation, Patint-to-Image, Editing with Scribbles와 같은 task를 수행할 수 있는데 상세한 설명은 아래서 하고 일단 대략 이런 concept이라는 것만 알고 넘어감.
2. Background
DDPM 내용 생략
3. Method
3.1에서는 ILVR을 구체적으로 소개하고 3.2에서 ILVR의 여러 속성들에 대해 알아본다.
3.1. Iterative Latent Variable Refinement
주어진 Reference image에 high-level semantics를 공유하는 이미지를 생성하기 위해 아래와 같이 condition(조건) c를 가진 conditional distribution을 제안하여 해당 분포에서 sampling이 이루어지도록 한다.
각 transition $p_\theta(x_{t-1}|x_t, c)$는 조건 c에 의존한다. (조건 c에 따라 달라진다.) ILVR은 기존 DDPM의 $p_\theta(x_{t-1}|x_t)$식에서 추가적인 학습이나 모델없이 condition c만 추가된 형태이다.
$\phi_N(·)$를 linear low-pass filtering operation라고 정의하며 즉 downsampling이나 upsampling의 sequence. 이미지의 차원을 유지시켜준다.
아래의 Figure 2에서 reference image y가 주어졌을 때, condition c의 역할은 생성된 이미지 $x_0$의 downsamplinged image $\phi_N(x_0)$가 $\phi_N(y)$와 같도록 한다.
DDPM의 $q(x_t|x_0)$과 $\phi_N$의 linear property를 활용하여 condition c에서의 각 Markov transition은 아래와 같이 approximated할 수 있다. 위에서 말했던 것처럼 condiction c는 $\phi_N(x_{t-1})$가 $\phi_N(y_{t-1})$와 같도록 함.
$x_t$에서 $x_{t-1}$로의 각 transition에서 condition c는 latent variable $x_{t-1}$과 corrupted reference $y_{t-1}$이 low-frequencyt contents를 공유하는 local condition으로 대체할 수 있다.
먼저 DDPM을 사용하여 $x_t$에서 $x'_{t-1}$을 계산한다. 그 다음 $\phi$는 차원을 유지시키니까 $\phi(x'_{t-1})$과 y_{t-1}을 match시켜 아래와 같이 표현한다.
위 식과 같이 latent variable을 matching하면 ILVR은 Eq.7의 local condition을 만족하고 unconditional한 DDPM으로부터 conditional generation이 가능하게 한다. 아래의 Algorithm 1을 참고.
Algorithm 1을 보니까 더 직관적으로 이해하기 쉬운데 먼저 t = T부터 1까지의 steps이고 DDPM의 reverse process $p_\theta$에서 $x'_{t-1}$을 구하고 forward process q에서 $y_{t-1}$을 구한다. 그 다음 차원 유지를 위한 low-pass filtering $\phi_N(y_{t-1})$, $\phi_N(x'_{t-1})$, $x'_{t-1}$으로 $x_{t-1}$을 구한다.
3.2. Reference selection and user controllability
먼저 $\mu$를 unconditional DDPM이 생성할 수 있는 image set이라고 가정한다. 저자가 소개한 방법을 통해 주어진 reference image y를 가진 conditional distribution에서 sampling을 할 수 있는데 달리 말하면 reference image y와 같은 $\mu$의 subset에서 image를 sampling할 수 있다는 것이다.
Figure 3는 reference image y와 직접적으로 연결된 subset으로 가는 generation step을 시각화한다. subset은 아래와 같이 표기한다.
위 식은 downsampled reference image y와 동일한 image x의 subset을 나타낸다. 위 식을 활용하여 다양한 conditioning steps를 고려할 수 있다.
위 식은 b부터 a로 가는 step에서 latent variable과 일치하는 image의 분포를 표현한다.
reference selection과 subset control에 관한 3가지 property가 있다.
Property 1.
set안에서 선택한 어떤 image도 Reference image가 될 수 있다. 다만 학습된 데이터 분포의 low-resolution space와 일치해야 한다.
Property 2.
downsampling factor N, M (N <= M)의 값이 클수록 더욱 넓은 image subset에 해당한다. 즉, N이 클수록 더 넓은 image subset에서 sampling을 하니까 다양한 이미지가 나올 수 있고 원본과는 유사도가 낮게 된다. 반대로 N이 작다면 아주 작은 특징들까지 공유되므로 원본과 유사한 이미지가 나오게 된다.
Property 3.
conditioning steps의 범위를 제한한다면, 더 넓은 subset에서 sampling이 가능하다. Figure 5는 conditioning steps를 제한했을 때 생성되는 image를 보여준다. 위에서 downsampling factor를 변경했을 때와 비교해보면 conditioning steps를 변경하는 것은 sample diversity에 미세한 영향을 미친다.
4. Experiments and Applications
다양한 image generation tasks에서 ILVR을 사용해보고 각 datasets별 학습을 진행했다. $\phi_N$의 연산은 resizing library을 사용했으며 reference image는 학습중에 보이지 않음.
4.1. Qualitative Results on User Controllability
Reference image와의 semantic similiarity는 downsampling factor N과 conditioning step range [b,a]에 따라 달라진다. 아래의 Figure 4에서 downsampling된 image를 확인할 수 있다. 위에서 말했던 것처럼 N이 증가할수록 더 다양하면서 원본과 덜 유사한 이미지가 생성되는 것을 확인할 수 있다.
아래의 Figure 5에서 다양한 conditioning step의 범위에서 생성된 sample을 확인할 수 있다. 500 step 미만으로 conditioning할 경우 얼굴이 referenece와 달라지는 것을 볼 수 있다.
이와 같이 downsampling factor와 conditioning range를 조절할 수 있고 conditioning range의 경우 sample diversity를 좀 더 세밀하게 control할 수 있다.
4.2. Multi-Domain Image Translation
Image-to-Image translation은 두 visual domains 간 mapping을 학습하는 것을 목표로 한다. 아래의 Figure 6에서 첫 2행은 FFHQ dataset이며 DDPM으로 생성된 sample이다. 일반적으로 image translation model들은 서로 다른 도메인들 간의 translation을 하기 때문에 이미 학습한 도메인들에 대해서만 translation이 가능하다. 하지만 ILVR은 target 도메인에 대해 학습된 하나의 모델만 있으면 된다.
4.3. Paint-to-Image
Paint to Image 결과
4.4. Editing with Scribbles
아래의 Figure 8은 Validation set의 reference image에 임의로 낙서를 추가했다. 그 다음 from 1000 to 200의 time steps, N=8으로 설정하고 결과를 확인했을 때, 낙서가 원본 이미지와 조화를 이루는 것을 확인했다. (각각 구름, 바닥, 귀걸이)
4.5. Quantitative Evaluation
Table 1은 FID를 사용하여 FFHQ와 METFACES dataset에서의 성능을 측정했다. baseline = downsampling factor
downsampling factor가 낮을수록 생성된 이미지가 원본과 유사해지기 때문에 FID가 더 좋은 것을 확인할 수 있다.
Table 2는 N이 높을수록 LPIPS가 높아져 더 다양한 샘플이 만들어지는 것을 알 수 있다. 반대로 N이 낮으면 다양성이 떨어진다.
5. Conclusion
본 논문에서 저자는 DDPM에서의 conditioning 방안을 제안했으며 downsampling factor와 conditioning range를 통해 user가 control할 수 있는 기능을 제공한다. 또한 추가 학습이나 별도의 모델없이도 unconditional DDPM이 다양한 task에서 활용될 수 있음을 입증했다.
'Diffusion' 카테고리의 다른 글
TACKLING THE GENERATIVE LEARNING TRILEMMA WITH DENOISING DIFFUSION GANS (0) | 2023.06.07 |
---|---|
AnoDDPM: Anomaly Detection with Denoising DiffusionProbabilistic Models using Simplex Noise (0) | 2023.05.02 |
Denoising Diffusion Probabilistic Models (0) | 2023.02.02 |
Improved Denoising Diffusion Probabilistic Models (0) | 2023.01.30 |
Denoising Diffusion Implicit Models (0) | 2023.01.27 |