확산 모델 알고리즘
1. 개요
1. 개요
확산 모델은 딥러닝 기반 생성 모델의 한 종류로, 데이터에 점진적으로 노이즈를 추가하는 순방향 과정과 노이즈로부터 원본 데이터를 복원하는 역방향 과정을 학습하여 새로운 데이터를 생성합니다. 이 방법은 확률론적 확산 과정에 기반하며, 특히 고품질의 이미지 합성 분야에서 뛰어난 성능을 보여주며 주목받고 있습니다.
기본적인 아이디어는 간단합니다. 먼저, 훈련 데이터(예: 이미지)에 아주 작은 양의 가우시안 노이즈를 반복적으로 추가하여 결국 순수한 노이즈로 변환합니다. 이 과정을 순방향 확산 또는 소멸 과정이라고 부릅니다. 모델은 이 과정을 역으로 추정하는 방법, 즉 노이즈가 섞인 데이터에서 노이즈를 조금씩 제거하여 원본에 가까운 데이터를 복원하는 역방향 확산 과정을 학습합니다. 학습이 완료되면, 완전한 무작위 노이즈로부터 시작해 학습된 역과정을 따라가면 훈련 데이터와 유사하지만 새로운 샘플을 생성할 수 있습니다.
다른 인기 있는 생성 모델인 GAN이나 VAE와 비교했을 때, 확산 모델의 가장 큰 장점은 학습의 안정성입니다. GAN은 생성기와 판별기의 경쟁적 학습으로 인해 모드 붕괴나 학습 불안정 문제가 발생할 수 있지만, 확산 모델은 단순한 회귀 분석 문제로 귀결되어 상대적으로 안정적으로 학습됩니다. 반면, 주요 단점은 샘플링 속도입니다. 이미지를 한 장 생성하는 데 수백 번에서 수천 번의 신경망 평가가 필요할 수 있어 계산 비용이 높습니다.
이 모델은 2015년경 처음 제안되었으나, 2020년 DDPM 알고리즘의 개선과 2021년 DALL-E 2, Stable Diffusion과 같은 대규모 모델의 등장으로 이미지 생성 분야의 새로운 표준으로 자리 잡았습니다. 현재는 이미지 생성뿐만 아니라 음성 합성, 비디오 생성, 분자 구조 설계 등 다양한 영역으로 응용 범위가 확대되고 있습니다.
2. 수학적 원리
2. 수학적 원리
순방향 확산 과정은 데이터 분포 $x_0 \sim q(x_0)$에서 시작하여 점진적으로 가우스 노이즈를 추가하는 과정이다. 이 과정은 마르코프 체인으로 정의되며, 각 단계 $t$에서의 분포는 $q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t} x_{t-1}, \beta_t I)$로 주어진다. 여기서 $\beta_t$는 0과 1 사이의 값을 가지는 노이즈 스케줄이다. 충분히 많은 단계 $T$를 거치면, 원본 데이터 $x_0$의 정보는 완전히 소실되고 $x_T$는 순수한 가우스 노이즈 분포에 수렴한다.
역방향 확산 과정은 순방향 과정을 뒤집어, 노이즈 $x_T$로부터 원본 데이터 $x_0$를 복원하는 생성 과정이다. 목표는 실제 역과정 $q(x_{t-1} | x_t)$를 근사하는 모델 $p_\theta(x_{t-1} | x_t)$를 학습하는 것이다. 이 조건부 분포는 가우스 분포로 가정되며, 그 평균과 분산을 신경망으로 예측한다. 핵심은 순방향 과정에서 추가된 노이즈를 예측하거나, $x_t$가 주어졌을 때 $x_0$를 예측하거나, 또는 데이터 점수(score)를 예측하는 방식으로 모델을 파라미터화할 수 있다.
변분 하한은 모델의 학습 목표를 제공한다. 생성 모델 $p_\theta(x_0)$의 로그 가능도에 대한 증거 하한은 다음과 같이 유도된다.
$$\log p_\theta(x_0) \geq \mathbb{E}_{q} \left[ \log \frac{p(x_T) \prod_{t=1}^{T} p_\theta(x_{t-1} | x_t)}{\prod_{t=1}^{T} q(x_t | x_{t-1})} \right]$$
이를 정리하면, 손실 함수는 각 단계에서의 예측 오차의 합으로 표현된다. 일반적으로 사용되는 단순화된 손실 함수는 다음과 같다.
$$L_{\text{simple}} = \mathbb{E}_{t, x_0, \epsilon} \left[ \| \epsilon - \epsilon_\theta(x_t, t) \|^2 \right]$$
여기서 $\epsilon$은 $t$ 단계에서 추가된 실제 노이즈이고, $\epsilon_\theta$는 이를 예측하는 신경망이다. 이 손실은 각 단계에서의 노이즈 제거 작업을 효과적으로 학습하도록 한다.
2.1. 순방향 확산 과정
2.1. 순방향 확산 과정
순방향 확산 과정은 원본 데이터 분포에서 시작하여 점진적으로 데이터에 가우시안 노이즈를 추가하여 데이터를 완전한 무작위 노이즈로 변환하는 단계이다. 이 과정은 마르코프 체인으로 정의되며, 일반적으로 수백에서 수천 단계의 이산적인 시간 단계를 거친다.
각 단계 t에서의 데이터는 이전 단계의 데이터에 작은 양의 노이즈를 더해 생성된다. 이 과정은 사전에 정의된 노이즈 스케줄에 의해 제어되며, 시간이 지남에 따라 추가되는 노이즈의 양(분산)이 점차 증가한다. 최종 시간 T에서는 데이터의 원래 구조가 완전히 파괴되고 표준 정규 분포를 따르는 순수한 노이즈가 된다. 이 과정은 분석적으로 계산할 수 있어, 임의의 시간 단계 t에서의 노이즈가 첨가된 데이터를 원본 데이터로부터 직접 샘플링할 수 있다[1].
과정 단계 | 데이터 상태 | 수학적 표현 (요약) | 목적 |
|---|---|---|---|
시작 (t=0) | 원본 데이터 (x_0) | - | 학습 데이터의 분포 q(x_0) |
중간 단계 (0 < t < T) | 점점 노이즈가 추가된 데이터 (x_t) | x_t = √(ᾱ_t) x_0 + √(1-ᾱ_t) ε, ε ~ N(0, I) | 점진적 정보 파괴 |
최종 단계 (t=T) | 순수 가우시안 노이즈 (x_T) | x_T ~ N(0, I) | 간단한 사전 분포 도달 |
이 과정의 핵심 목적은 복잡한 데이터 분포를 다루기 쉬운 정규 분포로 매핑하는 결정론적 경로를 제공하는 것이다. 순방향 과정 자체는 학습 매개변수가 없으며, 역방향 확산 과정을 학습시키기 위한 기반을 구성한다.
2.2. 역방향 확산 과정
2.2. 역방향 확산 과정
역방향 확산 과정은 확산 모델 알고리즘이 순방향 과정에서 누적된 노이즈를 점진적으로 제거하여 원본 데이터를 복원하는 단계이다. 이 과정은 확률적 미분방정식의 역과정을 해석하거나, 학습된 신경망을 통해 각 단계의 노이즈를 예측하여 데이터를 재구성한다. 목표는 잡음이 섞인 데이터에서 시작해 점차 깨끗한 데이터 샘플을 생성하는 것이다.
이 과정의 핵심은 순방향 확산의 반대 방향, 즉 시간 t에서 t-1로의 조건부 확률 분포 p(x_{t-1} | x_t)를 근사하는 것이다. 이는 일반적으로 가우시안 분포로 가정되며, 그 평균과 분산은 신경망으로 학습하여 예측한다. 대표적인 접근법으로는 노이즈 예측 네트워크를 학습시켜 각 단계에서 추가된 노이즈를 직접 추정하거나, 점수 함수를 모델링하여 데이터 로그 가능도의 기울기를 예측하는 방법이 있다.
역방향 과정은 이산적인 시간 단계를 따라 반복적으로 샘플링을 수행하며, 최종적으로 원본 데이터 공간의 샘플을 출력한다. 샘플링 속도를 높이기 위해 DDIM과 같은 결정론적 샘플러가 개발되었으며, 생성 품질과 다양성을 제어하기 위해 Classifier Guidance나 Classifier-Free Guidance 같은 지도 기법이 적용된다.
2.3. 변분 하한 (ELBO)
2.3. 변분 하한 (ELBO)
변분 하한(Variational Lower Bound, ELBO)은 확산 모델의 학습 목표를 구성하는 핵심 수량이다. 이는 모델이 데이터의 실제 분포를 근사하도록 하는 증거 하한(Evidence Lower BOund)으로, 변분 추론 프레임워크에서 유도된다. 확산 모델의 학습은 이 ELBO를 최대화하는 것, 즉 음의 로그 가능도를 최소화하는 문제로 귀결된다.
ELBO는 순방향 확산 과정과 역방향 복원 과정의 쿨백-라이블러 발산으로 분해하여 표현할 수 있다. 일반적으로 다음과 같은 형태를 가진다.
항목 | 수학적 표현 | 설명 |
|---|---|---|
재구성 항 | -E_{q(x_0)}[log p_θ(x_0\ | x_1)] |
전방 KL 항 | Σ_{t>1} D_KL(q(x_{t-1}\ | x_t, x_0) \ |
사전 항 | D_KL(q(x_T\ | x_0) \ |
실제 구현에서는 전방 KL 항이 가우시안 분포 간의 발산이므로, 간단한 평균 제곱 오차 손실로 단순화된다. 이는 특정 시간 단계 t에서 모델이 추가된 노이즈를 예측하거나, 원본 데이터를 예측하거나, 노이즈가 섞인 데이터의 점수(score)를 예측하는 방식으로 파라미터화된다[2].
ELBO의 최적화는 결국 역방향 과정의 각 단계에서 순방향 과정의 조건부 분포를 정확하게 뒤집는(denoise) 신경망을 학습시키는 것이다. 이 수학적 틀은 생성 과정이 점진적이고 안정적이며 모드 붕괴(mode collapse) 문제에서 상대적으로 자유로운 이론적 보장을 제공한다.
3. 핵심 알고리즘
3. 핵심 알고리즘
확산 모델의 핵심 알고리즘은 수학적 원리를 구현하는 구체적인 접근법을 제시한다. 주요 알고리즘으로는 DDPM, Score-Based Models, 그리고 Latent Diffusion Models가 있다. 각 알고리즘은 확산 과정을 모델링하고 역변환을 학습하는 방식에 차이가 있다.
DDPM은 확산 모델의 초기이자 대표적인 알고리즘이다. 이 방법은 순방향 과정에서 데이터에 점진적으로 가우시안 노이즈를 추가하고, 역방향 과정에서 노이즈를 제거하는 U-Net 같은 신경망을 학습시킨다. 핵심은 특정 시간 스텝 t에서 추가된 노이즈를 예측하는 간단한 손실 함수를 사용한다는 점이다. DDPM은 생성 품질이 우수하고 학습이 안정적이라는 장점을 가지지만, 샘플링에 많은 반복 단계(보통 1000번)가 필요하다는 단점이 있다.
Score-Based Models은 확산 과정을 확률미분방정식의 관점에서 해석한다. 이 접근법은 데이터 분포의 그래디언트(스코어)를 직접 모델링하여 노이즈가 첨가된 데이터를 원래 분포로 되돌리는 역방향 SDE를 풀어낸다. 이 프레임워크는 연속적인 시간을 다루며, DDPM과 NCSN 같은 이전 모델들을 일반화한다. 또한 확률 흐름 ODE를 통해 확정적이고 빠른 샘플링이 가능하다는 장점을 제공한다.
Latent Diffusion Models은 계산 효율성을 극대화하기 위해 고안된 알고리즘이다. 이 방법은 고차원의 픽셀 공간 대신 오토인코더를 통해 학습된 압축된 잠재 공간에서 확산 과정을 수행한다. 주요 구성 요소는 다음과 같다.
구성 요소 | 설명 |
|---|---|
이미지를 저차원 잠재 표현으로 압축하고 복원한다. | |
잠재 공간에서 노이즈를 예측하는 조건부 확산 모델이다. | |
CLIP 같은 조건화 모듈 | 텍스트 프롬프트 같은 조건 정보를 U-Net에 주입한다. |
이 구조는 고해상도 이미지 생성을 위한 계산 부담을 크게 줄이면서도 세밀한 제어 생성이 가능하게 한다. 대표적인 구현체인 Stable Diffusion은 공개적으로 널리 사용된다.
3.1. DDPM (Denoising Diffusion Probabilistic Models)
3.1. DDPM (Denoising Diffusion Probabilistic Models)
DDPM은 2020년에 소개된 확산 모델의 핵심 알고리즘 중 하나로, 순방향 확산 과정과 이를 되돌리는 역방향 확산 과정을 명시적인 확률 모델로 정의한다. 이 모델은 데이터에 점진적으로 가우시안 노이즈를 추가하여 순방향 과정을 모델링하고, 학습된 신경망을 사용해 노이즈를 제거하는 역방향 과정을 통해 새로운 데이터를 생성한다. DDPM은 변분 추론 프레임워크 하에서 변분 하한을 최대화하는 방식으로 학습된다.
알고리즘의 핵심은 노이즈 예측 네트워크를 학습하는 것이다. 이 네트워크는 특정 시간 단계 t에서 노이즈가 첨가된 데이터를 입력받아, 추가된 노이즈를 예측하도록 훈련된다. 학습 목표는 단순화된 평균 제곱 오차 손실 함수로, 실제 추가된 노이즈와 네트워크가 예측한 노이즈 사이의 차이를 최소화한다. 이 과정에서 네트워크는 데이터의 점진적인 노이즈 제거, 즉 디노이징 방법을 암묵적으로 학습하게 된다.
샘플링은 학습된 모델을 사용해 순수한 가우시안 노이즈에서 시작하여 역방향 과정을 따라 데이터를 점진적으로 복원하는 방식으로 이루어진다. 샘플링 과정은 다음의 일반적인 단계를 따른다.
단계 | 설명 |
|---|---|
1. 초기화 | 표준 정규 분포에서 샘플 x_T를 추출한다. |
2. 반복 디노이징 | t = T에서 t = 1까지, 네트워크로 예측된 노이즈를 사용해 x_{t-1}을 계산한다. |
3. 결과 출력 | 최종적으로 생성된 x_0를 출력한다. |
DDPM은 학습의 안정성과 생성 품질의 우수함으로 주목받았으나, 샘플링에 많은 단계(보통 수백에서 수천 단계)가 필요하다는 계산 비용의 한계를 가진다. 이 한계는 이후 등장하는 DDIM과 같은 가속화 샘플러 개발의 주요 동기가 되었다.
3.2. Score-Based Models (SDE)
3.2. Score-Based Models (SDE)
Score-Based Models (SDE)는 확산 모델을 연속적인 확률 미분 방정식의 관점에서 해석하는 프레임워크이다. 이 접근법은 확산 과정을 확률 미분 방정식으로 모델링하고, 생성 과정은 이 SDE의 역시간에 해당하는 역방향 SDE를 풀어 수행한다. 핵심 아이디어는 데이터의 로그 확률 밀도 기울기인 스코어 함수를 학습하여 데이터 분포를 모델링하는 것이다.
이 프레임워크에서는 순방향 확산 과정이 데이터에 점진적으로 가우시안 노이즈를 추가하는 SDE로 정의된다. 이 과정은 데이터 분포를 간단한 잡음 분포로 변환한다. 생성은 학습된 스코어 함수를 사용하여 이 SDE를 역시간으로 풀어 수행한다. 이론적으로, 랜지빈 역방향 SDE는 순방향 SDE와 동일한 주변 분포를 가지며, 스코어 함수를 알면 역방향 확산을 통해 원본 데이터를 복원할 수 있다. 이는 오일러-마루야마 방법과 같은 수치적 방법으로 근사적으로 풀린다.
Score-Based Models는 이산적 시간 단계를 사용하는 DDPM을 SDE의 특별한 경우로 일반화한다. 이 연속적인 관점은 유연한 노이즈 스케줄링과 샘플링 방법을 가능하게 하며, 확산 모델과 에너지 기반 모델 간의 이론적 연결을 제공한다. 또한, 확산 과정을 결정론적인 오드 이쿼션으로 재구성할 수 있는 확률 흐름 ODE를 도출하여 샘플링 효율성을 높일 수 있다.
특성 | 설명 |
|---|---|
핵심 개념 | 데이터 분포의 스코어 함수를 학습하여 확산/생성 과정을 연속적인 SDE로 모델링한다. |
순방향 과정 | 데이터를 잡음으로 변환하는 확산 SDE (예: Variance Exploding SDE, Variance Preserving SDE). |
역방향 과정 | 학습된 스코어 함수를 사용하여 랜지빈 역방향 SDE를 풀어 데이터를 생성한다. |
주요 장점 | 이산적 모델을 일반화하며, 유연한 샘플링과 이론적 통찰을 제공한다. |
대표 알고리즘 |
3.3. Latent Diffusion Models
3.3. Latent Diffusion Models
Latent Diffusion Models(LDM)는 확산 모델의 계산 부담을 줄이기 위해 고안된 접근법이다. 이 모델은 원본 고차원 데이터(예: 픽셀 공간)가 아닌, 사전 학습된 자동 인코더(Autoencoder)를 통해 추출된 저차원 잠재 공간(latent space)에서 확산 과정을 수행한다. 핵심 아이디어는 인간의 인지에 중요한 의미 정보가 압축된 잠재 표현에서 노이즈 제거를 학습함으로써, 불필요한 픽셀 수준의 세부 사항 계산을 피하는 것이다.
모델 구조는 크게 두 단계로 구성된다. 첫째, 변분 자동 인코더(VAE)와 같은 모델을 사용하여 입력 이미지를 저차원 잠재 벡터로 압축(인코딩)하고, 이후 이를 다시 이미지로 복원(디코딩)하는 능력을 학습한다. 이때 인코더와 디코더는 고정(frozen)된다. 둘째, 이렇게 얻은 잠재 공간에서 U-Net 기반의 확산 모델을 학습시켜, 잠재 벡터에 추가된 노이즈를 점진적으로 제거하는 역과정을 예측한다. 이 방식은 계산 복잡도가 데이터 차원에 비례하기 때문에, 픽셀 공간에서 직접 작업하는 것보다 훨씬 효율적이다.
주요 구성 요소와 특징은 다음과 같다.
구성 요소 | 역할 | 비고 |
|---|---|---|
잠재 인코더/디코더 | 고차원 데이터와 저차원 잠재 표현 간 변환 | 사전 학습 후 고정 |
잠재 공간 확산 U-Net | 잠재 벡터의 노이즈 제거(denoising) 학습 | 주요 학습 대상 |
조건부 입력 모듈 | 텍스트, 이미지 등 조건 정보를 U-Net에 주입 |
이 구조의 가장 큰 장점은 계산 효율성이다. 예를 들어, 512x512 RGB 이미지는 약 80만 차원의 픽셀 공간에 해당하지만, 압축률 8의 VAE를 사용하면 잠재 공간 차원은 약 1만 차원으로 줄어든다. 이로 인해 메모리 사용량과 학습 시간이 크게 감소하며, 고해상도 이미지 생성이 가능해진다. 또한, 의미론적으로 구조화된 잠재 공간에서 작동하기 때문에 텍스트-이미지 생성과 같은 조건부 생성 작업에 매우 효과적이다. 대표적인 구현체인 Stable Diffusion은 이 아키텍처를 기반으로 한다.
단점으로는, 최종 출력 품질이 잠재 인코더/디코더의 재구성 능력에 의존한다는 점이 있다. 디코더가 세부 사항을 충분히 복원하지 못하면, 확산 모델이 완벽한 잠재 표현을 생성해도 최종 이미지 품질이 저하될 수 있다. 또한, 두 단계 모델을 별도로 학습해야 하는 복잡성이 존재한다.
4. 학습 방법
4. 학습 방법
학습 과정은 주어진 데이터 분포를 모방하도록 모델의 매개변수를 조정하는 것을 목표로 한다. 핵심은 순방향 확산 과정에서 점진적으로 추가된 노이즈를 역방향 과정에서 예측하고 제거하는 방법을 네트워크가 학습하는 것이다.
손실 함수 설계는 학습의 근간을 이룬다. 가장 일반적인 접근법은 특정 시간 단계 t에서 추가된 노이즈 ε를 직접 예측하는 간단한 평균 제곱 오차(MSE) 손실을 사용한다[3]. 손실 함수는 다음과 같은 형태를 가진다: L = E_{t, x_0, ε}[||ε - ε_θ(√ᾱ_t x_0 + √(1-ᾱ_t) ε, t)||^2]. 여기서 ε_θ는 학습 가능한 신경망(보통 U-Net)이며, x_0는 원본 데이터, ᾱ_t는 누적된 노이즈 스케줄 계수이다. 이 손실은 네트워크가 임의의 노이즈 수준 t에서 데이터에 가해진 노이즈를 정확히 추정하도록 유도한다.
노이즈 스케줄링은 학습과 샘플링 성능에 큰 영향을 미친다. 스케줄링은 β_t라는 하이퍼파라미터 시퀀스로 정의되며, 이는 각 단계 t에서 추가될 노이즈의 양을 결정한다. 일반적으로 β_t는 학습 초반에는 작은 값을, 후반에는 큰 값을 갖도록 선형 또는 코사인 스케줄을 따라 증가시킨다. 적절한 스케줄링은 역과정 학습의 안정성을 보장하고 고품질 샘플 생성을 가능하게 한다. 최근 연구에서는 샘플링 단계 수를 줄이기 위해 학습 중에 불연속적인 시간 간격을 사용하거나, 샘플링 전용으로 최적화된 스케줄을 도입하는 방법도 제안되었다.
가속화 기법은 확산 모델의 주요 단점인 높은 계산 비용과 느린 샘플링 속도를 해결하기 위해 개발되었다. 학습 측면에서는 더 큰 배치 크기나 분산 학습을 효율적으로 지원하는 방법이 중요하다. 샘플링 가속을 위한 기법들은 주로 학습된 모델을 재활용한다. 대표적으로 DDIM은 확산 과정을 비확률적(non-Markovian)으로 재해석하여 적은 단계로도 고품질 샘플을 생성할 수 있게 한다. 또한, 사전 학습된 모델의 샘플링 경로를 최적화하거나, 신경망 아키텍처를 개선하여 단일 평가로 여러 확산 단계를 예측하는 방법(k-step 샘플링)도 활발히 연구되고 있다.
4.1. 손실 함수 설계
4.1. 손실 함수 설계
손실 함수 설계는 확산 모델 알고리즘의 학습 성능을 결정하는 핵심 요소이다. 기본 목표는 순방향 확산 과정에서 점진적으로 추가된 노이즈를 역방향 확산 과정을 통해 정확히 제거하도록 모델을 훈련시키는 것이다. 대부분의 확산 모델은 변분 하한을 최대화하도록 유도된 간단한 목적 함수를 사용하며, 이는 실제로 노이즈 예측 또는 점수 매칭 문제로 귀결된다.
가장 널리 사용되는 접근법은 노이즈 예측 손실이다. DDPM에서는 특정 시간 단계 t에서 원본 데이터에 추가된 가우시안 노이즈를 직접 예측하도록 U-Net 같은 신경망을 훈련시킨다. 손실 함수는 실제 노이즈와 모델이 예측한 노이즈 간의 평균 제곱 오차로 정의된다. 이는 역방향 확산 과정의 각 단계에서 필요한 노이즈 제거 단계를 학습하는 것에 해당한다. 다른 등가적인 형식으로는 점수 함수를 모델링하거나, 노이즈가 추가된 데이터에서 원본 데이터를 직접 예측하는 재구성 손실을 사용하기도 한다.
손실 함수의 설계는 모델의 샘플 품질과 학습 안정성에 직접적인 영향을 미친다. 일부 연구에서는 가중치를 적용한 손실 함수를 사용하여 특정 시간 단계의 오차에 더 많은 중요도를 부여하기도 한다[4]. 또한, 분류기 지도나 분류기 없는 지도와 같은 고급 생성 기법을 적용할 때는 조건부 정보를 손실 함수에 통합하여 생성 과정을 제어한다.
4.2. 노이즈 스케줄링
4.2. 노이즈 스케줄링
노이즈 스케줄링은 확산 모델의 학습과 샘플링 과정에서 시간 스텝 t에 따라 추가되는 노이즈의 양을 결정하는 함수 β_t 또는 α_t를 설계하는 것을 의미한다. 이 스케줄은 순방향 확산 과정에서 데이터가 점진적으로 가우스 노이즈로 퇴화되는 속도와 패턴을 통제하며, 역방향 생성 과정의 안정성과 샘플 품질에 직접적인 영향을 미친다.
일반적으로 사용되는 스케줄은 선형, 코사인, 신호 대 잡음 비 기반 등 여러 종류가 있다. 초기 DDPM 모델에서는 β_t가 선형적으로 증가하는 선형 스케줄을 주로 사용했으나, 이는 샘플링 초기와 후기에 노이즈 변화가 급격할 수 있다는 단점이 있다. 이후 제안된 코사인 스케줄은 β_t의 변화를 코사인 함수를 통해 부드럽게 만들어, 특히 고해상도 이미지 생성에서 더 나은 성능을 보이는 것으로 알려졌다. 신호 대 잡음 비 스케줄링은 생성 과정에서의 신호 수준을 명시적으로 조절하는 방식이다.
스케줄링 유형 | 주요 특징 | 일반적인 사용 형태 |
|---|---|---|
선형 스케줄 | β_t가 t에 따라 선형적으로 증가. 구현이 간단함. | β_t = β_min + (β_max - β_min) * (t/T) |
코사인 스케줄 | 변화가 부드럽고 샘플 품질이 높은 경향이 있음. | α_t = cos²( (t/T + s)/(1+s) * π/2 ) [5] |
신호 대 잡음 비 스케줄 | 각 스텝의 신호 수준을 직접 설정 가능. | SNR(t) = α_t² / σ_t² |
노이즈 스케줄의 선택은 학습의 수렴 속도와 최종 생성 샘플의 다양성 및 선명도 사이의 트레이드오프를 결정한다. 빠른 스케줄(노이즈가 빠르게 증가)은 학습을 안정화시킬 수 있지만, 역과정에서의 복원이 어려워질 수 있다. 반면, 매우 느린 스케줄은 많은 샘플링 스텝을 필요로 하여 계산 비용을 증가시킨다. 따라서 응용 분야와 목표에 맞춰 적절한 스케줄을 실험적으로 선택하거나, 학습 데이터의 특성에 맞게 조정하는 것이 일반적이다.
4.3. 가속화 기법
4.3. 가속화 기법
가속화 기법은 확산 모델의 가장 큰 단점인 높은 계산 비용과 느린 샘플링 속도를 해결하기 위해 개발되었다. 기본적인 확산 모델은 생성 과정에서 수백에서 수천 단계의 반복적인 역방향 확산 과정을 필요로 하며, 이는 실시간 응용에 심각한 장벽으로 작용한다. 따라서 연구자들은 샘플링 단계 수를 줄이거나, 각 단계의 계산 복잡도를 낮추는 다양한 방법을 제안했다.
가장 대표적인 접근법은 샘플링 단계를 줄이는 것이다. DDIM(Denoising Diffusion Implicit Models)은 확산 과정을 비확률적(non-Markovian) 과정으로 재해석하여, 더 적은 단계로도 고품질 샘플을 생성할 수 있는 결정론적 샘플러를 제안했다. 이는 샘플링 속도를 수십 배에서 수백 배까지 가속화할 수 있다. 비슷한 목적으로, 사전 학습된 모델을 사용해 큰 스텝으로 샘플링하는 DPM-Solver와 같은 솔버 기반 방법도 개발되었다. 이 방법들은 확산 과정을 확률적 미분방정식(SDE) 또는 확률적 미분방정식(ODE)으로 보고, 고차 수치 해법을 적용하여 효율성을 극대화한다.
모델 아키텍처와 학습 과정 자체를 최적화하는 방법도 있다. Latent Diffusion Models(LDM)은 고차원의 픽셀 공간 대신 VAE 등의 방법으로 압축된 잠재 공간에서 확산 과정을 수행하여 계산 부하를 크게 줄인다. 또한, Knowledge Distillation 기법을 활용해, 큰 '교사 모델'의 행동을 모방하는 더 작고 빠른 '학생 모델'을 학습시키는 방법도 연구된다. 노이즈 스케줄링을 최적화하거나, 조건부 생성 시 Classifier-Free Guidance의 가중치를 동적으로 조절하는 등의 방법도 샘플링 효율을 개선한다.
기법 유형 | 대표 알고리즘 | 핵심 아이디어 | 주요 이점 |
|---|---|---|---|
샘플링 단계 감소 | DDIM, DPM-Solver | 비확률적 과정 모델링 또는 고차 ODE/SDE 솔버 적용 | 샘플링 속도 급격한 향상 (10-100배) |
계산 공간 축소 | Latent Diffusion Models (LDM) | 고차원 픽셀 공간 대신 압축된 잠재 공간에서 확산 | 메모리 및 계산 비용 절감 |
모델 경량화 | Knowledge Distillation | 대형 모델의 지식을 소형 모델로 이전 | 추론 속도 향상 및 배포 용이 |
이러한 가속화 기법들은 확산 모델의 실용성을 크게 높여, 이미지 편집, 비디오 생성, 실시간 음성 합성 등 다양한 분야의 적용을 가능하게 했다. 그러나 가속화 과정에서 미세한 질감 정보 손실이나 샘플 다양성 감소와 같은 트레이드오프가 발생할 수 있으며, 이를 최소화하는 연구가 계속되고 있다.
5. 생성 샘플링
5. 생성 샘플링
확산 모델의 학습이 완료되면, 학습된 모델을 사용하여 새로운 데이터 샘플을 생성하는 과정이 필요하다. 이 과정을 생성 샘플링 또는 역확산 과정이라고 부른다. 샘플링 알고리즘은 기본적으로 순방향 확산 과정을 역으로 되돌리는 것을 목표로 하지만, 구체적인 구현 방식에 따라 결정론적 방법과 확률론적 방법으로 크게 나뉜다.
Deterministic 샘플러 (DDIM)
Denoising Diffusion Implicit Models(DDIM)은 확산 과정을 비확률적이고 결정론적인 과정으로 재해석한 샘플링 알고리즘이다. DDIM은 DDPM과 동일한 학습 목표를 공유하지만, 샘플링 과정에서 확률적 요소를 제거한다. 이는 순방향 과정이 비마르코프적이어도 역과정을 정의할 수 있게 하여, 더 적은 수의 샘플링 스텝(예: 20~50 스텝)으로도 고품질의 이미지를 생성할 수 있게 한다. 샘플링 경로가 결정론적이기 때문에, 동일한 잠재 노이즈에서 항상 동일한 결과가 생성되어 재현성이 보장된다는 장점이 있다.
Stochastic 샘플러
전통적인 확산 모델의 샘플링 방식은 확률론적이다. 이 방법은 각 샘플링 스텝에서 모델이 예측한 노이즈를 제거하는 동시에, 일정량의 확률적 노이즈를 다시 주입한다. 이는 역과정이 순방향 과정과 동일한 형태의 확률적 분포를 따르도록 보장한다. 확률론적 샘플러는 일반적으로 더 많은 샘플링 스텝(예: 1000 스텝)을 필요로 하지만, 생성 샘플의 다양성이 풍부하다는 특징이 있다. DDPM의 기본 샘플러가 이 범주에 속한다.
Guidance 기법
생성 샘플링의 품질과 조건부 생성을 제어하기 위해 다양한 guidance 기법이 개발되었다. 대표적으로 두 가지 접근법이 있다.
기법 | 설명 | 특징 |
|---|---|---|
Classifier Guidance | 학습된 별도의 분류기를 사용하여 샘플링 경로를 조정한다. | 분류기를 추가로 학습해야 하며, 샘플 품질은 높지만 다양성이 감소할 수 있다. |
Classifier-Free Guidance | 조건부와 무조건부 생성 모델을 동시에 학습하여 내부적으로 guidance를 수행한다. | 별도 분류기가 필요 없으며, 현재 가장 널리 사용되는 방식이다. |
Classifier-Free Guidance는 간단한 가중치 파라미터를 조절하여 생성 샘플의 정확도와 다양성 사이의 트레이드오프를 제어할 수 있다. 이 기법은 텍스트 투 이미지 생성 모델에서 텍스트 프롬프트에 대한 충실도를 높이는 데 핵심적인 역할을 한다.
5.1. Deterministic 샘플러 (DDIM)
5.1. Deterministic 샘플러 (DDIM)
확산 모델의 생성 샘플링 과정은 기본적으로 확률적(Stochastic)인 마르코프 체인을 따릅니다. 이 과정은 많은 수의 반복 단계를 필요로 하며, 이로 인해 샘플링 속도가 느리다는 한계가 있었습니다. DDIM(Denoising Diffusion Implicit Models)은 이러한 확률적 과정을 결정론적(Deterministic)으로 변환하여 샘플링 속도를 획기적으로 높이는 알고리즘입니다.
DDIM의 핵심 아이디어는 순방향 확산 과정을 비마르코프(non-Markovian) 과정으로 재해석하는 데 있습니다. 기존 DDPM의 순방향 과정은 이전 단계의 상태에만 의존하는 마르코프 가정을 따르지만, DDIM은 이를 완화합니다. 이를 통해 역과정에서 노이즈를 제거하는 데 필요한 반복 횟수를 줄이면서도, 학습된 모델의 가중치를 그대로 재사용할 수 있습니다. 샘플링 경로가 결정론적이기 때문에, 동일한 잠재 변수(초기 노이즈)에서 시작하면 항상 동일한 결과를 생성합니다.
DDIM 샘플링의 성능은 주로 사용하는 서브시퀀스(Subsequence)의 선택에 따라 달라집니다. 샘플링 속도를 높이기 위해 원본 노이즈 스케줄의 시간 단계 중 일부만을 선택적으로 사용합니다. 예를 들어, 1000단계로 학습된 모델을 50 또는 100단계만으로 샘플링할 수 있습니다. 이때 선택되는 시간 단계의 집합과 간격은 생성 품질에 직접적인 영향을 미치며, 균일 간격보다는 후반부의 단계를 더 많이 포함하는 것이 일반적으로 더 나은 결과를 보입니다.
DDIM의 도입은 확산 모델의 실용성을 크게 높였습니다. 결정론적 특성은 이미지 편집 작업에서 잠재 공간 보간(Latent Interpolation)을 안정적으로 가능하게 하며, 샘플링 속도의 비약적 향상은 실시간 응용에 한 걸음 더 가까이 다가서게 했습니다. 이후 등장한 많은 가속화 샘플러들은 DDIM의 기본 원리와 프레임워크를 확장하거나 개선하는 형태로 발전했습니다.
특성 | DDPM (기준) | DDIM |
|---|---|---|
과정 특성 | 확률적(Stochastic) | 결정론적(Deterministic) |
샘플링 속도 | 느림 (전체 단계 필수) | 빠름 (서브시퀀스 사용 가능) |
마르코프 가정 | 있음 | 없음 (비마르코프) |
재현성 | 낮음 (매번 다름) | 높음 (동일 입력 시 동일 출력) |
모델 가중치 | 전용 학습 필요 | 기존 DDPM 모델 재사용 가능 |
5.2. Stochastic 샘플러
5.2. Stochastic 샘플러
Stochastic 샘플러는 확산 모델에서 역방향 확산 과정에 확률적 요소를 포함시켜 샘플을 생성하는 방법을 가리킨다. 이는 순방향 확산 과정이 확률적 마르코프 체인으로 정의되는 것과 마찬가지로, 역과정도 확률적 전이를 통해 데이터를 복원한다는 원리에 기반한다. 가장 대표적인 예는 DDPM의 샘플링 절차로, 각 역단계에서 가우시안 노이즈를 재주입하여 다음 샘플을 예측한다. 이 접근법은 생성 과정에 무작위성을 보장하여 샘플의 다양성을 높이는 장점이 있다.
Stochastic 샘플러의 일반적인 업데이트 규칙은 다음과 같은 수식을 따른다. 이전 단계의 노이즈가 첨가된 샘플 \(x_t\)에서 한 단계 이전의 샘플 \(x_{t-1}\)을 예측할 때, 모델이 예측한 노이즈 \(\epsilon_\theta\)와 새로 샘플링한 확률적 노이즈 \(\sigma_t z\) (여기서 \(z \sim \mathcal{N}(0, I)\))를 함께 사용한다. 이 확률적 구성 요소는 샘플링 경로에 변동을 주며, 동일한 초기 노이즈 \(x_T\)에서도 서로 다른 최종 샘플을 만들어낼 수 있다.
샘플러 유형 | 핵심 특징 | 대표 알고리즘 |
|---|---|---|
Stochastic Sampler | 역과정에 확률적 노이즈 재주입. 샘플 다양성 높음. | DDPM, [[DDPM#관련 알고리즘 |
Deterministic Sampler | 확률적 노이즈 제거. 재현 가능한 단일 샘플 생성. |
Stochastic 샘플링의 주요 단점은 샘플링에 필요한 역단계 수가 많아 생성 속도가 느리다는 점이다. 이는 실시간 응용에 제약이 될 수 있다. 또한, 확률적 특성으로 인해 생성 품질이 샘플링 노이즈의 구체적인 구현과 노이즈 스케줄링에 민감할 수 있다. 이러한 한계를 해결하기 위해 확률적 샘플러와 Deterministic 샘플러 (DDIM)를 결합한 하이브리드 방법이나, 샘플링 단계를 크게 줄이는 가속화 기법이 활발히 연구되고 있다.
5.3. Guidance 기법 (Classifier-Free, Classifier)
5.3. Guidance 기법 (Classifier-Free, Classifier)
Guidance 기법은 확산 모델이 생성 과정에서 특정 조건(예: 클래스 레이블, 텍스트 설명)을 따르도록 유도하는 방법이다. 이 기법은 샘플의 품질을 높이고 생성의 제어력을 강화하는 데 핵심적 역할을 한다. 주로 두 가지 접근법, 즉 Classifier Guidance와 Classifier-Free Guidance가 널리 사용된다.
Classifier Guidance는 사전에 학습된 별도의 분류기를 활용한다. 역확산 과정의 각 단계에서, 이 분류기는 현재 노이즈가 첨가된 데이터에 대해 조건(예: "고양이")에 대한 확률 점수를 계산한다. 그런 다음 이 점수의 기울기를 이용해 샘플링 경로를 조건 방향으로 조정한다. 이 방법은 강력한 제어를 가능하게 하지만, 추가 분류기 모델을 별도로 학습시켜야 하며 분류기와 생성 모델의 학습 분포 불일치 문제가 발생할 수 있다.
반면, Classifier-Free Guidance는 별도의 분류기 없이 조건부 및 무조건부 생성 모델을 단일 네트워크로 통합한다. 이는 학습 시 일정 확률로 조건 정보(예: 텍스트 임베딩)를 무시하는 방식으로 구현된다. 샘플링 시에는 조건부 모델의 출력과 무조건부 모델의 출력의 차이를 확대하여 조건에 더 충실한 샘플을 생성한다. 이는 추가 모델 학습이 필요 없고 구현이 간단하며, 특히 텍스트-이미지 생성 모델에서 뛰어난 성능을 보인다.
기법 | 핵심 메커니즘 | 장점 | 단점 |
|---|---|---|---|
Classifier Guidance | 사전 학습된 분류기의 기울기 사용 | 정확한 제어 가능, 이론적으로 명확 | 별도 분류기 필요, 학습 분포 불일치 가능성 |
Classifier-Free Guidance | 조건부/무조건부 출력 간 외삽 | 구현 단순, 추가 모델 불필요, 안정적 | 조건 무시 확률 등 하이퍼파라미터 튜닝 필요 |
이러한 Guidance 기법의 강도는 일반적으로 지도 계수(guidance scale)로 조절된다. 계수가 높을수록 생성 샘플은 조건에 더 부합하지만, 다양성이 감소하고 과도하게 포화된 샘플이 생성될 위험이 있다. 적절한 지도 계수의 선택은 생성 품질과 다양성 사이의 균형을 맞추는 데 중요하다.
6. 데이터 처리 및 적용
6. 데이터 처리 및 적용
확산 모델은 데이터의 확률 분포를 학습하여 새로운 샘플을 생성한다. 모델의 성능은 학습에 사용된 데이터의 품질과 처리 방식에 크게 의존한다. 일반적으로 이미지 데이터의 경우, 픽셀 값을 [-1, 1] 또는 [0, 1] 범위로 정규화하여 모델이 학습하기 쉬운 형태로 변환한다. 또한, 데이터 증강 기법(예: 무작위 자르기, 좌우 반전)을 적용하여 모델의 일반화 성능을 높이는 것이 일반적이다. 텍스트-이미지 생성과 같은 다중 모달 작업에서는 CLIP과 같은 사전 학습된 모델을 활용하여 텍스트 프롬프트를 이미지 임베딩 공간에 정렬하는 방식으로 데이터를 처리한다.
다중 모달 데이터 적용은 확산 모델의 주요 발전 방향이다. 오디오, 3D 메시, 분자 구조와 같은 비이미지 영역에서도 확산 모델이 성공적으로 적용되고 있다. 예를 들어, 오디오 합성에서는 파형 또는 스펙트로그램을 직접 모델링하거나, 잠재 확산 모델을 사용하여 압축된 표현을 학습한다. 이러한 적용은 데이터의 특성에 맞는 전용 인코더와 디코더 설계가 필요하다. 아래 표는 주요 데이터 유형별 처리 방식을 요약한 것이다.
데이터 유형 | 일반적인 표현 방식 | 주요 전처리 및 특징 |
|---|---|---|
2D 이미지 | RGB 픽셀 그리드 | 정규화, 해상도 조정, 데이터 증강 |
텍스트-이미지 | 텍스트 임베딩 + 이미지 | 텍스트 인코더(예: CLIP, T5)를 통한 조건부 생성 |
오디오 | 파형 또는 스펙트로그램 | 시간-주파수 표현 변환, 샘플링 레이트 통일 |
3D 형상 | 포인트 클라우드, 메시, NeRF | 공간 좌표 정규화, 뷰 합성 |
과학 데이터 (분자, 단백질) | 그래프 표현, 거리 행렬 | 도메인 특화 표현(원자 유형, 결합)으로 변환 |
데이터 효율성과 편향은 중요한 실용적 고려 사항이다. 대규모 데이터셋(예: LAION)으로 학습된 모델은 다양하고 복잡한 개념을 포착할 수 있지만, 데이터 수집 과정에서 발생하는 사회적, 문화적 편향을 그대로 학습할 위험이 있다[6]. 또한, 계산 비용을 줄이기 위해 데이터의 하위 집합을 활용하거나, 더 작은 해상도의 데이터로 사전 학습한 후 고해상도로 미세 조정하는 전이 학습 전략이 연구되고 있다. 효율적인 데이터 활용은 확산 모델의 접근성과 책임 있는 배포에 핵심적이다.
6.1. 이미지 데이터 전처리
6.1. 이미지 데이터 전처리
이미지 데이터는 확산 모델 학습의 핵심 입력이며, 적절한 전처리는 모델 성능과 학습 안정성에 직접적인 영향을 미친다. 일반적으로 이미지는 픽셀 값이 [0, 255] 범위의 정수로 저장되어 있으나, 확산 모델은 주로 [-1, 1] 또는 [0, 1] 범위의 실수 값을 입력으로 기대한다. 따라서 첫 번째 단계는 픽셀 값을 정규화하는 것이다. 예를 들어, 0~255 범위를 -1~1 범위로 변환하려면 (image / 127.5) - 1 공식을 적용한다. 또한, 학습 데이터셋의 모든 이미지는 통일된 해상도(예: 256x256, 512x512)로 리사이즈되며, 이 과정에서 비율을 유지한 채 중앙 크롭을 적용하거나, 왜곡을 최소화하기 위해 패딩을 추가하는 방식이 선택된다.
데이터 증강 기법은 제한된 데이터로 모델의 일반화 성능을 높이는 데 활용된다. 확산 모델 학습에는 무작위 수평 뒤집기가 가장 일반적으로 적용된다. 일부 연구에서는 색상 조정, 회전, 작은 크롭과 같은 약한 증강도 사용되지만, 강한 증강은 확산 과정에서 추가되는 노이즈와 상호작용하여 예상치 못한 영향을 줄 수 있으므로 신중하게 적용해야 한다. 데이터셋의 특성에 따라 특수한 전처리가 필요할 수 있다. 예를 들어, 의료 영상이나 위성 이미지의 경우, 픽셀 강도 분포가 매우 좁을 수 있어 히스토그램 평활화와 같은 정규화 기법이 추가로 적용되기도 한다.
대규모 데이터셋을 효율적으로 처리하기 위해 배치 단위의 전처리 파이프라인이 구성된다. 이는 이미지 로드, 디코드, 리사이즈, 정규화, 증강 적용의 단계로 이루어지며, 텐서 형식으로 변환되어 GPU 메모리로 전송된다. 학습 시에는 미니배치 내 이미지들의 채널별 평균과 표준편차를 계산하여 추가적인 배치 정규화를 수행하기도 하나, 확산 모델은 입력 정규화에 비교적 강건한 편이다. 최근 고해상도 이미지 생성을 위한 모델들은 학습 효율성을 위해 VQ-VAE나 VAE와 같은 자동인코더를 사용해 이미지를 저차원 잠재 공간으로 압축한 후, 이 잠재 표현에 대해 확산 모델을 학습시키는 방식을 선호한다[7]. 이 경우 전처리 과정에는 원본 이미지를 잠재 벡터로 인코딩하는 단계가 포함된다.
6.2. 다중 모달 데이터 적용
6.2. 다중 모달 데이터 적용
확산 모델은 이미지 생성에 널리 사용되지만, 텍스트, 오디오, 3D 모델 등 다양한 형태의 데이터를 통합하는 다중 모달 생성에도 효과적으로 적용된다. 핵심은 서로 다른 모달리티의 데이터를 공통된 잠재 공간이나 노이즈 예측 프레임워크에 정렬시키는 것이다. 예를 들어, 텍스트 설명과 이미지 쌍으로 학습된 모델은 프롬프트에 따라 조건부 이미지를 생성할 수 있다.
주요 접근 방식은 조건부 생성 프레임워크를 구축하는 것이다. CLIP과 같은 사전 학습된 다중 모달 임베딩 모델을 활용하여 텍스트, 이미지, 심지어 레이아웃 스케치와 같은 다양한 조건 입력을 하나의 임베딩 벡터로 변환한다. 이 벡터는 확산 모델의 U-Net과 같은 노이즈 예측 네트워크에 조건 정보로 주입된다. 이를 통해 단일 모델이 텍스트-이미지, 이미지-이미지 편집, 텍스트-3D 모델 생성 등 다양한 크로스모달 작업을 수행할 수 있다.
다중 모달 적용은 데이터 전처리와 표현 방식에 주의를 요한다. 오디오 데이터는 스펙트로그램으로 변환하여 2D 이미지처럼 처리할 수 있으며, 3D 메시나 포인트 클라우드 데이터는 특수한 네트워크 구조를 통해 확산 과정에 통합된다. 이러한 유연성 덕분에 확산 모델은 뉴럴 렌더링과 결합하여 텍스트로부터 3D 객체를 생성하거나, 음성 명령으로부터 대응하는 음악을 합성하는 등의 복잡한 작업이 가능해졌다.
모달리티 조합 | 입력 형태 | 출력 형태 | 주요 응용 예시 |
|---|---|---|---|
텍스트-이미지 | 자연어 설명 | 2D 이미지 | 텍스트 기반 이미지 생성 |
이미지-이미지 | 스케치 또는 간략한 이미지 | 정교한 이미지 | 이미지 편집, 상세화 |
텍스트-오디오 | 텍스트 설명 | 음성 또는 음악 | 텍스트 투 스피치, 음악 생성 |
텍스트-3D | 3D 객체에 대한 설명 | 3D 메시/네럴필드 | 3D 콘텐츠 제작 |
그러나 다중 모달 학습은 데이터셋 구성의 어려움과 모달리티 간 정렬 문제를 내포한다. 정확한 조건 생성을 위해서는 대규모의 고품질이고 정렬된 다중 모달 데이터 쌍이 필요하며, 모델이 특정 모달리티에 과도하게 의존하지 않도록 학습하는 것이 중요하다.
6.3. 데이터 효율성과 편향
6.3. 데이터 효율성과 편향
확산 모델은 고품질 샘플 생성을 위해 대규모 데이터셋에 의존하는 경향이 있다. 이는 모델 학습에 필요한 데이터 양과 다양성에 대한 요구가 높음을 의미하며, 충분하지 않은 데이터로 학습할 경우 생성 샘플의 품질이 저하되거나 다양성이 떨어질 수 있다. 데이터 효율성을 높이기 위한 연구는 주로 적은 데이터로 효과적으로 학습하는 Few-shot learning 기법, 기존 모델의 지식을 활용하는 전이 학습, 그리고 데이터 증강 기법을 확산 과정에 통합하는 방향으로 진행된다.
학습 데이터에 내재된 편향은 생성 과정에서 그대로 재현되거나 증폭될 위험이 있다. 이는 사회적, 인종적, 성별 편향이 포함된 이미지 데이터셋으로 학습된 모델이 특정 그룹을 과소대표하거나 고정관념을 반복하는 콘텐츠를 생성하는 사례로 나타난다. 편향 문제를 완화하기 위한 접근법에는 공정성 지표를 손실 함수에 반영하는 방법, 데이터 재균형 조정, 그리고 Classifier-Free Guidance와 같은 조건부 생성 기법에서 편향된 조건을 명시적으로 제어하는 연구가 포함된다.
다음 표는 데이터 관련 주요 이슈와 대응 방향을 정리한 것이다.
이슈 | 내용 | 대응 방향/고려사항 |
|---|---|---|
데이터 효율성 | 대량의 고품질 데이터 필요, 계산 비용 증가 | Few-shot/전이 학습, 효율적 데이터 증강[8], 압축된 잠재 공간에서의 학습(예: Latent Diffusion Models) |
표현 편향 | 학습 데이터의 불균형이 생성 샘플의 다양성 감소로 이어짐 | 데이터셋 큐레이션 및 재균형, 공정성 제약 조건 도입, 생성 시 다양성 향상 샘플링 기법 |
사회적 편향 증폭 | 데이터의 사회적 고정관념이 모델에 학습되어 재생산됨 | 편향 감지 및 측정 도구 개발, 데이터시트 작성, 다양한 조건부 생성 가이던스 실험 |
도메인 적응 | 특정 도메인(예: 의료 영상) 데이터 부족 | 사전 학습된 모델의 도메인 특화 미세 조정, 도메인 간 지식 전이 |
효율성과 편향 문제는 단순히 기술적 과제를 넘어 확산 모델의 실제 배포와 사회적 영향력을 결정하는 핵심 요소이다. 따라서 모델 개발 단계부터 데이터의 품질, 다양성, 포용성을 체계적으로 평가하고 개선하는 프레임워크가 중요해지고 있다.
7. 주요 응용 분야
7. 주요 응용 분야
확산 모델은 고품질 이미지 생성 분야에서 혁신적인 성과를 보이며 주류 기술로 자리 잡았다. DALL-E 2, Stable Diffusion, Imagen과 같은 모델은 텍스트 설명(프롬프트)을 입력받아 사실적이고 창의적인 이미지를 생성한다. 이는 단순한 생성뿐만 아니라, 기존 이미지의 인페인팅(결측 영역 채우기), 아웃페인팅(화면 확장), 스타일 변환 등 다양한 편집 작업에도 적용된다. 이미지-이미지 변환 모델은 의미 분할 맵이나 스케치를 입력받아 실제 사진으로 변환하는 등 구체적인 제어가 가능한 생성 도구로 발전했다.
음성 및 오디오 합성 분야에서도 확산 모델은 중요한 진전을 이루었다. WaveGrad나 DiffWave와 같은 모델은 멜-스펙트로그램 같은 음성의 중간 표현을 입력받아 고품질의 원시 오디오 파형을 생성한다. 이를 통해 텍스트를 음성으로 변환하는 TTS 시스템의 음질과 자연스러움이 크게 향상되었다. 또한, 음악 생성, 음원 분리, 노이즈 제거, 음성 변환 등 다양한 오디오 생성 및 처리 작업에 성공적으로 적용되고 있다.
과학 및 공학 분야에서는 확산 모델이 복잡한 데이터 분포를 모델링하는 강력한 도구로 활용된다. 예를 들어, 단백질의 3차원 구조를 예측하거나 설계하는 단백질 구조 예측 연구, 신약 후보 물질의 분자 구조를 생성하는 약물 발견, 기후 예측 모델에서의 날씨 패턴 시뮬레이션, 그리고 천문학적 관측 데이터의 보간 및 생성 등에 적용된다. 이는 확산 모델이 고차원적이고 구조화된 과학적 데이터의 확률 분포를 학습할 수 있기 때문이다.
응용 분야 | 주요 모델/기술 예시 | 생성 대상 |
|---|---|---|
이미지 생성 | 텍스트 기반 이미지, 이미지 편집 결과물 | |
오디오 합성 | 고품질 음성, 음악, 효과음 | |
과학적 모델링 | AlphaFold(접근법 활용)[9], 기후 모델 | 분자 구조, 기후 데이터, 단백질 구조 |
이러한 응용들은 확산 모델이 단순한 데이터 생성기를 넘어, 다양한 형태의 데이터에 대한 강력한 생성 모델이자 우도 기반 모델로서의 잠재력을 보여준다.
7.1. 이미지 생성 및 편집
7.1. 이미지 생성 및 편집
확산 모델은 고품질의 사실적인 이미지를 생성하는 능력으로 이미지 생성 분야에서 혁신을 일으켰다. 초기에는 ImageNet 데이터셋의 클래스 조건부 이미지 생성에서 뛰어난 성능을 보였으며, 이후 대규모 텍스트-이미지 데이터셋으로 학습된 모델들은 텍스트 프롬프트에 따라 다양한 스타일과 콘셉트의 이미지를 생성할 수 있게 되었다. 이는 DALL-E나 Stable Diffusion과 같은 모델에서 구현되어 창의적인 콘텐츠 제작, 개념 디자인, 프로토타이핑 등에 널리 활용된다.
이미지 편집 작업에서 확산 모델은 inpainting과 outpainting을 통해 뛰어난 성과를 보인다. 인페인팅은 이미지 내의 특정 영역(예: 불필요한 객체 제거)을 마스킹한 후, 주변 문맥과 일관되게 해당 영역을 채우는 기술이다. 아웃페인팅은 원본 이미지의 경계를 넘어서 새로운 내용으로 이미지를 자연스럽게 확장하는 기술이다. 이러한 편집은 단순히 픽셀을 채우는 것을 넘어, 조명, 질감, 스타일까지 일관성 있게 유지하며 창의적인 재구성을 가능하게 한다.
편집 유형 | 설명 | 주요 활용 예시 |
|---|---|---|
인페인팅 | 이미지 내 지정된 영역을 문맥에 맞게 새로 생성하여 채움 | 사진에서 불필요한 객체 제거, 흠집 복원, 콘텐츠 추가 |
아웃페인팅 | 이미지 캔버스의 경계를 넘어서 새로운 내용으로 확장 | 파노라마 이미지 생성, 그림의 구도 변경 |
스타일 변환 | 이미지의 스타일을 다른 예술적 스타일로 변경 | 사진을 수채화, 스케치 등 다양한 예술 스타일로 변환 |
이미지-이미지 변환 | 입력 이미지를 다른 도메인의 이미지로 변환 (예: 낮→밤, 사진→스케치) | 시각 효과, 데이터 증강, 도메인 적응 |
또한, 확산 모델은 스타일 변환과 이미지-이미지 변환에도 효과적으로 적용된다. 레퍼런스 이미지의 스타일을 목표 이미지에 적용하거나, 스케치를 사실적인 사진으로, 혹은 여름 풍경을 겨울 풍경으로 변환하는 등의 작업이 가능하다. 이는 단일 모델이 다양한 편집 작업을 수행할 수 있는 통합 프레임워크의 기반을 제공하며, 사용자가 텍스트 지시나 간단한 마스킹만으로 복잡한 편집을 수행할 수 있게 한다.
7.2. 음성 및 오디오 합성
7.2. 음성 및 오디오 합성
확산 모델은 고품질의 음성 및 오디오 합성 분야에서 혁신적인 결과를 보여주며, 기존 자동회귀 모델이나 GAN 기반 방법의 한계를 극복하는 새로운 패러다임을 제시한다. 음성 합성에서는 TTS 작업에 적용되어 자연스러운 발화를 생성하고, 음악 생성에서는 악기 음원이나 완전한 곡의 작곡이 가능하다. 오디오 생성 모델은 일반적으로 로그 멜-스펙트로그램이나 MFCC와 같은 시간-주파수 표현을 중간 표현으로 사용하여 학습하고 생성한 후, 보코더를 통해 다시 파형 신호로 변환하는 방식을 취한다.
주요 접근 방식으로는 WaveGrad와 DiffWave가 선구적인 역할을 했다. WaveGrad는 조건부 확산 모델을 통해 TTS 파이프라인의 백엔드에서 고품질 파형을 합성했으며, DiffWave는 원시 오디오 파형에 직접 확산 과정을 적용하여 음성 향상 및 생성 작업에 사용되었다. 이후 등장한 AudioLDM과 Stable Audio 같은 모델은 잠재 확산 모델 구조를 채택하여, CLAP와 같은 텍스트-오디오 공동 임베딩 공간에서 조건화를 수행함으로써 텍스트 프롬프트로부터 다양한 사운드와 음악을 생성하는 능력을 보여주었다.
이 분야의 기술적 진전은 다음과 같은 표로 요약할 수 있다.
모델 이름 | 발표 연도 | 주요 특징 | 적용 분야 |
|---|---|---|---|
2020 | 조건부 확산, FastGrad 알고리즘으로 샘플링 가속화 | TTS 파형 합성 | |
2020 | 원시 오디오 파형에 대한 비조건/조건부 확산 | 음성 생성, 음성 변환, 향상 | |
2023 | 잠재 확산 모델, 텍스트-오디오 공동 임베딩 활용 | 텍스트 기반 일반 오디오 생성 | |
2023 | 대규모 오디오-텍스트 데이터 학습, 정확한 타임스탬핑 | 텍스트 기반 음악 및 사운드 효과 생성 |
확산 모델 기반 오디오 합성의 주요 장점은 생성 품질의 우수성과 학습 안정성이다. GAN은 모드 붕괴 문제가 있을 수 있지만, 확산 모델은 안정적인 학습이 가능하고 다양한 음성 색조나 음악 스타일을 포괄적으로 모델링한다. 그러나 주요 과제는 여전히 높은 계산 비용과 느린 샘플링 속도이다. 긴 오디오 시퀀스를 생성하려면 많은 수의 디노이싱 단계가 필요하기 때문에, DDIM이나 사전 학습된 디노이저를 활용한 배치 샘플링과 같은 가속화 기법의 연구가 활발히 진행되고 있다.
7.3. 과학적 데이터 모델링
7.3. 과학적 데이터 모델링
확산 모델은 과학 및 공학 분야에서 실험 데이터 생성, 시뮬레이션 가속화, 물리 법칙 준수 모델링 등에 폭넓게 적용된다. 이 접근법은 기존의 수치 시뮬레이션을 보완하거나 대체하여, 계산 비용이 높거나 불확실성이 큰 복잡한 시스템을 모델링하는 데 유용하다.
주요 응용 사례로는 기후 모델링에서의 지역적 기상 패턴 생성, 유체 역학 난류 시뮬레이션, 구조 생물학의 단백질 구조 생성, 그리고 재료 과학에서 신소재의 특성 예측 등이 있다. 예를 들어, 분자 구조 데이터에 확산 모델을 적용하면, 특정 화학적 특성을 가진 새로운 분자 후보를 탐색하는 데 활용될 수 있다[10]. 이러한 모델은 실험 데이터와 물리 기반 제약 조건(예: 에너지 보존 법칙)을 결합하여 학습할 수 있다.
과학적 모델링에서 확산 모델의 장점은 명시적인 확률 밀도 함수를 학습하여 데이터의 불확실성을 정량화할 수 있다는 점이다. 이는 예측 결과에 대한 신뢰 구간을 제공하거나, 희귀 현상(예: 극한 기후 사건)의 샘플을 생성하는 데 도움이 된다. 또한, 부분 미분 방정식으로 표현되는 물리 법칙을 손실 함수에 통합하거나 생성 과정에 제약으로 부과하는 하이브리드 방법이 활발히 연구되고 있다.
적용 분야 | 모델링 대상 | 주요 기여 |
|---|---|---|
기후과학 | 고해상도 강수량 맵, 극한 기후 시나리오 | 계산 집약적인 물리 모델의 대체 또는 초기 조건 생성 |
의약품 개발 | 표적 단백질에 결합하는 분자 구조 | 화학적 공간 탐색 가속화 및 신약 후보물질 발굴 |
천체물리학 | 은하 형상, 중력렌즈 효과 맵 | 관측 데이터의 노이즈 제거 및 보완 데이터 생성 |
양자화학 | 분자의 전자 밀도 분포 | 고비용 양자 계산 결과의 효율적 근사 |
한계점으로는, 모델의 출력이 학습 데이터의 분포를 벗어날 경우 물리적으로 비현실적인 결과를 생성할 수 있으며, 전문적인 도메인 지식을 모델 설계에 통합해야 하는 어려움이 있다.
8. 장단점 및 한계
8. 장단점 및 한계
확산 모델은 고품질의 이미지를 생성하는 능력으로 주목받지만, 생성적 적대 신경망(GAN)과 같은 기존 생성 모델과 비교해 뚜렷한 장점과 한계를 동시에 지닌다.
가장 큰 장점은 학습의 안정성이다. GAN은 생성기와 판별기의 균형을 맞추는 미니맥스 게임을 학습해야 하며, 이 과정에서 모드 붕괴나 진동 등 불안정성이 빈번히 발생한다. 반면 확산 모델은 단순히 노이즈를 예측하거나 점수를 예측하는 회귀 문제를 해결하므로 학습 곡선이 안정적이고 수렴이 보장된다. 또한 생성 샘플의 다양성이 높고, 과적합에 덜 민감한 경향이 있다. 이론적으로는 데이터 분포에 대한 변분 하한을 최적화하므로, 모델이 데이터의 확률 밀도를 명시적으로 학습한다는 점도 이점으로 꼽힌다.
주요 한계는 생성 샘플링 속도가 매우 느리다는 점이다. 확산 모델은 생성 시 수백에서 수천 단계의 반복적인 역확산 과정을 거쳐야 하므로, GAN이 단일 순전파로 이미지를 생성하는 것에 비해 계산 비용이 크게 높다. 이는 실시간 응용에 걸림돌이 된다. 또한 모델이 매우 많은 계산 자원을 요구한다. 대규모 고해상도 이미지를 학습하고 생성하려면 막대한 양의 GPU 메모리와 훈련 시간이 필요하다. 샘플링 과정에서 확률적 샘플링과 결정적 샘플링 간의 trade-off도 존재하며, 샘플 품질과 다양성을 정밀하게 제어하기 어려운 경우가 있다.
비교 항목 | 확산 모델 | GAN (생성적 적대 신경망) |
|---|---|---|
학습 안정성 | 높음. 회귀 목표로 수렴이 보장됨 | 낮음. 생성기와 판별기의 균형 유지가 어려움 |
샘플링 속도 | 매우 느림 (수백~수천 단계 반복) | 매우 빠름 (단일 순전파) |
샘플 다양성 | 일반적으로 높음 | 모드 붕괴 시 다양성이 낮아질 수 있음 |
계산 비용 (훈련/생성) | 훈련 및 생성 비용 모두 매우 높음 | 훈련 비용은 높을 수 있으나, 생성 비용은 낮음 |
명시적 가능도 모델링 | 가능 (변분 하한을 통해) | 일반적으로 불가능 |
이러한 한계를 해결하기 위해 DDIM과 같은 가속 샘플러, 잠재 확산 모델(LDM)을 통한 계산 효율화, 지도 기법(Guidance)을 통한 제어력 향상 등의 연구가 활발히 진행되고 있다.
8.1. GAN 대비 장점
8.1. GAN 대비 장점
확산 모델은 생성적 적대 신경망과 같은 이전의 생성 모델과 비교하여 몇 가지 뚜렷한 장점을 보인다. 가장 큰 장점은 학습의 안정성이다. GAN은 생성기와 판별기 사이의 균형을 맞추는 미니맥스 게임을 학습해야 하며, 이 과정에서 모드 붕괴나 진동하는 학습 곡선과 같은 불안정성이 자주 발생한다. 반면 확산 모델은 단순히 노이즈를 예측하거나 점수를 예측하는 회귀 분석 문제를 해결하므로, 목적 함수가 더욱 명확하고 최적화가 상대적으로 용이하다.
생성 품질과 다양성 측면에서도 이점이 있다. 확산 모델은 변분 오토인코더와 유사하게 명시적인 우도를 최대화하는 방향으로 학습될 수 있어, 모델이 데이터 분포를 더 포괄적으로 학습하도록 유도한다. 이는 GAN이 때때로 보이는 다양성 부족 문제를 완화한다. 또한 확산 과정은 이론적으로 임의의 복잡한 데이터 분포를 근사할 수 있으며, 특히 고해상도 이미지 생성에서 놀라운 디테일과 일관성을 보여준다.
아키텍처 설계의 유연성도 중요한 장점이다. GAN은 종종 판별기의 용량에 의해 생성기의 표현력이 제한받을 수 있다. 확산 모델은 순방향 과정이 고정되어 있기 때문에, 역과정을 위한 신경망 설계에 더 큰 자유도를 부여한다. 이는 U-Net, 트랜스포머 등 다양한 백본 네트워크를 활용할 수 있게 하며, 조건부 생성이나 이미지 인페인팅 같은 작업에 자연스럽게 적용될 수 있다.
비교 항목 | 확산 모델 | |
|---|---|---|
학습 안정성 | 생성기-판별기 균형 유지가 어려워 불안정함 | 명확한 회귀 목표로 상대적으로 안정적임 |
모드 커버리지 | 모드 붕괴로 인해 다양성이 떨어질 수 있음 | 우도 기반 학습으로 데이터 분포를 광범위하게 포괄함 |
평가 지표 | 우도나 Evidence Lower Bound 등 직접적인 평가 가능 | |
조건부 생성 | 판별기에 조건 정보를 주입하는 등 추가 설계 필요 | 노이즈 예측 네트워크에 조건을 쉽게 통합 가능 |
하지만 이러한 장점은 계산 비용 증가라는 단점과 맞바꾸는 것이다. 확산 모델은 샘플링 시 수백에서 수천 단계의 반복적인 역확산 과정을 필요로 하며, 이는 GAN의 단일 피드포워드 패스에 비해 훨씬 느리다.
8.2. 계산 비용과 샘플링 속도
8.2. 계산 비용과 샘플링 속도
확산 모델은 높은 샘플 품질과 학습 안정성으로 주목받지만, 계산 비용과 샘플링 속도는 주요한 실용적 한계로 지적된다. 이는 모델의 기본 작동 원리에서 기인한다. 생성 과정은 순방향 확산의 역과정인 역방향 확산 과정을 통해 이루어지며, 이는 일반적으로 수백에서 수천 단계의 반복적인 노이즈 제거 단계를 필요로 한다. 각 단계마다 신경망 모델을 실행해야 하므로, 단일 샘플을 생성하는 데에도 상당한 시간이 소요된다. 이는 GAN이나 VAE와 같은 단일 단계 또는 소수 단계로 샘플을 생성하는 모델과 대비되는 특징이다.
샘플링 속도를 높이기 위한 다양한 가속화 기법이 연구되고 있다. 대표적인 방법으로는 DDIM과 같은 결정론적 샘플러가 있다. DDIM은 확산 과정을 비마르코프 연쇄로 재해석하여, 더 적은 단계로 샘플링할 수 있는 ODE 솔버를 도입한다. 또한, 지식 증류 기법을 활용해 적은 단계의 모델이 많은 단계의 모델의 성능을 모방하도록 학습시키는 방법도 사용된다. 아래 표는 주요 샘플링 가속 기법을 비교한 것이다.
기법 유형 | 대표 알고리즘 | 주요 아이디어 | 샘플링 단계 감소율 |
|---|---|---|---|
결정론적 솔버 | DDIM, DPM-Solver | 확산 ODE 재구성 및 고차 솔버 적용 | 10~50배 |
비마르코프 과정 활용 | DDIM, PNDM | 역과정의 마르코프 가정 완화 | 10~100배 |
지식 증류 | Progressive Distillation, Consistency Models | 다단계 모델을 적은 단계 모델로 압축 | 100~1000배 이상 |
계산 비용 측면에서는 학습과 추론 모두에서 고해상도 이미지를 다룰 때 GPU 메모리와 시간 소요가 크다. 특히 Latent Diffusion Models은 고차원 픽셀 공간 대신 VAE의 잠재 공간에서 확산을 수행하여 계산 부담을 크게 줄인 혁신적인 접근법이다. 또한, 효율적인 노이즈 스케줄링과 모델 아키텍처 최적화(예: U-Net 채널 수 감소)도 계산 비용 절감에 기여한다. 이러한 노력에도 불구하고, 실시간 응용 분야에 확산 모델을 통합하는 것은 여전히 도전 과제로 남아 있다.
8.3. 모델 안정성 이슈
8.3. 모델 안정성 이슈
확산 모델의 학습 과정은 이론적으로 안정적이지만, 실제 구현에서는 여러 안정성 문제가 발생할 수 있다. 주요 이슈로는 경사 폭발과 경사 소실 문제가 있다. 깊은 신경망과 긴 마르코프 체인을 사용하는 역확산 과정에서 이러한 문제가 두드러지며, 이는 샘플 품질 저하나 학습 실패로 이어진다. 또한, 손실 함수의 가중치나 노이즈 스케줄 설계가 부적절하면 모델이 특정 노이즈 수준에 과도하게 편향되어 전체적인 생성 성능이 떨어질 수 있다.
샘플링 단계에서도 안정성 문제가 나타난다. 확산 모델의 샘플링은 반복적인 디노이징 과정을 수백에서 수천 단계 거쳐야 하므로, 작은 수치 오차가 누적되어 최종 출력에 악영향을 미칠 수 있다. 특히 확률적 샘플러를 사용할 때 이러한 불안정성이 더 크게 작용한다. 일부 샘플링 경로는 다른 경로보다 훨씬 열등한 샘플을 생성할 수 있으며, 이는 생성 결과의 일관성을 해친다.
안정성 이슈 유형 | 주요 원인 | 일반적인 해결 방향 |
|---|---|---|
학습 불안정 | 부적절한 손실 가중치, 노이즈 스케줄, 경사 문제 | 손실 재가중, 학습률 스케줄링, 정규화 기법 적용 |
샘플링 불안정 | 수치 오차 누적, 확률적 노이즈의 변동성 | |
모드 붕괴 | 데이터 분포의 불균형한 학습 | Guidance 기법 조정, 다양성 보장 손실 함수 도입 |
고해상도 또는 복잡한 데이터를 모델링할 때는 모델 용량과 표현력의 한계로 인해 안정성 문제가 더욱 복잡해진다. 모델이 데이터의 세부 사항을 포착하지 못하거나, 반대로 과도하게 특정 세부 사항에 적응하여 과적합되는 경우가 있다. 이러한 문제를 완화하기 위해 Latent Diffusion Models와 같이 잠재 공간에서 작동하는 아키텍처가 제안되었으며, 이는 계산 부담을 줄이고 안정성을 개선하는 효과가 있다.
