문서의 각 단락이 어느 리비전에서 마지막으로 수정되었는지 확인할 수 있습니다. 왼쪽의 정보 칩을 통해 작성자와 수정 시점을 파악하세요.

확산 모델 (Diffusion Model) | |
이름 | 확산 모델 (Diffusion Model) |
영문명 | Diffusion Model |
분류 | |
주요 용도 | 이미지, 오디오, 텍스트 생성, 이미지 복원 |
핵심 원리 | |
대표 모델 | |
기술 상세 정보 | |
수학적 기반 | |
학습 과정 | |
생성 과정 | 무작위 가우스 노이즈에서 시작하여 점진적으로 노이즈를 제거하며 데이터 생성 |
장점 | 생성 품질이 높고 안정적이며, 다양한 조건부 생성 가능 |
단점 | 생성 속도가 상대적으로 느림 (DDIM 등 가속 기법 존재) |
주요 변형 | |
응용 분야 | 예술 창작, 의료 이미징, 데이터 증강, 초해상도 |
관련 개념 | |
주요 연구 | 2020년 DDPM 논문으로 주목받기 시작 |

확산 모델은 딥러닝 기반의 생성 모델로, 데이터에 점진적으로 노이즈를 추가하는 순방향 확산 과정과 노이즈를 제거하여 새로운 데이터를 생성하는 역방향 확산 과정을 학습하는 프레임워크이다. 이 모델의 핵심 아이디어는 데이터 분포를 학습하기 위해 체계적인 노이즈화와 노이즈 제거 과정을 확률적으로 모델링하는 데 있다. 2020년대에 들어 이미지 생성, 오디오 합성, 비디오 생성 등 다양한 생성 작업에서 뛰어난 품질과 안정성을 보여주며 생성형 인공지능 분야의 주류 방법론으로 자리 잡았다.
확산 모델의 작동 원리는 비유적으로 설명할 수 있다. 순방향 과정은 깨끗한 사진에 여러 단계에 걸쳐 점점 강한 노이즈를 더해 완전한 정적 상태로 만드는 것과 같다. 반면, 역방향 과정은 그 정적 상태에서부터 노이즈를 조금씩 제거하여 원본과 유사하거나 전혀 새로운 사진을 복원해내는 과정이다. 모델은 이 역방향 과정, 즉 노이즈로부터 데이터를 복원하는 방법을 학습한다. 이 접근법은 적대적 생성 신경망이나 변분 오토인코더와 같은 기존 생성 모델과는 구별되는 독특한 특성을 지닌다.
확산 모델의 주요 장점은 학습의 안정성과 생성 샘플의 다양성에 있다. GAN은 학습 중 모드 붕괴나 불안정성이 발생할 수 있지만, 확산 모델은 비교적 안정적인 학습 곡선을 보인다. 또한, VAE가 생성하는 이미지가 흐릿한 경향이 있는 반면, 확산 모델은 고해상도이고 디테일한 샘플을 생성하는 데 우수한 성능을 보인다. 이러한 특징 덕분에 DALL-E 2, Stable Diffusion, Imagen 같은 최신 고성능 이미지 생성 시스템의 핵심 기술로 채택되었다.

수학적 원리는 확산 모델의 핵심으로, 데이터에 점진적으로 노이즈를 추가하는 순방향 확산 과정과 이를 역으로 되돌리는 역방향 확산 과정으로 구성된다. 이 두 과정은 확률론과 확률 미분방정식을 기반으로 모델링된다.
순방향 확산 과정은 원본 데이터 분포에서 점진적으로 노이즈를 추가하여 데이터를 완전한 가우시안 노이즈로 변환하는 과정이다. 이는 마르코프 연쇄로 정의되며, 각 단계는 이전 단계의 데이터에 작은 양의 가우시안 노이즈를 더하는 것으로 표현된다. 시간 단계 t에서의 데이터 x_t는 다음과 같은 공식으로 계산된다:
x_t = √(α_t) * x_{t-1} + √(1 - α_t) * ε
여기서 α_t는 사전에 정의된 스케줄에 따라 1에서 0으로 감소하는 값이며, ε는 표준 정규 분포를 따르는 노이즈이다. 이 과정을 충분히 많은 단계 T만큼 반복하면, 원본 데이터 x_0는 순수한 가우시안 노이즈 x_T에 수렴하게 된다.
역방향 확산 과정은 순방향 과정의 역으로, 노이즈 x_T로부터 원본 데이터 x_0를 복원하는 생성 과정이다. 이론적으로 이 과정은 순방향 과정의 전이 확률의 베이즈 정리를 이용한 역전이 확률로 정의된다. 그러나 이 역전이 확률은 직접 계산하기 어려우므로, 신경망을 사용하여 이를 근사한다. 신경망은 일반적으로 주어진 노이즈 데이터 x_t와 시간 단계 t를 입력받아, 추가된 노이즈 ε 또는 데이터의 스코어 함수를 예측하도록 학습된다. 학습된 모델을 사용하면, x_T부터 시작해 예측된 노이즈를 제거하는 방식으로 단계적으로 x_0를 생성할 수 있다.
확산 모델의 학습 목표는 순방향 과정에서 각 단계에 추가된 노이즈 ε를 예측하거나, 데이터의 로그 확률 밀도의 기울기인 스코어 함수를 예측하는 것이다. 가장 일반적인 손실 함수는 다음과 같은 간단한 평균 제곱 오차이다:
L = E_{t, x_0, ε}[ || ε - ε_θ(x_t, t) ||^2 ]
여기서 ε_θ는 학습 가능한 파라미터 θ를 가진 신경망이며, t는 균일하게 샘플링된 시간 단계, x_0는 학습 데이터, ε는 실제 추가된 노이즈이다. 이 손실 함수를 최소화함으로써 모델은 모든 시간 단계에서 노이즈를 정확히 예측하는 방법을 배우게 되며, 이를 통해 고품질의 데이터를 생성하는 역방향 과정을 수행할 수 있게 된다.
순방향 확산 과정은 원본 데이터 분포에서 시작하여 점진적으로 가우스 잡음을 추가하여 데이터를 파괴하는 단계적 과정이다. 이 과정은 마르코프 체인으로 모델링되며, 각 단계는 이전 단계의 데이터에 작은 양의 잡음을 더하는 것으로 정의된다. 최종 목표는 데이터가 순수한 정규 분포에 수렴하도록 하는 것이다.
수학적으로, 원본 데이터 샘플 \( \mathbf{x}_0 \)가 주어졌을 때, \( t = 1 \)부터 \( t = T \)까지의 순방향 과정은 다음과 같은 조건부 분포로 정의된다.
\[
q(\mathbf{x}_t | \mathbf{x}_{t-1}) = \mathcal{N}(\mathbf{x}_t; \sqrt{1 - \beta_t} \mathbf{x}_{t-1}, \beta_t \mathbf{I})
\]
여기서 \( \beta_t \)는 \( t \) 단계에서 추가되는 잡음의 양을 결정하는 스케줄링 변수로, 일반적으로 \( 0 < \beta_1 < \beta_2 < ... < \beta_T < 1 \)을 따른다. \( \mathcal{N} \)은 가우스 분포를 나타내며, \( \mathbf{I} \)는 단위 행렬이다.
이 과정의 중요한 특성은 재매개변수화 트릭을 사용하여 임의의 단계 \( t \)에서의 노이지 데이터 \( \mathbf{x}_t \)를 원본 \( \mathbf{x}_0 \)와 하나의 노이즈 변수로부터 직접 샘플링할 수 있다는 점이다.
\[
\mathbf{x}_t = \sqrt{\bar{\alpha}_t} \mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon
\]
여기서 \( \alpha_t = 1 - \beta_t \), \( \bar{\alpha}_t = \prod_{i=1}^{t} \alpha_i \)이며, \( \epsilon \sim \mathcal{N}(\mathbf{0}, \mathbf{I}) \)이다. 이 공식은 순방향 과정이 비확률적이며 분석적으로 계산 가능함을 보여준다. 시간 단계 \( T \)가 충분히 크고 스케줄이 적절히 설정되면, \( \mathbf{x}_T \)는 사실상 순수한 등방성 가우스 잡음에 근접하게 된다[1].
역방향 확산 과정은 확산 모델이 노이즈로부터 데이터를 복원하는 생성 단계를 의미한다. 순방향 과정이 데이터에 점진적으로 노이즈를 추가해 완전한 가우스 잡음으로 만드는 반면, 역방향 과정은 이 노이즈로부터 시작해 점진적으로 노이즈를 제거하여 원본 데이터 분포를 복원한다. 이 과정은 확률적이며, 학습된 모델이 각 단계에서 제거해야 할 노이즈의 방향과 크기를 예측한다.
수학적으로, 역과정은 순방향 확산의 반대인 마르코프 체인으로 모델링된다. 목표는 주어진 잡음화된 데이터 $x_t$에서 이전 단계의 덜 잡음화된 데이터 $x_{t-1}$의 조건부 분포 $p_\theta(x_{t-1} | x_t)$를 학습하는 것이다. 이 분포는 일반적으로 가우스 분포로 가정되며, 그 평균은 신경망으로 예측한다. 핵심은 신경망이 $x_t$와 시간 단계 $t$를 입력받아 $x_t$에 추가된 노이즈 $\epsilon$ 또는 $x_0$를 예측하도록 학습된다는 점이다.
실제 구현에서는 DDPM과 같은 모델이 역과정을 위한 파라미터화된 분포 $p_\theta(x_{t-1} | x_t)$를 정의한다. 이 분포의 평균 $\mu_\theta(x_t, t)$는 다음과 같이 유도된다.
$$\mu_\theta(x_t, t) = \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{\beta_t}{\sqrt{1 - \bar{\alpha}_t}} \epsilon_\theta(x_t, t) \right)$$
여기서 $\epsilon_\theta(x_t, t)$는 신경망이 예측한 노이즈이며, $\alpha_t$, $\beta_t$, $\bar{\alpha}_t$는 사전 정의된 노이즈 스케줄에 따른 계수이다. 분산은 고정되거나 학습될 수 있다.
역방향 과정은 $T$단계부터 시작해 $1$단계까지 반복적으로 샘플링을 수행한다. 초기 샘플 $x_T$는 순수한 가우스 노이즈에서 추출하며, 다음 공식을 따라 $x_{t-1}$을 순차적으로 생성한다.
$$x_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{\beta_t}{\sqrt{1 - \bar{\alpha}_t}} \epsilon_\theta(x_t, t) \right) + \sigma_t z$$
여기서 $z$는 표준 정규 분포 노이즈다. 이 반복적인 노이즈 제거 과정을 통해 최종적으로 원본 데이터 분포에서 온 고품질의 샘플 $x_0$를 얻는다.
손실 함수는 확산 모델이 학습하는 핵심 목표를 정의하며, 모델이 잡음을 제거하는 능력을 최적화하는 데 사용된다. 일반적으로 음의 로그 우도를 최소화하는 변분 하한을 최적화하는 방식으로 유도된다. 이 과정에서 실제 데이터 분포와 모델이 예측하는 잡음 분포 사이의 쿨백-라이블러 발산을 최소화하는 문제로 귀결된다.
실제 구현에서는 손실 함수가 단순화되어, 모델이 각 타임스텝 t에서 추가된 잡음 ε을 예측하도록 훈련된다. 손실은 다음과 같은 간단한 평균 제곱 오차 형태를 취한다.
손실 항 | 설명 |
|---|---|
L_simple | 실제 가우시안 잡음과 예측된 잡음 간의 MSE |
L_vlb | 변분 하한 손실 (일반적으로 가중치가 낮음) |
여기서 L_simple이 주로 사용되며, 모델 f_θ(x_t, t)는 잡음 ε을 추정한다. 이 손실은 모든 타임스텝 t에 대해 균일하게 샘플링되어 계산되며, 역과정의 확률적 미분방정식을 학습하는 데 효과적이다. 손실 함수의 이러한 설계는 복잡한 분포 추정 문제를 직관적인 잡음 예측 문제로 변환하여 학습의 안정성을 높인다.
일부 고급 모델에서는 손실 함수에 추가적인 항을 도입하기도 한다. 예를 들어, 분류기 지도 기법에서는 생성 과정을 특정 조건(예: 이미지 클래스)에 맞게 유도하기 위해 분류기의 기울기 정보를 손실에 반영한다[2]. 또한 잠재 확산 모델에서는 VAE의 인코더-디코더를 통해 얻은 잠재 공간에서 손실을 계산하여 계산 효율성을 높인다.

확산 모델의 핵심 프레임워크를 구현하는 주요 아키텍처로는 DDPM, Score-Based Models, 그리고 Latent Diffusion Models가 대표적이다. 이들은 모두 확산 과정의 기본 원리를 공유하지만, 이를 모델링하고 최적화하는 접근 방식에 차이가 있다.
DDPM (Denoising Diffusion Probabilistic Models)은 확산 모델의 초기이자 표준적인 프레임워크를 정립했다. 이는 순방향 과정에서 점진적으로 가우스 잡음을 추가하여 데이터를 파괴하고, 역방향 과정에서 신경망이 각 단계의 잡음을 예측하여 원본 데이터를 복원하도록 학습한다. 학습 목표는 각 타임스텝 t에서 추가된 잡음과 신경망이 예측한 잡음 간의 평균 제곱 오차를 최소화하는 것이다. DDPM은 이론적으로 정교하며 고품질의 이미지를 생성할 수 있지만, 수백에서 수천 단계의 반복적인 샘플링이 필요해 추론 속도가 느리다는 단점이 있었다.
Score-Based Models은 동일한 현상을 확률 밀도 함수의 기울기(Score) 관점에서 접근한다. 이 방법은 데이터 분포의 스코어 함수를 직접 학습하며, Langevin dynamics와 같은 방법을 사용하여 스코어를 따라가며 샘플을 생성한다. Score Matching과 Stochastic Differential Equations 이론과 결합되어 이론적 기반을 더욱 공고히 했다. 이후 연구들은 DDPM과 Score-Based Models가 본질적으로 동일한 수학적 틀을 공유함을 보여주며, 두 분야가 통합되는 계기가 되었다.
Latent Diffusion Models (LDA)는 추론 속도의 한계를 극복하기 위한 중요한 발전이다. 이 모델은 원본 픽셀 공간이 아닌, 사전에 학습된 자동 인코더의 압축된 잠재 공간에서 확산 과정을 수행한다. 고해상도 이미지 생성 모델 Stable Diffusion이 이 아키텍처를 채택하여 널리 알려졌다. 잠재 공간은 차원이 훨씬 낮기 때문에 계산 부담이 크게 줄어들고, 어텐션 메커니즘과 같은 복잡한 네트워크 구조를 효율적으로 통합할 수 있다. 또한 텍스트 임베딩이나 다른 조건 정보를 크로스 어텐션 레이어를 통해 주입하여 텍스트-이미지 생성과 같은 정교한 조건부 생성이 가능해진다.
모델 아키텍처 | 핵심 아이디어 | 주요 특징 |
|---|---|---|
순방향/역방향 확산 과정, 잡음 예측 | 이론적으로 정립된 표준 프레임워크, 고품질 샘플링, 느린 추론 속도 | |
스코어 함수 학습 및 Langevin dynamics | 확률 밀도 기울기 관점, SDE 이론과의 통합, DDPM과의 동치성 증명 | |
잠재 공간에서의 확산 과정 | 계산 효율성 극대화, 고해상도 이미지 생성 가능, 조건부 생성에 유리 (예: Stable Diffusion) |
DDPM은 2020년에 제안된 확산 모델의 핵심적인 프레임워크 중 하나이다. 이 모델은 마르코프 체인을 기반으로 한 순방향 확산 과정과 역방향 확산 과정을 통해 데이터를 생성한다. 순방향 과정에서는 원본 데이터에 점진적으로 가우시안 잡음을 추가하여 완전한 잡음으로 만든다. 반대로, 역방향 과정은 이 잡음으로부터 원본 데이터 분포를 복원하는 방법을 학습한다.
모델의 핵심은 각 잡음 제거 단계에서 작은 양의 잡음을 예측하거나, 잡음이 섞인 데이터의 원본을 예측하는 네트워크를 학습하는 것이다. DDPM은 특정 시간 단계 t에서의 잡음이 섞인 데이터를 입력으로 받아, 추가된 잡음을 직접 예측하는 U-Net과 같은 신경망 구조를 주로 사용한다. 이 과정은 변분 하한을 최대화하는 방식으로 학습되며, 실제로는 잡음 예측 오차의 평균 제곱 오차를 최소화하는 간단한 목적 함수를 사용한다.
DDPM의 샘플링은 역방향 과정을 따라 진행된다. 완전한 가우시안 잡음으로 시작하여, 학습된 모델이 예측한 잡음을 단계적으로 제거해 나간다. 각 단계는 다음과 같은 수식을 따른다.
변수 | 설명 |
|---|---|
x_t | t 단계의 잡음 데이터 |
ε_θ | 신경망이 예측한 잡음 |
β_t | 사전 정의된 잡음 스케줄 (분산) |
이 과정은 수백에서 수천 단계를 거쳐 고품질의 샘플을 생성하지만, 계산 비용이 크다는 단점이 있다. DDPM의 제안은 확산 모델의 이론적 토대를 공고히 하고, 이미지 생성 분야에서 GAN에 필적하는 품질을 보여주며 이후 연구의 폭발적인 증가를 촉발시켰다.
Score-Based Models는 확산 모델의 한 접근법으로, 데이터 분포의 그래디언트(기울기)를 직접 모델링하여 생성 과정을 수행하는 프레임워크이다. 이 방법은 확률 미분방정식을 통해 순방향 및 역방향 과정을 통일된 관점에서 해석한다는 특징을 가진다.
핵심 아이디어는 데이터 공간에서 정의된 스코어 함수를 학습하는 것이다. 스코어 함수는 주어진 지점에서 데이터 로그 밀도의 그래디언트로, 데이터가 존재할 가능성이 높은 방향을 가리킨다. 모델은 다양한 노이즈 수준에서 파라미터화된 스코어 네트워크를 학습하여, 원본 데이터부터 단순한 가우시안 노이즈에 이르는 연속적인 노이즈 분포의 스코어를 추정한다. 학습에는 스코어 매칭이나 그 변형 기법이 주로 사용된다.
샘플링은 학습된 스코어 네트워크를 활용하여 랜지빈 역학이나 예측자-수정자와 같은 수치 해법을 통해 수행된다. 초기에는 무작위 노이즈에서 시작하여, 스코어 네트워크가 예측하는 데이터 분포의 기울기 방향을 따라 점진적으로 노이즈를 제거하면서 고품질 샘플을 생성한다. 이 과정은 확률적이므로 매번 다른 결과를 만들어낼 수 있다.
특성 | 설명 |
|---|---|
핵심 개념 | |
주요 학습 방법 | |
샘플링 방법 | |
주요 장점 | 이론적 통일성, 안정적인 학습, 유연한 샘플링 |
주요 모델 예시 | NCSN(Noise Conditional Score Networks) |
이 프레임워크는 Denoising Diffusion Probabilistic Models와 수학적으로 동등함이 증명되었으며, 확률 흐름의 관점에서 두 접근법을 일반화하는 확률 미분방정식 기반의 생성 모델링으로 발전하였다. 이를 통해 노이즈 스케줄링과 샘플링 속도 간의 균형을 이론적으로 분석하고 최적화하는 연구가 활발히 진행되었다.
Latent Diffusion Models는 확산 모델의 계산 비용 문제를 해결하기 위해 도입된 변형이다. 핵심 아이디어는 고차원의 원본 데이터(예: 픽셀 공간의 이미지)가 아닌, 사전 학습된 자동 인코더를 통해 얻은 저차원의 잠재 공간에서 확산 과정을 수행하는 것이다. 이 접근법은 DDPM과 같은 기존 확산 모델이 고해상도 이미지 생성 시 겪는 계산 부담을 크게 줄여준다.
구조적으로, 잠재 확산 모델은 두 가지 주요 구성 요소로 이루어진다. 첫째, 변분 자동 인코더는 입력 이미지를 압축된 잠재 표현으로 인코딩하고, 이를 다시 원본에 가깝게 디코딩하는 방법을 학습한다. 둘째, U-Net 기반의 확산 모델은 이 잠재 공간 내에서 노이즈를 점진적으로 추가하고 제거하는 과정을 학습한다. 이때, 교차 주의 메커니즘을 통해 텍스트 프롬프트나 다른 조건 정보를 생성 과정에 주입할 수 있다.
이 모델의 주요 장점은 효율성이다. 512x512 픽셀 이미지를 직접 다루는 대신, 예를 들어 64x64 크기의 잠재 벡터에서 확산 과정이 이루어지므로 메모리 사용량과 계산 시간이 획기적으로 감소한다. 또한, 고품질의 디코더를 통해 잠재 표현을 고해상도 이미지로 복원할 수 있어, 생성 품질을 유지하면서도 속도를 높일 수 있다. 대표적인 구현체인 Stable Diffusion은 이 아키텍처를 통해 텍스트로부터 이미지를 생성하는 능력으로 널리 알려졌다.
특징 | 설명 |
|---|---|
주요 구성 요소 | 사전 학습된 자동 인코더, U-Net 기반 확산 모델 |
작동 공간 | 원본 픽셀 공간이 아닌 압축된 잠재 표현 공간 |
핵심 기술 | 잠재 공간에서의 순방향/역방향 확산, 조건부 생성을 위한 교차 주의 |
주요 장점 | 계산 및 메모리 효율성 향상, 고해상도 이미지 생성 가능 |
대표 모델 |

확산 모델의 학습은 순방향 확산 과정과 역방향 확산 과정에 대한 확률 분포를 정확히 모델링하는 것을 목표로 한다. 학습 절차는 일반적으로 다음과 같은 단계로 진행된다. 먼저, 데이터셋에서 무작위로 샘플을 선택한다. 그런 다음, 무작위로 확산 시간 단계 t를 샘플링하고, 해당 단계에서의 노이즈 ε을 생성한다. 모델(보통 U-Net 기반의 신경망)은 노이즈가 첨가된 데이터와 시간 단계 t를 입력으로 받아, 추가된 노이즈를 예측하도록 학습한다. 이때 사용되는 핵심 손실 함수는 노이즈 예측 오차의 평균 제곱 오차(MSE)이다. 학습이 완료되면, 모델은 임의의 노이즈로부터 원본 데이터 분포를 복원하는 방법을 습득하게 된다.
샘플링(추론) 과정은 학습된 역과정을 통해 순수한 가우시안 노이즈로부터 데이터를 점진적으로 생성하는 절차이다. 가장 기본적인 알고리즘은 다음과 같은 반복적 디노이징 절차를 따른다.
1. 완전한 무작위 노이즈 x_T를 샘플링한다.
2. t = T에서 t = 1까지 역순으로 다음 단계를 반복한다:
a. 모델을 사용해 현재 샘플 x_t에 포함된 노이즈를 예측한다.
b. 예측된 노이즈와 현재 샘플, 시간 단계 t를 이용해 이전 시간 단계의 샘플 x_{t-1}을 계산한다. 이 계산에는 노이즈의 확률적(stochastic) 요소가 추가될 수 있다.
3. 최종적으로 원본 데이터 공간의 샘플 x_0를 얻는다.
이 기본적인 샘플링은 수백에서 수천 단계의 반복을 필요로 하기 때문에 계산 비용이 매우 크다는 단점이 있다. 따라서 이를 가속화하기 위한 다양한 기법이 연구되었다.
기법 이름 | 핵심 아이디어 | 주요 특징 |
|---|---|---|
DDIM(Denoising Diffusion Implicit Models) | 확산 과정을 비마르코프 연쇄로 재해석하여 샘플링 경로를 결정론적으로 만듦 | 더 적은 단계(예: 50~100단계)로 고품질 샘플 생성 가능, 역과정 가속화 |
학습된 샘플러 (Learned Samplers) | 샘플링 과정 자체를 최적화하거나, 더 큰 스텝으로 점프하는 방법을 학습함 | 추론 시간 단계 수를 획기적으로 줄임 (예: 4~10단계) |
확률적 미분 방정식 솔버 (SDE/ODE Solvers) | 유연한 트레이드오프(생성 속도 vs 품질) 제어, 정확한 샘플링 가능 |
이러한 가속화 기법들은 확산 모델의 실용적 적용에 필수적이며, 이미지 생성 속도를 기존의 수백 배에서 수천 배까지 향상시킬 수 있다.
확산 모델의 학습은 순방향 확산 과정과 역방향 확산 과정의 확률적 관계를 모델이 학습하도록 하는 것을 목표로 한다. 핵심은 주어진 잡음이 추가된 데이터로부터 원본 데이터를 예측하는 잡음 제거 함수를 학습하는 것이다. 구체적으로, 학습 데이터셋에서 샘플 x₀를 선택한 후, 미리 정의된 스케줄에 따라 t=1부터 t=T까지의 타임스텝 중 하나를 무작위로 샘플링한다. 그런 다음 해당 타임스텝 t에 해당하는 양의 분산 β_t를 사용해 잡음 ε을 추가하여 잡음이 섞인 데이터 x_t를 생성한다.
모델(일반적으로 U-Net 같은 신경망)은 이 잡음이 섞인 데이터 x_t와 타임스텝 t를 입력으로 받아, 추가된 잡음 ε을 예측하도록 학습된다. 사용되는 손실 함수는 예측된 잡음과 실제로 추가된 잡음 간의 평균 제곱 오차(MSE)이다. 이 과정을 수많은 데이터 샘플과 타임스텝에 대해 반복하여 모델을 최적화한다. 중요한 점은 이 학습 목표가 ELBO를 최대화하는 것과 동등하며, 결과적으로 데이터의 로그 가능도를 간접적으로 최대화한다는 것이다[3].
학습 절차는 다음과 같이 요약할 수 있다.
단계 | 설명 |
|---|---|
1. 데이터 샘플링 | 학습 데이터셋에서 원본 데이터 x₀를 무작위로 선택한다. |
2. 타임스텝 샘플링 | 확산 과정의 타임스텝 t를 {1, ..., T}에서 균일하게 샘플링한다. |
3. 잡음 추가 | 표준 정규 분포에서 잡음 ε을 샘플링하고, 스케줄에 따라 x_t = √(ᾱ_t)x₀ + √(1-ᾱ_t)ε을 계산한다. 여기서 ᾱ_t는 누적된 노이즈 스케줄이다. |
4. 잡음 예측 | 모델(θ)에 x_t와 t를 입력하여 예측 잡음 ε_θ(x_t, t)를 출력한다. |
5. 손실 계산 및 최적화 | 손실 L = \ |
이러한 학습 방식은 적대적 생성 신경망의 미니맥스 게임과 같은 복잡한 학습 역학 없이도 안정적으로 진행될 수 있다. 학습이 완료되면, 모델은 순수한 잡음으로부터 시작해 학습된 역방향 과정을 따라 반복적으로 잡음을 제거함으로써 새로운 데이터 샘플을 생성하는 데 사용된다.
샘플링은 학습된 확산 모델을 사용하여 새로운 데이터를 생성하는 과정이다. 이는 역방향 확산 과정을 근사적으로 수행하여, 무작위 가우스 잡음으로부터 점진적으로 구조화된 데이터를 만들어낸다.
가장 기본적인 알고리즘은 DDPM에서 제안된 반복적 디노이징 절차다. 이 과정은 다음 단계를 따른다.
1. 표준 정규 분포에서 샘플링된 잡음 이미지 x_T로 시작한다.
2. t = T에서 t = 1까지 역방향으로 반복한다.
3. 각 단계 t에서, 학습된 신경망은 현재 샘플 x_t와 타임스텝 t를 입력받아 추가된 잡음을 예측한다.
4. 예측된 잡음을 사용해 x_{t-1}을 샘플링한다. 이는 보통 다음과 같은 재매개변수화 트릭을 사용한 계산을 통해 이루어진다.
5. 최종적으로 t=1에서의 샘플 x_0를 생성된 데이터로 출력한다.
이 기본 알고리즘은 정확하지만 수백~수천 번의 신경망 평가가 필요해 계산 비용이 높다는 단점이 있다. 이를 해결하기 위한 다양한 가속화 샘플링 알고리즘이 개발되었다. 대표적인 방법으로는 샘플링 단계 수를 줄이는 DDIM이 있다. DDIM은 확산 과정의 확률적 성질을 결정론적으로 만들어, 더 적은 반복으로도 고품질 샘플을 생성할 수 있게 한다. 다른 접근법으로는 고차 솔버를 적용하거나 학습 과정 자체를 개선하여 효율성을 높이는 방법들도 연구되고 있다[4].
알고리즘 | 주요 특징 | 샘플링 속도 | 샘플 품질 |
|---|---|---|---|
DDPM (기본) | 확률적, 반복적 디노이징 | 느림 | 매우 높음 |
DDIM | 결정론적, 샘플링 단계 감소 가능 | 보통-빠름 | 높음 |
PLMS | 선형 다중단계법 사용, 안정성 향상 | 빠름 | 높음 |
DPM-Solver | 확산 ODE의 고차 솔버 적용 | 매우 빠름 | 높음 |
이러한 알고리즘의 선택은 생성 속도, 샘플 다양성(fidelity), 계산 자원 간의 트레이드오프를 고려하여 이루어진다. 최근 연구는 더 적은 평가 단계(예: 10~50 스텝)로도 기존 수백 스텝의 성능을 내는 초고속 샘플링에 집중하고 있다.
추론 속도를 높이기 위한 가속화 기법은 확산 모델의 실용화에 핵심적인 요소이다. 기본적인 샘플링은 수백에서 수천 단계의 반복적인 역방향 확산 과정을 필요로 하기 때문에 계산 비용이 매우 크다. 이를 해결하기 위해 샘플링 단계 수를 줄이거나, 각 단계의 계산을 효율화하는 다양한 방법이 연구되었다.
대표적인 방법으로는 DDIM(Denoising Diffusion Implicit Models)이 있다. DDIM은 확산 과정을 비마르코프 연쇄로 재해석하여, 더 적은 단계로도 고품질 샘플을 생성할 수 있는 결정론적 샘플링 과정을 제안한다. 이는 샘플링 속도를 10~50배 가량 가속할 수 있다. 또한, PLMS(Pseudo Linear Multi-step method)나 DPM-Solver와 같은 고차 솔버 기법은 확산 미분방정식의 수치적 해법을 개선하여 동일한 단계 수에서 더 정확한 샘플링을 가능하게 하거나, 목표 품질을 달성하는 데 필요한 단계 수를 줄인다.
기법 | 핵심 아이디어 | 주요 효과 |
|---|---|---|
비마르코프 확산 과정을 가정한 결정론적 샘플링 | 샘플링 단계 수 대폭 감소 (가속화) | |
확산 ODE의 정확한 해법에 기반한 고차 솔버 | 단계당 샘플링 정확도 향상 또는 단계 수 감소 | |
대형 모델의 지식을 소형 모델로 이전 | 경량화된 모델로 빠른 추론 | |
고차원 픽셀 공간 대신 잠재 공간에서 확산 수행 | 단계당 계산 복잡도 감소 |
모델 경량화 및 지식 증류 기술도 중요한 가속화 경로이다. 대규모 사전 학습된 모델의 성능을 보다 작고 빠른 학생 모델로 이전하여 추론 속도를 높인다. 한편, 잠재 확산 모델은 VAE나 VQGAN 등의 인코더를 사용해 고차원 이미지를 저차원의 잠재 공간으로 압축한 후, 이 공간에서 확산 과정을 수행한다. 이는 각 샘플링 단계에서 처리해야 하는 데이터 차원을 극적으로 줄여 전체 생성 시간을 단축시킨다.

확산 모델은 고품질의 이미지, 오디오, 3D 모델 등을 생성하는 데 널리 활용되며, 생성형 인공지능의 핵심 기술로 자리 잡았다.
확산 모델은 텍스트 설명(프롬프트)을 기반으로 사실적인 이미지를 생성하는 텍스트 투 이미지 생성에 탁월한 성능을 보인다. DALL-E 2, Stable Diffusion, Imagen과 같은 모델들이 대표적이다. 단순한 생성뿐만 아니라, 기존 이미지의 특정 부분을 수정하는 인페인팅, 스타일을 변환하는 이미지 투 이미지, 해상도를 높이는 슈퍼 리졸루션 등 다양한 이미지 편집 작업에도 효과적으로 적용된다. Latent Diffusion Models는 계산 비용이 큰 픽셀 공간 대신 잠재 공간에서 확산 과정을 수행하여 효율성을 크게 높였다.
음성 합성 및 일반 오디오 생성 분야에서도 확산 모델은 중요한 진전을 이끌었다. 텍스트를 자연스러운 음성으로 변환하는 TTS 시스템, 음악 생성, 음향 효과 생성, 노이즈 제거 등에 사용된다. WaveGrad나 DiffWave 같은 모델은 고품질의 오디오 샘플을 생성하며, 자회귀 모델에 비해 긴 오디오 시퀀스를 생성하는 데 있어 일관성과 안정성에서 장점을 보인다.
3차원 콘텐츠 생성 분야에서는 단일 2D 이미지로부터 3D 모델을 재구성하거나, 텍스트 설명으로 직접 3D 메시나 뉴럴 렌더링 필드를 생성하는 연구가 활발하다. DreamFusion과 같은 모델은 텍스트 투 3D 생성 파이프라인에서 확산 모델을 지도 신호로 활용하여 혁신적인 결과를 보여주었다. 이는 게임, 가상 현실, 영화 산업 등에 폭넓은 영향을 미칠 것으로 기대된다.
응용 분야 | 주요 모델/기술 예시 | 생성 대상 |
|---|---|---|
이미지 | 사실적/예술적 이미지, 편집 결과물 | |
오디오 | 음성, 음악, 효과음 | |
3D 모델링 | 3D 메시, 네오RF, 포인트 클라우드 |
확산 모델은 고품질의 이미지를 생성하고, 기존 이미지를 다양한 방식으로 편집하는 데 널리 활용된다. 이 접근법의 핵심은 노이즈를 점진적으로 제거하여 사실적인 이미지를 구성하는 역확산 과정에 있다.
이미지 생성 작업에서는 일반적으로 무작위 가우스 노이즈 샘플로부터 시작하여, 학습된 모델이 반복적인 노이즈 제거 단계를 거쳐 최종 이미지를 만들어낸다. 이 과정은 텍스트 프롬프트, 스케치, 색상 팔레트 등 다양한 조건을 입력으로 받아 해당 조건에 맞는 이미지를 생성할 수 있도록 확장되었다. 대표적인 모델인 Stable Diffusion은 계산 효율성을 높이기 위해 잠재 공간에서 확산 과정을 수행하여, 비교적 적은 자원으로도 고해상도 이미지를 생성할 수 있다.
이미지 편집 응용 분야에서는 확산 모델의 역과정 특성을 활용한다. 이미지 인페인팅은 이미지의 일부 마스크 영역을 주변 문맥에 맞게 채워 복원하는 기술이다. 이미지-이미지 변환은 스케치를 사진으로, 낮 시간대 사진을 야간 사진으로, 또는 한 예술 스타일을 다른 스타일로 변환하는 작업을 수행한다. 또한, 생성 과정에 특정 조건을 주입하여 이미지의 구도나 객체를 유지한 채 세부 속성(예: 머리 색깔, 배경, 표정)만을 변경하는 지향적 편집도 가능하다.
아래 표는 확산 모델의 주요 이미지 관련 응용 분야와 그 예시를 정리한 것이다.
응용 분야 | 주요 기술/예시 | 설명 |
|---|---|---|
무조건 이미지 생성 | 무작위 샘플링 | 특정 조건 없이 다양한 이미지를 생성한다. |
조건부 이미지 생성 | 텍스트-이미지 생성[5], 스케치-이미지 생성 | 텍스트 설명이나 스케치를 조건으로 하여 이미지를 생성한다. |
이미지 편집 | 인페인팅, 아웃페인팅, 지향적 편집 | 이미지의 일부를 수정, 확장, 또는 특성 변환한다. |
이미지 초해상도 | 업스케일링 | 저해상도 이미지를 고해상도로 변환한다. |
이미지-이미지 변환 | 스타일 변환, 시간대/계절 변환 | 이미지의 스타일이나 특정 속성을 다른 것으로 변환한다. |
확산 모델은 이미지 생성 분야에서 성공을 거둔 후, 음성 합성 및 오디오 생성 분야로 그 적용 범위를 확장했다. 이 기술은 고품질의 자연스러운 음성과 다양한 종류의 오디오 신호를 생성하는 데 효과적으로 활용된다. 기존 신경망 음성 합성 방식과 달리, 확산 모델은 원본 데이터에 점진적으로 노이즈를 추가하는 순방향 확산 과정과 이를 다시 제거하여 데이터를 생성하는 역방향 확산 과정을 통해 작동한다.
음성 생성에서 확산 모델은 주로 멜-스펙트로그램이나 오디오 파형 자체를 생성 대상으로 삼는다. WaveGrad나 DiffWave 같은 모델은 직접 오디오 샘플을 생성하는 반면, Grad-TTS와 같은 모델은 먼저 멜-스펙트로그램을 생성한 후 보코더를 통해 최종 오디오로 변환하는 방식을 사용한다. 이 과정은 텍스트나 음악 악보와 같은 조건 정보에 의해 조절되어 원하는 내용의 음성이나 음악이 생성되도록 한다.
확산 모델 기반 오디오 생성의 주요 응용 분야는 다음과 같다.
응용 분야 | 설명 | 대표 모델/사례 |
|---|---|---|
텍스트-음성 변환 | 입력된 텍스트를 자연스러운 음성으로 변환한다. | |
음악 생성 | 새로운 음악 조각이나 특정 스타일의 음악을 생성한다. | |
음성 변환 | 화자의 목소리 특징을 유지하며 음질을 개선하거나 화자 특징을 변경한다. | |
음성 복원 및 향상 | 노이즈가 포함되거나 손상된 오디오에서 원본 음성을 복원한다. |
이러한 접근법은 기존 GAN 기반 음성 생성 모델이 겪었던 학습 불안정성과 모드 붕괴 문제를 완화하며, 특히 생성 품질과 샘플 다양성 측면에서 강점을 보인다. 또한, 확산 모델은 생성 과정을 여러 단계로 나누어 제어할 수 있어, 생성되는 음성의 속도나 감정과 같은 세부 속성을 조절하는 데 유리하다. 최근 연구는 더 긴 오디오 시퀀스 생성을 위해 Latent Diffusion Model을 적용하거나, 생성 속도를 획기적으로 높이는 확산 가속화 기법을 통합하는 방향으로 진행되고 있다.
확산 모델은 2차원 이미지 생성 분야에서의 성공을 바탕으로 3차원 모델링 분야로 그 적용 영역을 확장하고 있다. 이는 단순히 3차원 객체의 외형을 생성하는 것을 넘어, 텍스트나 2D 이미지와 같은 조건을 입력받아 일관된 3D 콘텐츠를 생성하는 것을 목표로 한다. 주요 접근 방식은 뉴럴 레이디언스 필드나 포인트 클라우드, 메쉬와 같은 3D 표현을 직접 생성하거나, 다각도의 2D 이미지를 생성한 후 이를 3D로 재구성하는 방법이 있다.
구체적인 생성 파이프라인은 일반적으로 두 단계로 구성된다. 첫 번째 단계에서는 텍스트 프롬프트를 조건으로 하는 2D 확산 모델을 사용하여 대상 객체의 여러 시점(정면, 측면, 후면 등)에 대한 일관된 2D 이미지들을 생성한다. 두 번째 단계에서는 이러한 다중 뷰 2D 이미지들을 입력으로 사용하여 3D 재구성 알고리즘을 통해 하나의 통합된 3D 모델을 생성한다. 이때 3D 표현으로는 NeRF가 널리 사용되며, 생성된 3D 모델은 블렌더나 유니티 같은 표준 도구에서 불러와 편집하고 활용할 수 있다.
생성 방식 | 주요 표현 방법 | 특징 |
|---|---|---|
직접 3D 생성 | 3D 공간에서 직접 확산 과정을 모델링하거나, 잠재 공간에서 3D 표현을 학습한다. | |
2D 멀티뷰 합성 후 재구성 | 텍스트-이미지 확산 모델로 여러 각도의 2D 뷰를 생성한 후, 신경망 기반 렌더링 기술로 3D를 만든다. |
이 기술의 응용 분야는 매우 다양하다. 가상 현실과 증강 현실 콘텐츠 제작, 비디오 게임의 자산 생성, 제품 디자인 및 프로토타이핑, 그리고 의료나 과학 분야의 데이터 시각화 등에 활용될 수 있다. 특히, 사용자가 자연어로 원하는 형태를 설명하면 고품질의 3D 모델을 빠르게 생성할 수 있어 콘텐츠 제작의 민주화를 촉진한다. 그러나 아직까지는 생성 시간이 길고, 복잡한 기하학적 구조나 높은 해상도의 세부 묘사를 정확하게 생성하는 데 한계가 있으며, 생성된 3D 모델의 다각도 일관성을 완벽하게 보장하기 어려운 과제가 남아 있다[6].

확산 모델은 고품질의 다양하고 세밀한 샘플을 생성할 수 있다는 점에서 큰 장점을 지닌다. 특히 GAN과 같은 기존 생성 모델에서 흔히 나타나는 모드 붕괴 문제를 겪지 않으며, 학습 과정이 안정적이다. 확산 모델의 학습 목표는 단순한 노이즈 제거 작업으로 귀결되기 때문에, 적대적 훈련이 필요하지 않고 수렴이 보다 예측 가능하다. 또한 확률적 생성을 통해 단일 입력에서도 다양한 출력을 만들어낼 수 있으며, 조건부 생성과 이미지 편집에 매우 유연하게 적용된다.
반면, 확산 모델은 가장 큰 단점으로 추론 속도가 매우 느리다는 점을 꼽는다. 고품질 샘플을 생성하기 위해서는 수백에서 수천 단계에 걸친 반복적인 노이즈 제거 단계를 거쳐야 하므로, 실시간 응용에 제약이 따른다. 이는 계산 비용이 크다는 문제와 직결된다. 또한 모델이 잠재 공간이 아닌 원본 데이터 공간에서 직접 동작하는 경우, 메모리 사용량이 높을 수 있다. 이론적 이해와 수학적 배경이 비교적 복잡하여 접근성이 다소 떨어진다는 점도 한계로 지적된다.
다음 표는 확산 모델의 주요 장단점을 요약한 것이다.
장점 | 단점 |
|---|---|
높은 샘플 품질과 다양성 | 느린 샘플링(추론) 속도 |
안정적인 학습 과정 (모드 붕괴 없음) | 높은 계산 비용 |
간단한 손실 함수 (노이즈 예측) | 복잡한 수학적 배경 |
유연한 조건부 생성 및 편집 가능 | 대규모 모델 및 데이터에 대한 의존성 |
이러한 장단점을 해결하기 위해 샘플링 가속화 기법, 잠재 확산 모델과 같은 효율적인 아키텍처, 그리고 지도 학습 없이 학습하는 방법 등이 활발히 연구되고 있다.
확산 모델은 고품질의 다양하고 사실적인 샘플을 생성하는 능력으로 주목받는다. 특히 GAN이 종종 겪는 모드 붕괴 문제를 회피하여, 학습 데이터 분포의 다양한 모드를 포착하는 데 뛰어나다. 이는 확산 과정이 점진적으로 노이즈를 제거하는 안정적인 학습 방식을 따르기 때문이다.
이 모델은 학습 목표가 명확하고 최적화가 비교적 용이하다는 장점도 지닌다. 각 단계에서의 노이즈 제거 작업은 간단한 회귀 문제로 귀결되며, 역전파와 같은 표준 기법으로 효과적으로 학습된다. 이는 GAN의 적대적 학습에서 발생하는 불안정성과 균형 문제를 크게 완화한다.
확산 모델은 유연한 조건부 생성이 가능하다. 텍스트 프롬프트, 세그멘테이션 맵, 다른 이미지 등을 조건으로 제공하여 생성 과정을 정밀하게 제어할 수 있다. 또한 이미지 인페인팅, 슈퍼 해상도, 이미지 편집 등 다양한 생성 및 조작 작업에 동일한 프레임워크를 적용할 수 있다.
표: 확산 모델의 주요 장점 요약
장점 | 설명 |
|---|---|
생성 품질 | 고해상도, 사실적, 다양성 높은 샘플 생성 |
학습 안정성 | 모드 붕괴 회피, 명확한 손실 함수, 수렴성 우수 |
조건부 생성 | 텍스트, 이미지 등 다양한 조건에 따른 유연한 생성 |
다용도성 | 생성, 복원, 편집 등 광범위한 작업 적용 가능 |
마지막으로, 확산 모델은 이론적으로 정립된 확률적 프레임워크를 바탕으로 한다. 이는 생성 과정에 대한 명확한 확률적 해석을 제공하며, 로그 가능도의 하한을 직접 최적화할 수 있어 모델의 동작을 이해하고 분석하는 데 유리하다.
확산 모델은 높은 샘플 품질과 학습 안정성으로 주목받지만, 몇 가지 명확한 단점과 한계를 지니고 있다. 가장 큰 문제는 추론 속도가 매우 느리다는 점이다. 하나의 샘플을 생성하기 위해 수백 번에서 수천 번의 순차적인 역확산 과정을 거쳐야 하므로, 실시간 응용에 적용하기 어렵다. 이는 생성적 적대 신경망이나 자회귀 모델에 비해 현저히 불리한 요소이다.
계산 비용과 자원 소모 또한 상당하다. 긴 샘플링 과정은 많은 계산 자원을 필요로 하며, 고해상도 이미지를 생성할 때는 특히 더 부담이 커진다. 학습 과정 역시 대규모 데이터셋과 긴 학습 시간을 요구한다. 모델이 데이터의 잠재적 분포를 정확히 학습하기 위해 필요한 반복적인 노이즈 추가 및 제거 과정이 그 원인이다.
모델의 제어 가능성과 해석 가능성은 여전히 과제로 남아있다. 생성 과정이 잠재 공간을 통해 점진적으로 진행되기 때문에, 생성되는 샘플의 특정 속성(예: 포즈, 표정, 객체 배치)을 정밀하게 제어하기 어렵다. 이는 조건부 생성을 위한 프롬프트나 조건 입력이 모델에 어떻게 정확히 반영되는지 명확히 이해하기 어려운 부분과 연결된다. 또한, 생성된 샘플이 학습 데이터를 단순히 기억하거나 복제하는 과적합 현상이나, 다양성이 부족한 모드 붕괴 현상이 발생할 가능성도 완전히 배제할 수 없다.

확산 모델은 GAN 및 VAE와 함께 현대 생성형 AI의 주요 패러다임을 형성한다. 각 접근법은 데이터 생성 문제를 해결하는 고유한 수학적 프레임워크와 특징을 지닌다.
비교 항목 | 확산 모델 | GAN (Generative Adversarial Networks) | VAE (Variational Autoencoders) |
|---|---|---|---|
핵심 원리 | 마르코프 연쇄를 통한 점진적인 잡음 제거 | 생성기와 판별기의 적대적 경쟁 | 확률적 인코더-디코더를 통한 잠재 공간 학습 |
학습 안정성 | 상대적으로 안정적 | 모드 붕괴, 학습 불안정 문제 발생 가능 | 안정적 |
생성 품질 | 매우 높은 다양성과 세부 묘사 | 높은 선명도, 다양성 제한 가능 | 상대적으로 흐릿한 생성물 |
샘플링 속도 | 느림 (수백 단계) | 매우 빠름 (단일 순전파) | 빠름 (단일 순전파) |
확률적 모델 | 명시적 | 암시적 | 명시적 |
GAN은 생성기와 판별기의 적대적 학습을 바탕으로 한다. 이는 매우 선명한 이미지를 빠르게 생성할 수 있지만, 학습이 불안정하고 모드 붕괴라는 현상으로 인해 생성 샘플의 다양성이 떨어질 수 있다는 단점이 있다. 반면 확산 모델은 학습 목표가 명확하고 안정적이며, 모드 붕괴 없이 높은 다양성을 보장한다. 그러나 샘플링에 많은 단계가 필요해 GAN에 비해 생성 속도가 현저히 느리다.
VAE는 데이터를 잠재 변수의 확률 분포로 압축한 후 다시 복원하는 방식으로 작동한다. 이는 명시적인 확률 모델을 제공하고 비교적 빠른 샘플링이 가능하다. 하지만 복원 손실 항의 영향으로 생성된 이미지가 흐릿해지는 경향이 있다. 확산 모델 역시 명시적 확률 모델이지만, 순방향/역방향 과정을 정의하는 확률 미분방정식에 기반하여 VAE보다 훨씬 정교한 생성이 가능하다. 한편, 자회귀 모델은 픽셀 또는 토큰을 순차적으로 예측하는 방식으로, 가장 높은 가능도를 제공하지만 순차적 생성으로 인해 샘플링 속도가 가장 느린 경우가 많다.
확산 모델은 확률적 생성 모델의 한 종류로, 데이터에 점진적으로 노이즈를 추가하는 순방향 확산 과정과 이를 복원하는 역방향 확산 과정을 학습한다. 반면, GAN은 생성기와 판별기라는 두 개의 신경망을 적대적으로 경쟁시키며 학습하는 생성 모델이다.
GAN의 핵심 구조와 학습 원리는 다음과 같다.
생성기(Generator): 잠재 공간에서 샘플링된 랜덤 벡터(노이즈)를 입력받아 실제 데이터와 유사한 가짜 데이터를 생성한다.
판별기(Discriminator): 입력 데이터가 실제 데이터셋에서 온 것인지(진짜), 생성기가 만들어낸 것인지(가짜)를 구분하도록 학습한다.
적대적 학습: 생성기는 판별기를 속이도록, 판별기는 생성기가 만든 데이터를 정확히 구분하도록 서로를 경쟁시키며 동시에 학습한다. 이 과정은 미니맥스 게임으로 수식화된다.
두 모델의 주요 차이점을 비교하면 다음과 같다.
특성 | GAN (Generative Adversarial Networks) | 확산 모델 (Diffusion Models) |
|---|---|---|
학습 안정성 | 모드 붕괴나 학습 불안정 문제가 발생할 수 있음 | 학습 목표가 명확하고 안정적임 |
생성 다양성 | 다양성이 떨어지거나 모드 붕괴가 발생할 수 있음 | 일반적으로 높은 다양성을 보임 |
생성 품질 | 매우 선명한 이미지를 생성할 수 있음 | 세부 묘사와 일관성 면에서 우수한 경향이 있음 |
학습 과정 | 두 네트워크의 균형 잡힌 경쟁이 필요함 | 단일 네트워크의 지도 학습에 가까움 |
샘플링 속도 | 한 번의 네트워크 통과로 빠르게 생성 가능 | 수백 단계의 반복적 역과정을 필요로 함 |
GAN은 빠른 샘플링 속도와 높은 선명도의 생성 결과로 주목받았으나, 학습의 어려움이 주요 한계로 지적되었다. 확산 모델은 상대적으로 학습이 안정적이고 고품질의 결과를 내지만, 느린 샘플링 속도가 단점이다. 이후 연구들은 두 접근법의 장점을 결합하거나 GAN의 학습 안정성을 개선하는 방향으로 진행되었다.
VAE는 잠재 변수 모델의 한 종류로, 데이터의 확률 분포를 학습하여 새로운 데이터를 생성하는 생성 모델이다. VAE는 인코더-디코더 구조를 가지며, 변분 추론을 통해 모델을 학습한다. 인코더는 입력 데이터를 잠재 공간의 확률 분포(일반적으로 가우시안 분포)의 파라미터(평균과 분산)로 변환하고, 디코더는 이 잠재 변수에서 원본 데이터를 재구성하거나 생성한다.
VAE의 핵심 목표는 증거 하한을 최대화하는 것이다. 이는 실제 데이터의 로그 가능도를 직접 최대화하기 어려울 때, 그 하한을 최대화함으로써 간접적으로 데이터 분포를 근사하는 방법이다. 손실 함수는 재구성 손실과 쿨백-라이블러 발산으로 구성된다. 재구성 손실은 디코더 출력이 원본 입력과 유사하도록 하고, KL 발산은 인코더가 출력하는 잠재 변수의 분포가 사전 분포(보통 표준 정규분포)에 가깝도록 정규화 역할을 한다.
VAE는 확률적 생성 모델로서, 연속적이고 구조화된 잠재 공간을 학습한다는 장점이 있다. 이 공간에서의 보간을 통해 의미 있는 새로운 샘플을 생성할 수 있으며, 잠재 변수를 조작하여 데이터의 특정 속성을 제어하는 것도 가능하다. 그러나 VAE가 생성하는 이미지의 품질은 종종 GAN에 비해 선명도나 디테일 면에서 떨어지는 경우가 있으며, 이는 재구성 손실이 픽셀 단위의 오차에 집중하기 때문에 발생할 수 있는 문제이다.
다음 표는 VAE의 주요 구성 요소와 특징을 요약한다.
구성 요소 | 설명 |
|---|---|
인코더 | 입력 데이터를 잠재 변수의 분포 파라미터(μ, σ)로 매핑한다. |
잠재 변수(z) | 인코더에서 샘플링된, 데이터의 압축된 표현이다. |
디코더 | 잠재 변수 z를 받아 원본 데이터 차원으로 재구성한다. |
손실 함수 | 재구성 손실(L2 또는 BCE)과 잠재 분포의 정규화 항(KL 발산)의 합이다. |
재파라미터화 트릭 | 역전파가 가능하도록 잠재 변수 샘플링 과정을 미분 가능하게 만든다. |
자회귀 모델은 순차 데이터를 생성할 때, 이전에 생성된 요소들을 조건으로 하여 다음 요소를 순차적으로 예측하는 생성 모델이다. 이 접근법은 언어 모델링에서 널리 사용되며, 트랜스포머 아키텍처 기반의 대규모 언어 모델(예: GPT 시리즈)이 대표적인 예이다. 이미지 생성에서는 픽셀 또는 패치를 하나의 긴 시퀀스로 간주하고 이를 순서대로 예측하는 방식으로 작동한다[7].
확산 모델과 자회귀 모델의 핵심 차이는 생성 과정의 병렬성과 제어 가능성에 있다. 확산 모델은 잠재 공간에서 노이즈를 점진적으로 제거하는 반복적인 과정을 통해 전체 샘플을 병렬적으로 개선한다. 반면, 자회귀 모델은 결정론적이며 순차적인 생성 과정을 거친다. 이로 인해 자회귀 모델은 긴 시퀀스 생성 시 시간이 많이 소요될 수 있다. 그러나 이 순차적 특성은 텍스트 생성과 같이 본질적으로 순차적인 작업에 매우 적합하며, 생성 과정 중 특정 지점에서의 정확한 제어가 상대적으로 용이하다는 장점이 있다.
다음은 확산 모델과 자회귀 모델의 주요 특성을 비교한 표이다.
특성 | 확산 모델 | 자회귀 모델 |
|---|---|---|
생성 방식 | 반복적 노이즈 제거 (병렬적 개선) | 순차적 다음 요소 예측 |
생성 속도 | 추론 시 다수 단계 필요 (느림) | 요소당 한 단계 예측 (시퀀스 길이에 비례) |
병렬 처리 | 단계 내 연산은 병렬 가능 | 생성 과정 자체는 순차적 필수 |
주요 적용 분야 | 고품질 이미지 생성/편집 | 텍스트 생성, 코드 생성, 음성 합성 |
조건부 생성 제어 | 분류기 유도 등 외부 신호 통합 용이 | 프롬프트를 통한 시작점 제어에 강점 |
결론적으로, 자회귀 모델은 데이터의 순차적 구조를 직접 모델링하는 데 탁월하며, 특히 자연어 처리 분야에서 확산 모델보다 먼저 성공을 거두었다. 반면 확산 모델은 고차원 연속 데이터(이미지, 오디오)에서 뛰어난 샘플 품질과 생성 다양성을 보여주며, 두 패러다임은 서로 다른 장단점을 바탕으로 생성형 AI의 다양한 문제를 해결한다. 최근 연구에서는 두 방법론의 장점을 결합한 하이브리드 접근법도 등장하고 있다.

최근 확산 모델 연구는 생성 품질과 속도의 균형, 조건부 생성의 정밀도 제어, 그리고 새로운 데이터 양식으로의 확장에 집중하고 있다. 한 축은 샘플링 속도를 획기적으로 개선하는 가속화 샘플링 알고리즘 개발이다. DDIM(Denoising Diffusion Implicit Models)이나 학습된 솔버를 활용하는 방법들은 필요한 반복 횟수를 크게 줄여 실시간 생성에 가까운 성능을 보여준다. 다른 축은 조건부 생성의 정교화로, 텍스트나 스케치, 레이아웃 등 다양한 조건을 정확하게 반영하는 모델 구조와 지도 학습 기법이 활발히 연구된다.
생성 영역의 확장도 두드러진다. 비전 분야를 넘어 고품질 음성 합성 및 음악 생성, 비디오 생성과 3D 모델 생성으로 적용 범위가 넓어지고 있다. 특히 잠재 공간에서 확산 과정을 수행하는 잠재 확산 모델(LDM) 패러다임은 계산 효율성을 높여 고해상도 이미지 및 복잡한 멀티모달 생성의 토대를 마련했다. 또한, 단일 모델로 이미지 생성, 편집, 인페인팅 등 다중 작업을 수행하는 통합 모델 아키텍처에 대한 관심도 증가하고 있다.
연구 커뮤니티는 모델의 한계를 해결하기 위한 기초적인 탐구도 지속한다. 확산 모델의 확률적 생성 특성이 초래하는 출력의 불확실성과 제어 어려움을 해결하려는 시도가 있으며, 생성 과정의 해석 가능성을 높이거나 편향 문제를 완화하는 연구도 진행된다. 대규모 멀티모달 데이터셋으로 사전 학습된 기초 모델에 확산 방식을 접목하여, 텍스트, 이미지, 음성 간의 통합적 생성을 가능하게 하는 방향이 차세대 생성형 인공지능의 주요 흐름으로 자리 잡고 있다.
