| Released | Active development |
|---|---|
| Type | Concept |
| Aliases | 디퓨전 모델, DDPM |
| Related | 텍스트→이미지 (text-to-image), gpt-image-2, ChatGPT Images 2.0, 프롬프트 엔지니어링 |
무엇인가
확산 모델(diffusion model)은 그림을 만드는 AI 모델 중 가장 널리 쓰이는 방식이다. 이름은 어렵지만 원리는 의외로 직관적이다. 깨끗한 사진을 조금씩 흐리게 만들어 결국 노이즈만 남게 했다고 상상해 보자. 확산 모델은 이 과정을 거꾸로 돌려, 노이즈에서 시작해 한 단계씩 노이즈를 지워가며 그림을 그려낸다.
어떻게 작동하나
비유로 설명하면 이렇다. 흐릿한 TV 화면이 있다. 아무것도 안 보이는 회색 잡음. 거기에 "고양이 사진"이라는 힌트를 주면, 모델은 그 잡음 속에서 고양이의 윤곽을 조금씩 또렷하게 만든다. 보통 20~50번의 단계를 거치며 이미지가 점점 선명해진다.
이 단계마다 모델은 "지금 화면에서 어느 부분이 노이즈이고 어느 부분이 진짜 이미지일까?"를 추측해 노이즈만 골라 빼낸다. 학습할 때는 이 반대 작업을 시킨다. 깨끗한 사진에 인공적으로 노이즈를 더해가며, 어떤 노이즈가 추가됐는지 맞히도록 훈련시킨다. 추측이 정확해질수록 거꾸로 돌리는 솜씨도 늘어난다.
어디에 쓰이나
- Stable Diffusion: 오픈소스로 공개된 대표적 확산 모델. 누구나 자기 컴퓨터에서 돌릴 수 있다.
- DALL·E 3, Midjourney: 상용 [[text-to-image]] 서비스의 핵심 엔진.
- 이미지 외에도 비디오, 3D, 음성 합성에 응용된다.
약점
확산 모델은 풍경이나 인물 사진은 매우 잘 그리지만, 몇 가지 잘 알려진 약점이 있다.
- 글자: 사진 속에 자연스러운 글자를 쓰는 것이 어렵다. 종종 알아볼 수 없는 기호처럼 나온다.
- 손과 손가락: 사람 손을 그릴 때 손가락이 6개가 되거나 이상한 모양으로 휘는 경우가 많다.
- 공간 관계: "왼쪽에 사과, 오른쪽에 바나나"처럼 정확한 위치 지정이 잘 안 된다.
이런 한계 때문에 최근에는 [[chatgpt-images-2]]처럼 다른 방식(autoregressive)으로 이미지를 만드는 모델도 등장했다. 그래도 2026년 현재 일반 소비자가 만나는 그림 생성 AI의 절대다수는 여전히 확산 모델 계열이다.
핵심 아키텍처
확산 모델(diffusion model)은 forward process와 reverse process로 구성된다. Forward는 학습 시점에만 쓰이는 단순한 노이즈 추가 과정이고, reverse는 실제 추론에서 동작하는 부분으로 학습된 신경망이 매 단계 노이즈를 예측해 빼낸다. 추론 1회당 보통 20~50회의 forward pass가 발생하므로, autoregressive 모델 대비 latency가 높은 편이다.
대표 모델과 도구
- Stable Diffusion (SD 1.5, SDXL, SD 3): Stability AI의 오픈웨이트 모델. ComfyUI, Automatic1111 webui로 로컬 실행이 표준이며, VRAM 12GB면 SDXL까지 무리 없이 돌아간다.
- FLUX.1: Black Forest Labs가 공개한 차세대 모델. SDXL 대비 텍스트 렌더링과 anatomical fidelity가 크게 개선됐다.
- DALL·E 3: OpenAI API로 호출. 단, 2026년 기준 OpenAI는 [[gpt-image-2]] 같은 autoregressive 모델로 무게중심을 옮기는 중이다.
- Midjourney v6/v7: 자체 inference stack. Discord/웹 인터페이스만 제공한다.
실무 패턴
대부분의 [[text-to-image]] 워크플로는 다음을 조합한다.
- Sampler 선택: DPM++ 2M Karras, Euler a, DDIM 등. 단계 수와 품질의 trade-off가 명확하다.
- CFG (classifier-free guidance) scale: 보통 5~9. 높이면 프롬프트 충실도가 올라가지만 다양성과 자연스러움은 떨어진다.
- LoRA: 베이스 모델에 스타일/캐릭터를 얹는 경량 fine-tune. 수십~수백 MB 파일로 거대 모델을 커스텀할 수 있어 커뮤니티 생태계의 핵심이다.
- ControlNet, IP-Adapter: edge map, depth map, pose, reference image 등으로 구도를 강제하는 부가 네트워크.
알려진 한계와 우회
- 텍스트: SDXL까지는 거의 불가능. FLUX부터 단어 단위 글자는 어느 정도 가능해졌다.
- 손가락: negative prompt에
bad hands, extra fingers를 넣거나, 손 부분만 inpainting으로 후처리한다. - 정확한 위치 지정: regional prompting, ControlNet, multi-step inpainting을 조합해야 한다.
[[prompt-engineering]] 측면에서는 자연어 묘사보다 키워드 나열이 효과적인 경우가 많다 — 학습 데이터의 캡션 분포가 그렇기 때문이다. 또한 동일 seed/sampler/steps에서도 모델 버전이 바뀌면 결과가 크게 달라지므로, 프로덕션에서는 모델 해시까지 고정해 재현성을 확보하는 것이 일반적이다.
수학적 정의
확산 모델은 데이터 분포 q(x_0)를 학습하기 위해 forward Markov chain q(x_t | x_{t-1}) = N(sqrt(1-β_t) x_{t-1}, β_t I)로 데이터를 점진적으로 isotropic Gaussian으로 변환한 뒤, 이를 reverse하는 학습된 분포 p_θ(x_{t-1} | x_t)를 추정한다. Ho et al. (2020)의 DDPM 정식화에서 학습 목표는 noise prediction MSE로 단순화된다: L = E_{t, x_0, ε} ||ε − ε_θ(x_t, t)||^2. 이 단순화 덕분에 이전의 score-matching 계열 정식화들이 실용적으로 통일됐다.
주요 이정표
- DDPM (Ho 2020): noise prediction parameterization으로 score-based 모델을 실용적으로 재정립.
- DDIM (Song 2020): deterministic non-Markovian sampling을 도입해 inference 단계 수를 1000→50 수준으로 축소.
- Classifier-free guidance (Ho & Salimans 2021): 조건부/무조건 모델을 단일 네트워크로 학습한 뒤 score를 선형 결합. 별도 분류기 없이 conditioning strength 조절이 가능해졌고, 사실상 모든 후속 t2i 모델의 표준이 됐다.
- Latent Diffusion (Rombach 2022): VAE로 압축한 latent space에서 확산을 수행. 픽셀 도메인 대비 계산 비용이 1~2 order of magnitude 절감되며 Stable Diffusion의 기반이 된다.
- Flow Matching / Rectified Flow (Lipman 2022, Liu 2022): ODE 관점의 일반화. SD3, FLUX의 backbone.
- DiT (Peebles 2023): U-Net을 transformer로 대체. Sora를 포함한 후속 비디오/이미지 모델의 표준 아키텍처가 됐다.
알려진 한계
확산 모델의 근본적 약점은 연속 픽셀(또는 latent) 공간에서의 noise denoising에 의존한다는 구조적 특성에서 온다.
- 이산 구조 처리: 텍스트 렌더링이 취약한 핵심 이유. 글자는 정확한 그래픽 토큰의 시퀀스이지만 diffusion은 이를 연속 분포로 다룬다. [[gpt-image-2]] 같은 autoregressive 이미지 모델은 이 점에서 구조적 우위를 가질 수 있다.
- Compositional reasoning: attribute binding과 spatial relation ("왼쪽의 빨간 사과, 오른쪽의 노란 바나나")이 CFG만으로는 잘 처리되지 않는다. attend-and-excite, ELLA, MultiDiffusion 등이 후속 처방으로 제안됐다.
- Long-tail concepts: 학습 분포에서 드문 개념의 합성 품질이 급격히 저하된다. 데이터셋 큐레이션과 LoRA가 실용적 우회로 기능한다.
- Sampling cost: 단일 이미지에 수십 회의 NFE(number of function evaluations)가 필요. consistency models (Song 2023), LCM, progressive distillation 계열이 4-step 수준까지 단축을 시도 중이다.
최근 동향
2024-2026 흐름은 (1) flow matching으로의 정식화 통합, (2) DiT 기반 scaling, (3) 비디오·3D·오디오로의 확장(SVD, Veo, Sora 부분, Stable Audio)으로 요약된다. 동시에 [[chatgpt-images-2]] 같은 autoregressive 이미지 모델의 부상은 "diffusion = 이미지 생성의 디폴트"라는 가정 자체를 재검토하게 만들고 있다. 두 패러다임 사이의 hybrid 접근(예: AR로 의미 구조를 정한 뒤 diffusion으로 디테일을 채우는 방식) 또한 활발히 탐색되고 있다.