텍스트→이미지

Type	Concept
Aliases	txt2img, 텍스트 투 이미지
Related	확산 모델 (diffusion model), ChatGPT Images 2.0, gpt-image-2, 프롬프트 엔지니어링, 종횡비 (aspect ratio)

무엇인가

텍스트→이미지는 사용자가 글로 설명한 장면을 AI가 그림으로 그려주는 기술이다. "노을 지는 도쿄 골목길에서 우산을 든 검은 고양이"처럼 자연어로 묘사하면, 모델이 그 묘사에 맞는 이미지를 만들어낸다. 사진처럼 사실적인 결과물도, 수채화처럼 회화적인 결과물도 가능하다.

어떻게 작동하는가

내부 원리는 복잡하지만, 사용자 입장에서는 단순하다. 빈칸에 원하는 장면을 적고 버튼을 누르면, 몇 초에서 몇십 초 후에 이미지가 나온다. 같은 문장을 넣어도 매번 다른 결과가 나오는데, 이는 모델이 가능한 그림 중 하나를 무작위로 선택하기 때문이다.

가장 널리 알려진 도구로는 OpenAI의 DALL·E와 [[chatgpt-images-2]], Midjourney, 그리고 오픈소스 진영의 Stable Diffusion이 있다. 각 도구마다 잘 그리는 스타일이 다르고, 같은 프롬프트를 넣어도 결과가 다르다.

무엇이 달라지고 있는가

초기에는 텍스트→이미지 모델이 언어 모델과 완전히 분리된 별도 시스템이었다. 사용자가 ChatGPT에게 그림을 부탁해도, ChatGPT가 따로 그림 모델 API를 호출해서 결과를 받아오는 구조였다.

2024-2026년에 들어서면서 이 구분이 흐려지고 있다. 언어 모델이 이미지 생성 능력을 직접 갖추거나, 이미지 모델이 추론 능력([[chain-of-thought|단계별 사고]])을 갖추기 시작한 것이다. 2026년 4월 OpenAI가 공개한 차세대 모델은 "생각하는" 이미지 모델을 표방하며, 픽셀을 그리기 전에 구도와 의미를 먼저 따져보는 방식을 도입했다.

한계

텍스트→이미지는 만능이 아니다. 글자를 정확하게 그리는 것이 어렵고(간판이나 책 제목이 자주 깨진다), 손가락 개수가 맞지 않거나, 사용자가 머릿속에 그린 정확한 장면을 만들기까지 여러 번의 시도가 필요하다. 좋은 결과를 얻으려면 [[prompt-engineering|프롬프트를 잘 쓰는 법]]을 익혀야 하고, 원하는 [[aspect-ratio|화면 비율]]도 명시해야 한다.

정의

텍스트→이미지(text-to-image, txt2img)는 자연어 프롬프트를 입력받아 이미지를 출력하는 모델 호출 인터페이스다. 과거에는 LLM과 완전히 분리된 별도 백엔드로 구현되는 것이 일반적이었으나, 2025년 이후 그 경계가 빠르게 흐려지고 있다.

호출 방식

API 레벨에서 가장 흔한 형태는 단일 엔드포인트에 프롬프트, 해상도, [[aspect-ratio|화면비]], 시드, 스타일 옵션을 보내고 이미지 URL이나 base64 바이트를 받는 구조다. 예를 들어 OpenAI의 [[gpt-image-2]] API는 다음과 같은 인자를 받는다.

prompt: 자연어 설명
size: 1024x1024, 1024x1536, 1536x1024 등
quality: low, medium, high
n: 한 번에 생성할 변형 개수

오픈소스 진영의 Stable Diffusion 계열은 ComfyUI나 Automatic1111을 통해 추가로 negative prompt, sampler, CFG scale, denoise step 같은 세부 파라미터를 노출한다.

워크플로 패턴

실무에서는 한 번에 좋은 결과가 나오지 않는다. 일반적인 패턴은 다음과 같다.

짧은 프롬프트로 4-8장 생성해 방향성을 탐색한다.
마음에 드는 결과의 시드를 고정하고, 프롬프트를 다듬어 변형을 시도한다.
후처리(업스케일링, inpainting, 부분 수정)를 적용한다.

[[prompt-engineering|프롬프트 엔지니어링]]은 이 도메인에서 특히 중요하다. 동일한 모델이라도 단어 순서, 강조 가중치, 부정 프롬프트의 사용에 따라 결과가 크게 달라진다.

변화하는 환경

2026년 4월 출시된 [[chatgpt-images-2]]는 단일 호출이 아니라 추론 단계가 포함된 모델로, 사용자가 구체적인 프롬프트 엔지니어링을 하지 않아도 의도를 파악해 구도를 잡는다. 이로 인해 "프롬프트를 잘 쓰는 사람이 이긴다"는 기존 패러다임이 흔들리고 있다. 다만 [[knowledge-cutoff|학습 컷오프]] 이후의 인물·브랜드·이벤트는 여전히 표현하지 못한다는 한계는 이어진다.

도구 선택 기준

사실적 사진 스타일이 필요하다면 gpt-image-2나 Imagen 3
회화적·예술적 스타일이 필요하다면 Midjourney
로컬 환경과 세부 제어가 필요하다면 Stable Diffusion + ComfyUI
빠른 반복과 수정 워크플로에는 ChatGPT 인터페이스의 chatgpt-images-2

정의

텍스트→이미지(text-to-image)는 자연어 조건 $c$가 주어졌을 때 이미지 분포 $p(x \mid c)$로부터 표본을 추출하는 조건부 생성 문제다. 구현 방식은 크게 두 갈래로 나뉜다: [[diffusion-model|디퓨전 모델]] 계열과 자기회귀 토큰 모델 계열.

주요 기전

디퓨전 모델

현재 상용 시스템 대부분이 채택한 방식이다. 디퓨전 모델은 깨끗한 이미지에 점진적으로 노이즈를 더하는 forward process를 학습한 뒤, 그 역과정을 텍스트 임베딩으로 조건화해 노이즈에서 이미지를 복원한다. Stable Diffusion 계열은 픽셀 공간 대신 VAE의 잠재 공간(latent space)에서 이를 수행해 연산량을 줄였다. 텍스트 조건은 보통 CLIP 또는 T5 인코더로 임베딩되어 cross-attention을 통해 U-Net에 주입된다. Classifier-free guidance(CFG)는 조건부 점수와 무조건 점수의 차이를 증폭해 프롬프트 충실도를 높이는 핵심 트릭이다.

자기회귀 토큰 모델

이미지를 VQ-VAE 등으로 이산 토큰 시퀀스로 변환한 뒤, 텍스트 토큰과 이어붙여 트랜스포머가 다음 이미지 토큰을 예측하는 방식이다. 초기 DALL·E 1과 Parti가 이 계열이며, 최근에는 [[gpt-image-2]]를 비롯해 멀티모달 LLM 안에 이미지 생성을 통합하려는 흐름이 다시 강화되고 있다.

평가 지표

CLIP score: 생성 이미지와 텍스트 임베딩의 코사인 유사도
FID (Fréchet Inception Distance): 생성 분포와 실제 분포 사이의 거리
인간 선호 평가: PickScore, ImageReward 등 학습된 보상 모델
구성성(compositionality): T2I-CompBench, DrawBench의 색상·공간·개수 정확도

한계와 변화 압력

순수한 단일 호출 텍스트→이미지 모델은 다음 한계를 공유한다.

텍스트 렌더링: 글자가 일관되게 그려지지 않는다. 토큰 수준 supervision이 약하기 때문이다.
구성성: "왼쪽에 빨간 사과 두 개, 오른쪽에 파란 컵"처럼 관계·개수·공간을 모두 만족시키기 어렵다.
세계 지식: [[knowledge-cutoff|컷오프]] 이후 등장한 인물·브랜드·이벤트를 모른다.
프롬프트 의존성: 사용자가 [[prompt-engineering|프롬프트를 잘 써야]] 좋은 결과가 나온다. 모델이 의도를 추론하지 않기 때문이다.

이 한계들이 누적되면서 2025-2026년에 들어 두 가지 변화가 동시에 일어나고 있다. 하나는 [[reasoning-model|추론 모델]] 패러다임이 이미지 생성에 흡수되는 방향이다. [[chatgpt-images-2]]는 이미지를 만들기 전에 [[chain-of-thought|단계별 사고]]를 통해 구도와 의미를 정리한 후 픽셀을 생성한다. 다른 하나는 단일 모달 모델이 통합 멀티모달 모델로 흡수되는 흐름이다. GPT-4o의 native image generation, Gemini 2.0의 멀티모달 출력이 그 예다.

요약하면, 텍스트→이미지는 더 이상 LLM과 분리된 별도 모델 호출이 아니라, 일반 추론 시스템의 출력 양식 중 하나로 재정의되는 중이다.

이 용어를 언급한 기사

ChatGPT Images 2.0 — '생각하는' 이미지 모델이 도착했다