gpt-image-2

Released	2026-04-21
Developed by	OpenAI
Type	Model
Aliases	GPT Image 2, gpt image 2
Related	ChatGPT Images 2.0, 텍스트→이미지 (text-to-image), 추론 모델, 확산 모델 (diffusion model), 프롬프트 엔지니어링

무엇인가

gpt-image-2는 OpenAI가 만든 이미지 생성 모델의 이름이다. 우리가 ChatGPT 안에서 "이 장면을 그려줘"라고 하면 뒤에서 일하는 화가 같은 존재다. 사용자에게는 [[chatgpt-images-2]]라는 제품 이름으로 알려져 있고, 개발자가 API로 직접 부를 때는 gpt-image-2라는 모델 ID를 쓴다.

왜 등장했나

이전 세대의 [[text-to-image]] 모델은 글로 묘사한 장면을 그림으로 옮기는 데 능숙했지만, "왜 이렇게 그렸는지" 깊게 고민하지는 않았다. gpt-image-2는 그리기 전에 한 번 더 생각하는 단계가 들어 있어, 글에 담긴 의도와 맥락을 좀 더 정확히 반영하려고 한다. OpenAI가 "생각하는 이미지 모델"이라고 부른 이유다.

어디에 쓰나

블로그·기사용 삽화
제품 모형, UI 시안
학습 자료, 도식, 다이어그램
광고·SNS 키비주얼 초안

어떻게 써보나

가장 쉬운 길은 ChatGPT 앱·웹에서 자연어로 "이런 그림을 그려줘"라고 부탁하는 것이다. 모바일에서는 앱이 최신 버전이어야 한다. [[codex]] 같은 다른 OpenAI 도구를 쓰는 사람도 같은 계정으로 접근할 수 있다.

좀 더 적극적으로 다루고 싶다면 OpenAI의 이미지 생성 API에서 모델 이름을 gpt-image-2로 지정하면 된다. 출력 비율([[aspect-ratio]])이나 해상도 같은 옵션도 함께 지정할 수 있다.

이전 모델과 무엇이 다른가

가장 큰 차이는 "생각하는 이미지 모델"이라는 표현에서 짐작할 수 있다. 일반적인 [[diffusion-model]] 기반 이미지 생성기는 노이즈를 점진적으로 다듬어 그림을 만든다. gpt-image-2는 이 과정 앞단에 추론 단계를 끼워 사용자의 요청을 한 번 해석한 뒤 그림 그리기에 들어간다. 그래서 한국어로 길고 복잡한 지시를 줘도 결과가 비교적 의도에 맞게 나온다.

한 문장 정리

gpt-image-2는 ChatGPT가 그림을 그릴 때 뒤에서 동작하는 OpenAI의 이미지 모델이며, 누구나 ChatGPT나 API로 호출해 쓸 수 있다.

무엇인가

gpt-image-2는 OpenAI 이미지 생성 API에서 호출 가능한 모델 ID이며, 사용자 제품 [[chatgpt-images-2]]의 백엔드이다. 같은 모델이지만 호출 경로에 따라 동작 양상이 미묘하게 다를 수 있다.

두 가지 호출 경로

ChatGPT 경로

ChatGPT(웹·데스크톱·모바일)와 [[codex]] 같은 1P 클라이언트에서는 gpt-image-2가 thinking-augmented 형태로 노출된다. 즉 그리기 전에 [[chain-of-thought]]에 가까운 짧은 사전 추론이 들어간다. 사용자 입장에서는 "조금 더 오래 걸리지만 결과가 좋아진" 느낌이 든다.

API 경로

개발자는 OpenAI Images API에서 model: "gpt-image-2"로 직접 호출한다. 핵심 파라미터는 다음과 같다.

prompt: 자연어 지시
size: 1024x1024, 1792x1024 등 [[aspect-ratio]]별 사이즈
n: 한 번에 생성할 장 수

API 경로에서도 동일한 thinking-augmentation이 자동으로 켜지는지는 공식적으로 명시되어 있지 않다. 프로덕션 도입 전 두 경로의 결과를 직접 비교해 두는 편이 안전하다.

실무 유의점

비용·지연

추론 단계가 있어 호출당 시간이 이전 세대보다 늘어난다. 동기 응답을 기다리는 대신 배치 생성·비동기 큐를 갖춘 파이프라인이 더 적합하다.

프롬프트 작성

[[prompt-engineering]] 관점에서 gpt-image-2는 한국어 지시를 비교적 잘 이해한다. 영어로 강제 번역할 필요가 없으며, 길이가 길어도 의도가 잘 살아난다. 다음은 여전히 유효한 패턴이다.

스타일은 앞쪽에, 구체 묘사는 뒤쪽에
배제하고 싶은 요소는 별도 문장으로
이미지 안의 텍스트는 짧고 명확하게

일관성

캐릭터·브랜드 자산을 시리즈로 그릴 때는 같은 시드 또는 reference image 입력을 활용한다. ChatGPT 경로에서는 대화 컨텍스트가 일관성을 자연스럽게 잡아주고, API 경로에서는 명시적 reference 전달이 더 안정적이다.

다른 모델과의 위치

[[diffusion-model]] 계열: 백본은 디퓨전 기반으로 추정되나, 추론 단계가 결합되어 일반 디퓨전과 차별화된다.
[[reasoning-model]] 계열: 텍스트 추론 모델의 사고 패턴이 이미지 생성에 이식된 형태로 이해할 수 있다.
[[custom-gpt]]: 프롬프트 사전을 묶어 도메인 특화 이미지 생성기를 GPT 형태로 배포할 수 있다.

정리

gpt-image-2는 같은 모델이지만 ChatGPT와 API에서 약간 다른 옷을 입고 있다. 프로덕션에서 쓰려면 두 경로의 결과를 직접 벤치마크해 차이를 체감으로 잡아두는 것이 안전하다.

정의와 위치

gpt-image-2는 OpenAI가 2026년 4월 21일 라이브스트림에서 공개한 이미지 생성 모델이며, 소비자 제품 [[chatgpt-images-2]]의 백엔드이다. OpenAI는 이를 "생각하는(thinking) 이미지 모델"이라 표현했고, 이는 모델 내부 또는 호출 파이프라인 어딘가에 추론 단계가 결합되어 있음을 시사한다.

아키텍처에 대한 추정

공식 기술 보고서는 본 시점에 공개되지 않았다. 외부에서 관찰 가능한 단서는 다음과 같다.

Thinking-augmentation 가설

ChatGPT 경로에서 사용자가 이미지를 요청하면, 표면적으로는 [[chain-of-thought]]에 가까운 짧은 사전 추론이 진행된 뒤 이미지 생성이 시작된다. 이 추론은 다음 중 하나로 추정된다.

텍스트 추론 모델([[reasoning-model]] 계열)이 사용자 프롬프트를 재작성·확장해 이미지 모델에 전달
단일 멀티모달 모델 안에서 토큰 시퀀스의 일부로 추론이 진행된 뒤 이미지 토큰이 생성
두 단계가 조건부로 라우팅되는 하이브리드

ChatGPT 경로와 API 경로 사이의 동등성은 공식적으로 명시되지 않았다. API의 model: "gpt-image-2" 호출이 동일한 thinking-augmentation을 자동 적용하는지, 아니면 raw 이미지 모델만 노출하는지는 실증적 비교가 필요하다.

백본

내부 백본은 [[diffusion-model]] 계열로 추정되나, autoregressive 토큰 기반 이미지 생성과의 하이브리드 가능성도 배제할 수 없다. OpenAI의 이전 세대 모델 계보와 멀티모달 통합 흐름을 고려하면, "텍스트와 이미지 토큰을 단일 시퀀스에서 다루는" 방향으로 수렴하고 있을 가능성이 높다.

평가 차원

지시 충실도

긴 한국어·영어 프롬프트의 의미 보존, 부정 지시("X 없이") 처리, 다중 객체 배치 정확도. 추론 단계의 도입은 이론적으로 이러한 차원에서 큰 이득을 가져와야 한다.

텍스트 렌더링

이미지 안의 글자 렌더링은 [[text-to-image]] 모델의 오랜 약점이었다. gpt-image-2는 이 측면에서 진전을 보이지만, 한글·CJK 렌더링 정확도는 영어 대비 여전히 낮을 수 있다.

일관성과 편집성

reference image, mask, in-painting을 통한 편집 워크플로의 안정성, 캐릭터·브랜드 자산의 멀티샷 일관성.

한계와 열린 질문

[[knowledge-cutoff]] 대비 시각적 사실성: 최신 인물·제품의 외형 정확도는 학습 데이터 컷오프에 종속된다. 추론 단계가 이를 보완할 수는 있으나 본질적 한계는 남는다.
추론 비용: thinking-augmentation은 latency·token 비용을 모두 증가시킨다. 단순 변형 작업에서 이 오버헤드를 우회할 수 있는 옵션의 존재 여부는 불분명하다.
재현성: 같은 프롬프트와 시드로 ChatGPT/API 경로를 비교했을 때의 결과 분포 차이는 향후 외부 평가의 핵심 의제가 될 것이다.
안전성과 워터마킹: 정책상 거부 패턴, C2PA·invisible watermark 적용 범위는 공식 문서가 정리되어 있지 않다.

권장 검증 절차

동일 프롬프트를 ChatGPT 경로와 API 경로에 각각 입력해 분포 차이 측정
[[prompt-engineering]] 변수(추론 토큰 노출 여부, 시드 고정 가능성)를 통제한 ablation
한국어 텍스트 렌더링·문화 특정 객체에 대한 별도 벤치마크 구성

이 용어를 언급한 기사

ChatGPT Images 2.0 — '생각하는' 이미지 모델이 도착했다