| Released | 2026-04-21 |
|---|---|
| Developed by | OpenAI |
| Type | Model |
| Aliases | GPT Image 2, gpt image 2 |
| Related | ChatGPT Images 2.0, 텍스트→이미지 (text-to-image), 추론 모델, 확산 모델 (diffusion model), 프롬프트 엔지니어링 |
무엇인가
gpt-image-2는 OpenAI가 만든 이미지 생성 모델의 이름이다. 우리가 ChatGPT 안에서 "이 장면을 그려줘"라고 하면 뒤에서 일하는 화가 같은 존재다. 사용자에게는 [[chatgpt-images-2]]라는 제품 이름으로 알려져 있고, 개발자가 API로 직접 부를 때는 gpt-image-2라는 모델 ID를 쓴다.
왜 등장했나
이전 세대의 [[text-to-image]] 모델은 글로 묘사한 장면을 그림으로 옮기는 데 능숙했지만, "왜 이렇게 그렸는지" 깊게 고민하지는 않았다. gpt-image-2는 그리기 전에 한 번 더 생각하는 단계가 들어 있어, 글에 담긴 의도와 맥락을 좀 더 정확히 반영하려고 한다. OpenAI가 "생각하는 이미지 모델"이라고 부른 이유다.
어디에 쓰나
- 블로그·기사용 삽화
- 제품 모형, UI 시안
- 학습 자료, 도식, 다이어그램
- 광고·SNS 키비주얼 초안
어떻게 써보나
가장 쉬운 길은 ChatGPT 앱·웹에서 자연어로 "이런 그림을 그려줘"라고 부탁하는 것이다. 모바일에서는 앱이 최신 버전이어야 한다. [[codex]] 같은 다른 OpenAI 도구를 쓰는 사람도 같은 계정으로 접근할 수 있다.
좀 더 적극적으로 다루고 싶다면 OpenAI의 이미지 생성 API에서 모델 이름을 gpt-image-2로 지정하면 된다. 출력 비율([[aspect-ratio]])이나 해상도 같은 옵션도 함께 지정할 수 있다.
이전 모델과 무엇이 다른가
가장 큰 차이는 "생각하는 이미지 모델"이라는 표현에서 짐작할 수 있다. 일반적인 [[diffusion-model]] 기반 이미지 생성기는 노이즈를 점진적으로 다듬어 그림을 만든다. gpt-image-2는 이 과정 앞단에 추론 단계를 끼워 사용자의 요청을 한 번 해석한 뒤 그림 그리기에 들어간다. 그래서 한국어로 길고 복잡한 지시를 줘도 결과가 비교적 의도에 맞게 나온다.
한 문장 정리
gpt-image-2는 ChatGPT가 그림을 그릴 때 뒤에서 동작하는 OpenAI의 이미지 모델이며, 누구나 ChatGPT나 API로 호출해 쓸 수 있다.
무엇인가
gpt-image-2는 OpenAI 이미지 생성 API에서 호출 가능한 모델 ID이며, 사용자 제품 [[chatgpt-images-2]]의 백엔드이다. 같은 모델이지만 호출 경로에 따라 동작 양상이 미묘하게 다를 수 있다.
두 가지 호출 경로
ChatGPT 경로
ChatGPT(웹·데스크톱·모바일)와 [[codex]] 같은 1P 클라이언트에서는 gpt-image-2가 thinking-augmented 형태로 노출된다. 즉 그리기 전에 [[chain-of-thought]]에 가까운 짧은 사전 추론이 들어간다. 사용자 입장에서는 "조금 더 오래 걸리지만 결과가 좋아진" 느낌이 든다.
API 경로
개발자는 OpenAI Images API에서 model: "gpt-image-2"로 직접 호출한다. 핵심 파라미터는 다음과 같다.
prompt: 자연어 지시size: 1024x1024, 1792x1024 등 [[aspect-ratio]]별 사이즈n: 한 번에 생성할 장 수
API 경로에서도 동일한 thinking-augmentation이 자동으로 켜지는지는 공식적으로 명시되어 있지 않다. 프로덕션 도입 전 두 경로의 결과를 직접 비교해 두는 편이 안전하다.
실무 유의점
비용·지연
추론 단계가 있어 호출당 시간이 이전 세대보다 늘어난다. 동기 응답을 기다리는 대신 배치 생성·비동기 큐를 갖춘 파이프라인이 더 적합하다.
프롬프트 작성
[[prompt-engineering]] 관점에서 gpt-image-2는 한국어 지시를 비교적 잘 이해한다. 영어로 강제 번역할 필요가 없으며, 길이가 길어도 의도가 잘 살아난다. 다음은 여전히 유효한 패턴이다.
- 스타일은 앞쪽에, 구체 묘사는 뒤쪽에
- 배제하고 싶은 요소는 별도 문장으로
- 이미지 안의 텍스트는 짧고 명확하게
일관성
캐릭터·브랜드 자산을 시리즈로 그릴 때는 같은 시드 또는 reference image 입력을 활용한다. ChatGPT 경로에서는 대화 컨텍스트가 일관성을 자연스럽게 잡아주고, API 경로에서는 명시적 reference 전달이 더 안정적이다.
다른 모델과의 위치
- [[diffusion-model]] 계열: 백본은 디퓨전 기반으로 추정되나, 추론 단계가 결합되어 일반 디퓨전과 차별화된다.
- [[reasoning-model]] 계열: 텍스트 추론 모델의 사고 패턴이 이미지 생성에 이식된 형태로 이해할 수 있다.
- [[custom-gpt]]: 프롬프트 사전을 묶어 도메인 특화 이미지 생성기를 GPT 형태로 배포할 수 있다.
정리
gpt-image-2는 같은 모델이지만 ChatGPT와 API에서 약간 다른 옷을 입고 있다. 프로덕션에서 쓰려면 두 경로의 결과를 직접 벤치마크해 차이를 체감으로 잡아두는 것이 안전하다.
정의와 위치
gpt-image-2는 OpenAI가 2026년 4월 21일 라이브스트림에서 공개한 이미지 생성 모델이며, 소비자 제품 [[chatgpt-images-2]]의 백엔드이다. OpenAI는 이를 "생각하는(thinking) 이미지 모델"이라 표현했고, 이는 모델 내부 또는 호출 파이프라인 어딘가에 추론 단계가 결합되어 있음을 시사한다.
아키텍처에 대한 추정
공식 기술 보고서는 본 시점에 공개되지 않았다. 외부에서 관찰 가능한 단서는 다음과 같다.
Thinking-augmentation 가설
ChatGPT 경로에서 사용자가 이미지를 요청하면, 표면적으로는 [[chain-of-thought]]에 가까운 짧은 사전 추론이 진행된 뒤 이미지 생성이 시작된다. 이 추론은 다음 중 하나로 추정된다.
- 텍스트 추론 모델([[reasoning-model]] 계열)이 사용자 프롬프트를 재작성·확장해 이미지 모델에 전달
- 단일 멀티모달 모델 안에서 토큰 시퀀스의 일부로 추론이 진행된 뒤 이미지 토큰이 생성
- 두 단계가 조건부로 라우팅되는 하이브리드
ChatGPT 경로와 API 경로 사이의 동등성은 공식적으로 명시되지 않았다. API의 model: "gpt-image-2" 호출이 동일한 thinking-augmentation을 자동 적용하는지, 아니면 raw 이미지 모델만 노출하는지는 실증적 비교가 필요하다.
백본
내부 백본은 [[diffusion-model]] 계열로 추정되나, autoregressive 토큰 기반 이미지 생성과의 하이브리드 가능성도 배제할 수 없다. OpenAI의 이전 세대 모델 계보와 멀티모달 통합 흐름을 고려하면, "텍스트와 이미지 토큰을 단일 시퀀스에서 다루는" 방향으로 수렴하고 있을 가능성이 높다.
평가 차원
지시 충실도
긴 한국어·영어 프롬프트의 의미 보존, 부정 지시("X 없이") 처리, 다중 객체 배치 정확도. 추론 단계의 도입은 이론적으로 이러한 차원에서 큰 이득을 가져와야 한다.
텍스트 렌더링
이미지 안의 글자 렌더링은 [[text-to-image]] 모델의 오랜 약점이었다. gpt-image-2는 이 측면에서 진전을 보이지만, 한글·CJK 렌더링 정확도는 영어 대비 여전히 낮을 수 있다.
일관성과 편집성
reference image, mask, in-painting을 통한 편집 워크플로의 안정성, 캐릭터·브랜드 자산의 멀티샷 일관성.
한계와 열린 질문
- [[knowledge-cutoff]] 대비 시각적 사실성: 최신 인물·제품의 외형 정확도는 학습 데이터 컷오프에 종속된다. 추론 단계가 이를 보완할 수는 있으나 본질적 한계는 남는다.
- 추론 비용: thinking-augmentation은 latency·token 비용을 모두 증가시킨다. 단순 변형 작업에서 이 오버헤드를 우회할 수 있는 옵션의 존재 여부는 불분명하다.
- 재현성: 같은 프롬프트와 시드로 ChatGPT/API 경로를 비교했을 때의 결과 분포 차이는 향후 외부 평가의 핵심 의제가 될 것이다.
- 안전성과 워터마킹: 정책상 거부 패턴, C2PA·invisible watermark 적용 범위는 공식 문서가 정리되어 있지 않다.
권장 검증 절차
- 동일 프롬프트를 ChatGPT 경로와 API 경로에 각각 입력해 분포 차이 측정
- [[prompt-engineering]] 변수(추론 토큰 노출 여부, 시드 고정 가능성)를 통제한 ablation
- 한국어 텍스트 렌더링·문화 특정 객체에 대한 별도 벤치마크 구성