| Released | 2026-04-21 |
|---|---|
| Developed by | OpenAI |
| Type | Tool |
| Aliases | ChatGPT Images, Images 2.0, gpt-imagegen-2 |
| Related | gpt-image-2, 추론 모델, 텍스트→이미지 (text-to-image), 확산 모델 (diffusion model), Codex (OpenAI) |
무엇인가
ChatGPT Images 2.0은 OpenAI가 2026년 4월 21일 공개한 새로운 이미지 생성 기능이다. 가장 큰 특징은 그림을 곧장 만들어내는 대신, '생각'을 한 번 거친 뒤에 결과를 내놓는다는 점이다.
왜 새로운가
예전 이미지 모델은 사용자가 짧게 입력한 문장을 받아 한 번에 결과를 토해냈다. ChatGPT Images 2.0은 다르게 작동한다. 사용자가 '1990년대 시드니의 노을 진 항구를 그려줘'라고 요청하면, 모델은 먼저 시드니 오페라하우스의 윤곽, 노을빛의 색감, 90년대 필름 사진의 질감을 머릿속에서 정리한 뒤 그림을 시작한다.
이렇게 단계를 밟아 답을 정리하는 방식을 [[reasoning-model]] 방식이라 부른다. 글을 쓰는 챗봇이 천천히 논리를 따라가며 답을 만들 듯, 이 이미지 모델도 그림을 그리기 전에 비슷한 단계를 밟는다.
어디서 쓸 수 있나
- ChatGPT 웹과 모바일 앱: 출시 당일부터 모든 사용자에게 열렸다. 모바일은 앱 업데이트가 필요하다.
- [[codex]] 사용자도 같은 기능을 그대로 쓸 수 있다.
- 개발자: OpenAI API에서 [[gpt-image-2]]라는 이름으로 호출한다.
일반 [[text-to-image]] 모델과의 차이
대부분의 [[diffusion-model]] 기반 도구는 한 번의 호출로 그림을 끝낸다. 결과가 마음에 들지 않으면 사용자가 [[prompt-engineering]] 기법을 동원해 표현을 직접 다듬어야 한다.
ChatGPT Images 2.0은 모델이 스스로 후보를 여러 장 그려보고, 그중 가장 적합한 결과를 골라 보여준다. 사용자는 짧게 말해도 모델이 알아서 다듬어 준다.
한계
출시일 기준 OpenAI는 기술 보고서를 공개하지 않았다. 따라서 어떤 구조가 추론을 담당하는지, 학습 데이터가 어느 시점까지 포함됐는지([[knowledge-cutoff]])는 외부에서 확인하기 어렵다. 안전·저작권 관련 가드레일도 시스템 카드 공개를 기다려야 한다.
제품 개요
OpenAI는 2026-04-21 라이브스트림에서 ChatGPT Images 2.0을 공개했다. ChatGPT 인터페이스 안에서 직접 호출되며, [[codex]]와 모바일 앱에서도 동일하게 동작한다. 개발자 입장에서 API 식별자는 [[gpt-image-2]]다.
호출 방식
- ChatGPT UI: 채팅 입력창에서 그림을 직접 요청. 추론 옵션을 켜면 더 오래 걸리는 대신 품질이 올라간다.
- API:
images.generate에model="gpt-image-2"로 호출하며quality,size,aspect_ratio등 매개변수를 지정한다. - [[reasoning-model]] 옵션을 활성화하면 웹 검색, 자기 검증, 다중 후보 생성이 추론 루프 안에서 함께 수행된다.
실무에서 달라지는 점
[[prompt-engineering]] 부담 감소
짧은 지시문도 모델이 알아서 보강한다. '1980년대 도쿄 야경 사진'만 입력해도 모델이 시대 고증, 카메라 노이즈, 광원 처리를 단계별로 정리한 뒤 결과를 낸다. 길고 복잡한 프롬프트를 손으로 깎던 워크플로가 단순해진다.
[[aspect-ratio]] 지정
1:1, 16:9, 9:16, 4:3 같은 표준 비율 외에 임의 비율도 매개변수로 지정 가능하다. 모바일 풀스크린 광고나 시네마틱 배너처럼 비표준 작업에 유용하다.
비용·지연
추론을 켜면 응답 시간이 길어진다. 배치 작업이라면 동기 호출 대신 큐 기반 워크플로우를 권장한다. 자동화 파이프라인에 끼울 때는 타임아웃과 재시도 정책을 보수적으로 잡는 편이 안전하다.
통합 패턴
- [[custom-gpt]] 안에서 외부 도구 결과를 받아 자동으로 도식화하는 보조 시각화 단계.
- 디자인 검토 루프: 사용자가 1차 시안을 받고 자연어로 수정 지시를 주면 모델이 같은 컨텍스트로 재생성.
- 콘텐츠 자동화: 기사·블로그 본문에서 핵심 장면을 뽑아 일러스트로 시각화.
주의사항
기술 보고서가 없어 안전 가드레일과 [[knowledge-cutoff]]는 공식 시스템 카드 공개 전까지 추정에 의존한다. 상용 광고나 실존 인물 이미지 생산 시에는 OpenAI 이용 정책을 사전에 확인할 것. 또한 추론 루프가 외부 검색을 호출하므로 민감 정보가 들어간 프롬프트는 데이터 거버넌스 관점에서 별도 검토가 필요하다.
출시 맥락
OpenAI는 2026년 4월 21일 라이브스트림에서 ChatGPT Images 2.0을 공개했다. 회사 측 설명에 따르면 '생각하는 능력'을 갖춘 첫 이미지 모델이다. API 식별자는 [[gpt-image-2]]이며, ChatGPT와 [[codex]]에서 동일한 백엔드를 공유한다. 동시 공개된 기술 보고서나 시스템 카드는 없다.
핵심 가설: 추론-통합 합성
기존 [[text-to-image]] 시스템은 텍스트 인코더가 임베딩을 만들고 [[diffusion-model]]이 그 임베딩을 따라 노이즈에서 이미지를 복원하는 구조였다. 사실상 단일 forward pass에 가깝고, 사용자의 [[prompt-engineering]] 품질이 결과를 결정짓는다.
ChatGPT Images 2.0은 다른 가설 위에서 작동한다. [[reasoning-model]]이 사용자 지시를 분석하고, 필요시 웹 검색을 수행해 사실 관계를 보강하며, 여러 후보를 생성-평가-선택하는 [[chain-of-thought]] 루프를 거친 뒤 최종 이미지를 확정한다. 즉 LLM 선택이 이미지 출력 품질에 직접 영향을 주는 통합 파이프라인이며, 기존의 '인코더-디퓨전 디코더' 이분법을 깨는 구성이다.
미공개 부분
출시일 기준 OpenAI는 다음 항목을 공개하지 않았다.
- 백본 아키텍처(순수 트랜스포머인지, 디퓨전 하이브리드인지)
- 추론 루프의 단계 수, 종료 조건, 후보 평가 지표
- 학습 코퍼스 구성과 [[knowledge-cutoff]]
- 안전 평가 시스템 카드와 인물·저작물 정책 세부
- 추론 모듈과 합성 모듈 간의 그래디언트 결합 여부
따라서 외부에서 모델 동작을 검증하려면 블랙박스 평가에 의존해야 한다.
평가 시 고려사항
사실 정확성
추론 루프가 외부 검색을 호출하므로, 특정 건축물·사건 재현 등 사실 기반 이미지에서 환각률이 줄어드는지 정량 측정이 가능하다.
합성 일관성
다중 후보 선택이 도입되며 동일 프롬프트의 출력 분산이 어떻게 변하는지 통계적 관찰이 필요하다. 분산 감소가 일관성 향상으로 이어지는지, 아니면 다양성 손실로 나타나는지는 별개의 측정 축이다.
프롬프트 민감도
짧은 지시문 대 정교한 지시문의 결과 차이를 분석하면 추론 보강이 [[prompt-engineering]] 부담을 어디까지 흡수하는지 추정할 수 있다. 이는 사용자 인터페이스 설계와 비용 모델링에 함의가 크다.
[[aspect-ratio]] 일반화
비표준 비율 입력에서 객체 배치와 구도가 깨지지 않는지, 비율 토큰이 어떤 방식으로 합성기에 전달되는지 추론 가능한 부분이다.
한계와 추후 과제
- 추론 루프의 비용은 단일 디퓨전 호출보다 크다. 산업 적용 시 처리량/품질 트레이드오프 분석이 선행되어야 한다.
- 자기 검증 단계가 어떤 보상 모델을 쓰는지 미공개이며, 이는 검열·편향 측정에 직접 영향을 준다.
- [[custom-gpt]]·[[codex]]에 동일 모델이 노출되는데, 컨텍스트별 시스템 프롬프트가 출력에 미치는 영향은 향후 비교 연구의 주제가 된다.
- 합성 파이프라인 안의 LLM이 외부 검색에서 끌어온 컨텐츠를 그대로 시각화할 경우, 저작권·사실성 책임 소재가 모호해질 수 있다.