OpenAI가 4월 21일 라이브스트림에서 chatgpt-images-2를 공개했다. 회사 측 표현으로는 생각하는 능력을 갖춘 첫 이미지 모델. ChatGPT와 codex 사용자라면 누구나 오늘부터 쓸 수 있고, 모바일에서는 앱 업데이트가 필요하다. 개발자는 API에서 gpt-image-2라는 이름으로 호출한다.

이미지: ChatGPT Images 2.0 — 시각적 사고 파트너 발표 슬라이드, 출처: @OpenAI on X
무엇이 일어났나
OpenAI는 이번 모델의 핵심 변화를 thinking-level intelligence, 즉 추론 단계를 거친 이미지 생성으로 설명했다. @OpenAI 공식 발표에 따르면 reasoning-model을 선택해 두면 Images 2.0은 웹을 실시간으로 검색해 최신 정보를 그림에 반영하고, 한 번의 프롬프트로 여러 장의 서로 다른 이미지를 만들고, 자기 결과물을 다시 점검하고, 심지어 실제 작동하는 QR 코드까지 생성할 수 있다.
추가로 발표된 사양도 정리하면 — 가로 3:1부터 세로 1:3까지 aspect-ratio를 지원해 와이드 배너, 발표 슬라이드, 포스터, SNS 그래픽을 한 번에 커버한다. knowledge-cutoff는 2025년 12월로 비교적 최근 사건과 인물을 포함하며, 생각 기능은 ChatGPT Plus·Pro·Business 사용자에게 우선 제공된다 (Enterprise는 곧).
Greg Brockman(@gdb)은 발표에 앞서 약간의 컴퓨트만으로 만들어낼 수 있는 결과의 폭이 넓어졌다며 교육·발표 자료·마케팅·코드 문서화 다이어그램 같은 활용처를 들었다. 멸종위기 동물 학습용 카드, 손상된 사진 복원, 가족 사진 스타일 변환 같은 데모도 이어 공개했다.
왜 중요한가
지금까지의 이미지 생성 AI는 보통 글을 그림으로 바꾸는 변환기 한 개에 모든 챗봇 모델이 같은 식으로 명령을 내리는 구조였다. 그래서 어떤 모델을 고르든 결과 그림은 비슷했다. Images 2.0은 이 구조를 바꿨다. 이미지 모델 자체가 추론 단계를 거치며, 어떤 LLM이 그 추론을 함께 끌고 가는지에 따라 결과가 크게 달라진다.
펜실베이니아 와튼스쿨의 Ethan Mollick(@emollick)은 이 점을 짚었다. 이전 이미지 생성기와 달리 어떤 LLM을 골랐느냐가 GPT-imagegen-2 결과에 큰 영향을 주며, GPT-5.4 Thinking이나 GPT-5.4 Pro가 훨씬 좋은 그림을 만든다 — 특히 복잡한 작업에서. 그런데 직관적이지도 않고, 어디에도 안내돼 있지 않다고 지적했다.
prompt-engineering 분야로 잘 알려진 Riley Goodside(@goodside)도 비슷한 경험을 공유했다. 옛 직관, 즉 모델 선택과 이미지 품질이 무관하다는 생각은 더 이상 맞지 않다는 것. 결과가 모두 text-to-image 도구 호출 한 번으로 모인다고 가정해서 그랬는데, 이제 그 가정이 틀렸다.
더 깊이
OpenAI 라이브스트림 페이지는 Images 2.0의 도입이 GPT-5.4·ChatGPT Atlas·Codex와 같은 흐름의 일부임을 보여준다. 회사는 작년부터 도구를 단순히 호출하는 챗봇에서 추론하면서 도구를 능동적으로 선택·반복 호출하는 reasoning-model로 제품 전체를 옮기는 중이다. Images 2.0은 그 흐름이 이미지 영역에 도착했다는 신호다.
실용적으로는 두 가지가 따라온다. 첫째, 그림이 잘 안 나오면 모델부터 바꿔보라는 새로운 직관이 필요하다. 둘째, 슬라이드·인포그래픽·QR 코드처럼 텍스트 정확도가 중요한 작업이 처음으로 한 모델 안에서 종결된다. 회사가 강조하는 사용 시나리오 — 발표 자료, 인포그래픽, 학습 카드 — 가 모두 텍스트가 정확해야 쓸모 있는 영역에 몰려 있다는 점이 단서다.
아직 알 수 없는 것
OpenAI는 왜 LLM 선택이 그림 품질을 좌우하는가에 대한 기술 보고서를 아직 공개하지 않았다. Mollick이 지적한 대로, 이 사실 자체가 사용자에게 안내되어 있지 않다. 또한 통제된 벤치마크가 없어 GPT-5.4 Thinking이 정확히 얼마나 좋은지 정량 비교는 어렵다. 마지막으로, 회사가 강조한 QR 코드가 진짜로 스캔된다는 주장은 데모 영상 이상의 외부 검증이 필요하다.
5분 실습
ChatGPT 모바일 또는 웹에 들어가, 같은 프롬프트 — 예를 들어 수도권 지하철 노선도를 사이버펑크 풍으로 다시 그리되 호선별 색을 정확히 유지하라는 요청 — 을 GPT-5.3과 GPT-5.4 Thinking으로 각각 한 번씩 돌려보자. 글자 정확도, 색 일관성, 레이아웃 균형 세 항목으로 비교하면 Mollick·Goodside가 말한 모델 선택의 효과를 직접 체감할 수 있다.