Released2026-04
Developed byOpenAI
TypeModel
Aliasesgpt5.5, gpt-5.5, GPT-5.5 Pro
Related에이전틱 AI, AI 에이전트, Codex (OpenAI), GitHub Copilot, Cursor

무엇인가

GPT-5.5는 OpenAI가 2026년 4월에 공개한 새 인공지능 모델이다. 우리가 잘 아는 ChatGPT 안에서 돌아가는 모델이 한 단계 더 똑똑해진 것이라고 생각하면 된다. 이전 세대보다 길고 복잡한 일을 더 안정적으로 처리하고, 코드 작성이나 자료 분석 같은 실용적인 작업에서 한층 깔끔한 결과를 낸다고 OpenAI는 설명한다.

OpenAI는 이 모델을 단순한 "더 큰 챗봇"으로 소개하지 않는다. 사람의 지시를 받아 도구를 사용하고, 스스로 결과를 점검하고, 여러 단계가 필요한 일을 끝까지 수행하는 새로운 종류의 지능이라고 표현한다. 즉 [[ai-agent]]처럼 자율적으로 일하는 시나리오를 염두에 두고 만들어졌다.

어디서 쓸 수 있나

같은 모델이 여러 곳에서 동시에 사용된다.

  • ChatGPT 웹·앱: Plus, Pro, Business, Enterprise 가입자에게 순차적으로 배포된다.
  • 개발자 도구: 코딩 보조 도구인 [[codex]], 직접 호출 가능한 [[api]], 그리고 [[github-copilot]]·[[cursor]] 같은 외부 코딩 앱에서도 같은 날 사용할 수 있게 됐다.

또 Pro 등급 가입자에게는 별도로 GPT-5.5 Pro라는 더 강력한 버전이 제공된다. Pro는 ChatGPT 웹사이트에서만 쓸 수 있고, 어려운 추론이나 길고 복잡한 코드 작업에 적합하다.

왜 중요한가

GPT-5.5의 진짜 주제는 "에이전트의 시대"다. 이전 모델들이 한 번의 질문에 한 번의 답을 내놓는 데 강했다면, GPT-5.5는 사람의 손을 거의 빌리지 않고 여러 단계를 스스로 진행하는 [[agentic-ai]] 시나리오를 더 잘 다룰 수 있도록 설계됐다. 예를 들어 "이 저장소의 버그를 찾아 고치고 테스트까지 돌려라" 같은 요청을 받으면, 적절한 도구를 골라 쓰고 결과를 검증하고 막히면 다른 방법을 시도하는 식으로 일을 풀어 간다.

물론 모델 하나가 모든 문제를 해결해 주는 건 아니다. 같은 모델이라도 잘하는 영역과 못하는 영역의 차이가 들쭉날쭉한 [[jagged-frontier]] 현상은 여전하다. 하지만 GPT-5.5는 그 경계선을 한 칸 더 바깥으로 밀어 두었다는 평가를 받고 있다.

무엇인가

GPT-5.5는 OpenAI가 2026년 4월에 발표한 차세대 LLM 패밀리다. ChatGPT, [[codex]], 개발자 [[api]], [[github-copilot]], [[cursor]] 같은 외부 IDE 어시스턴트에 같은 날 동시 배포됐다. 공식 포지셔닝의 핵심 키워드는 "에이전트 워크로드", "도구 사용", "토큰 효율"이다.

배포 채널과 변형

  • GPT-5.5: 표준 모델. ChatGPT Plus·Pro·Business·Enterprise, API, Copilot/Cursor 등 모든 채널에서 사용 가능.
  • GPT-5.5 Pro: Pro 플랜 가입자 전용 강화 버전. 발표 시점 기준 ChatGPT 웹사이트에서만 호출할 수 있고, API에는 노출되지 않았다. 더 깊은 추론과 긴 컨텍스트가 필요한 작업에 권장된다.

API 측 모델 이름·가격·컨텍스트 한도·rate limit은 OpenAI 공식 문서를 직접 확인하는 게 안전하다. 발표 직후 며칠 동안은 채널별 롤아웃 속도가 다르다는 보고가 흔하다.

무엇이 달라졌나

실무 관점에서 주목할 변화는 세 가지다.

  1. 에이전트 친화성: 도구 호출(tools/function calling) 시퀀스를 더 길게, 더 안정적으로 끌고 간다. 중간 결과를 자체 점검하고 재시도하는 패턴이 모델 안에 더 잘 학습돼 있어, [[agentic-ai]] 파이프라인을 짤 때 외부에서 작성해야 했던 보일러플레이트가 줄어든다.
  2. 토큰 효율: 같은 작업을 더 적은 출력 토큰으로 마무리하는 경향이 보고된다. 비용·지연 양쪽에 직접 영향을 준다.
  3. 코딩 어시스턴트 통합: GitHub Copilot, Cursor가 같은 날 GPT-5.5를 모델 옵션으로 제공한다. IDE 사용자는 모델 패치를 따로 기다릴 필요 없이 바로 비교 시도가 가능하다.

도입 체크리스트

  • 기존 호출 코드는 모델명만 바꿔서 A/B 평가부터 돌려라. 프롬프트는 건드리지 말고 비용·지연·정답률 변화를 먼저 본다.
  • 도구 사용이 많은 [[ai-agent]] 워크플로라면 시스템 프롬프트의 "자기 검증" 지시를 줄여 보고, 모델이 알아서 해 주는지 확인하라. 중복 지시는 출력만 길어지게 만들 수 있다.
  • Pro 한정 기능에 의존하는 워크플로는 ChatGPT 웹사이트로 흐름을 분기해야 하므로, 자동화에 끼워 넣기 전 라이선스와 접근 정책을 점검하라.

한계

공개된 기술 보고서·시스템 카드는 발표 시점 기준 제한적이다. 벤치마크 수치, 학습 데이터 컷오프, 안전 정책 변경점은 OpenAI 블로그와 모델 카드를 직접 읽어야 확정할 수 있다.

위치

GPT-5.5는 OpenAI가 GPT-5에 이어 2026년 4월에 공개한 모델 패밀리다. 발표 자료에서 회사는 이 모델을 단순한 점진적 업그레이드가 아니라 "도구 사용·자기 검증·장기 태스크 완수에 최적화된 새로운 부류의 지능(new class of intelligence)"으로 포지셔닝했다. 즉 한 번의 응답을 더 길고 정확하게 내는 것보다, 외부 환경과 상호작용하며 여러 단계를 스스로 진행하는 [[agentic-ai]] 능력을 핵심 축으로 내세웠다.

공개된 정보의 한계

발표 시점에 OpenAI가 공개한 기술 정보는 제한적이다. 파라미터 수, 학습 토큰 양, 아키텍처 변경 사항(예: [[mixture-of-experts]] 채택 여부)은 명시되지 않았고, 학습 데이터 컷오프와 안전 평가 결과 또한 모델 카드에서 별도로 확인해야 한다. 따라서 아래의 기전적 해석은 OpenAI의 공식 포지셔닝과 동시기 외부 관찰을 종합한 추정임을 분명히 해 둔다.

주된 설계 가설

공개된 키워드("도구 사용", "자기 검증", "장기 태스크")로부터 합리적으로 추정 가능한 설계 방향은 세 가지다.

검증 가능한 보상으로의 강화학습

도구 호출의 결과(코드 컴파일 성공, 테스트 통과, 함수 출력 일치 등)는 자연어 답변과 달리 자동 검증이 쉽다. 이런 신호는 [[reinforcement-learning-from-verifiable-rewards]] 방식으로 정책을 직접 다듬는 데 적합하다. GPT-5.5의 "도구 사용 안정성 향상"은 RLVR 류 학습이 핵심 레시피의 하나일 가능성을 시사한다.

자기 검증 루프의 내재화

이전 세대에서는 "사고 → 행동 → 관찰 → 사고" 루프를 외부 에이전트 프레임워크가 짜 주는 경우가 많았다. GPT-5.5는 이 루프의 일부를 모델 내부에 흡수했다고 표현된다. 추론 과정에서의 자기 비판(self-critique), 도구 호출 결과에 대한 검증, 실패 시의 백트래킹을 모델이 별도 지시 없이도 일정 수준 수행하는 방향이다.

토큰 효율

같은 과제를 더 짧은 출력으로 해결하는 경향은 두 가지로 해석할 수 있다. (a) 추론 분량 자체를 학습 단계에서 압축한 결과, 또는 (b) 디코딩 정책에서 명시적 길이 페널티를 강화한 결과. 두 가설은 외부에서 분리해 검증하기 어렵다.

평가에서 주의할 점

에이전트 워크로드 비교는 표준 벤치마크가 부실하다. SWE-bench Verified, OSWorld, WebArena 같은 환경은 점수만으로 모델을 줄 세우기 어렵게 만드는 노이즈가 크다. 또한 같은 모델이 영역에 따라 들쭉날쭉한 능력을 보이는 [[jagged-frontier]] 현상은 GPT-5.5에서도 사라지지 않을 가능성이 높다. 단일 점수보다 "어떤 도구 호출 패턴에서 무엇이 개선됐는가"를 작업별로 따로 보는 평가 설계가 필요하다.

외부 통합과 그 함의

GPT-5.5는 OpenAI 자사 제품(ChatGPT, [[codex]], [[api]])뿐 아니라 [[github-copilot]], [[cursor]] 같은 외부 코딩 도구에 동시 배포됐다. IDE 사용자는 사실상 같은 모델 위에서 서로 다른 UX를 경험하게 되며, 향후 비교 연구에서는 모델 자체의 능력과 호스트 어시스턴트가 부여하는 시스템 프롬프트·도구 세트를 분리해 평가해야 한다. 검색 결과를 컨텍스트에 끼우는 [[retrieval-augmented-generation]] 같은 외부 파이프라인의 영향도 통제해야 할 변수다.

후속 질문

  • 공식 시스템 카드와 안전 평가 결과의 상세 공개 여부.
  • Pro 변형이 같은 가중치의 추론 시간 확장(test-time compute scaling)인지, 별도 학습된 모델인지.
  • 도구 사용 RL이 에이전트 외 영역(창작, 일반 질의응답)에 어떤 부작용을 남겼는지.

이 용어를 언급한 기사