Codex (OpenAI)

Developed by	OpenAI
Type	Tool
Aliases	openai codex
Related	Claude Code, 컴퓨터 사용 (에이전트), 워크스페이스 에이전트, GitHub Copilot, GPT-5.5

무엇인가

Codex는 OpenAI가 만든 [[ai-agent]]다. 사용자의 지시를 받아 컴퓨터로 할 일을 대신 처리한다. 처음에는 깃허브 코파일럿의 두뇌 노릇을 하던 코드 생성 모델이었지만, 2025년 다시 모습을 드러내면서 클라우드에서 실행되는 코딩 에이전트로 새로 태어났고, 곧이어 코딩 외의 일반 [[computer-use]] 작업까지 영역을 넓혔다.

어떻게 쓰나

일반 사용자는 ChatGPT의 사이드바나 데스크톱 앱에서 Codex를 부른다. "이 폴더의 사진을 정리해 달라"처럼 자연어로 지시를 내리면 Codex는 가상 컴퓨터를 띄우고 마우스·키보드를 직접 조작하면서 일을 처리한다. 작업이 끝나면 어떤 단계로 어떤 도구를 썼는지 사람이 살펴볼 수 있다.

개발자는 한 단계 더 들어간다. 명령줄에서 codex를 입력하면 같은 에이전트를 자기 터미널에 띄울 수 있고, IDE 확장으로 [[cursor]]나 [[github-copilot]]처럼 편집기 안에 끼워 쓸 수도 있다.

왜 중요한가

2025년 이후 OpenAI 전략에서 Codex는 핵심 자리를 차지한다. [[gpt-5-5]] 같은 새 모델이 공개될 때마다 ChatGPT, [[api]], 그리고 Codex가 같은 날 동시에 업데이트되며, 회사가 미는 "팀 동료처럼 일하는 AI"의 본보기로 자주 등장한다.

[[claude-code]]가 Anthropic 진영의 동급 도구라면, Codex는 OpenAI 쪽의 같은 빈자리를 채우는 셈이다. 둘 다 파일을 읽고, 명령을 실행하고, 변경을 제안하지만, 모델 베이스와 사용 방식에서 차이가 있다.

무엇이 달라졌나

초창기 Codex(2021)는 단순한 코드 자동완성 모델이었다. 새 Codex는 모델이 아니라 에이전트 하니스(harness)다. 한 줄을 추천해 주는 게 아니라, 큰 지시를 받아 여러 단계에 걸쳐 스스로 행동을 결정한다. 이 차이가 "코딩 도우미"와 "AI 동료" 사이의 거리다.

어디서 부르나

Codex는 세 가지 표면(surface)을 갖는다.

클라우드 에이전트: ChatGPT 웹/앱의 Codex 패널. 격리된 가상 머신 위에서 작업이 돌고, 결과는 PR이나 작업 리포트 형태로 돌아온다.
CLI: codex 커맨드. 로컬 셸에서 같은 모델을 호출하고, 현재 디렉토리를 워크스페이스로 잡는다. 권한·샌드박스 모드를 인자로 켜고 끈다.
IDE 확장: VS Code/JetBrains 계열 플러그인. 에디터 컨텍스트(열린 파일, 선택 영역, 진단 정보)를 그대로 모델에 넘긴다.

모델과 권한

[[gpt-5-5]] 출시 이후 Codex는 같은 모델 패밀리를 백엔드로 쓴다. 단순 편집은 더 가벼운 변형이, 다단계 추론이 필요한 작업은 [[reasoning-model]] 변형이 자동 선택된다.

권한은 [[role-based-access-control]] 스타일로 운영된다. 클라우드 에이전트는 기본적으로 격리된 컨테이너 안에서만 명령을 실행하고, 외부 네트워크 접근이나 비밀 키 사용은 워크스페이스 정책으로 화이트리스트한다. 팀 모드에서는 [[workspace-agents]]와 같은 권한 체계 위에 얹혀 돌아간다.

일하는 방식

실무에서 Codex를 잘 쓰는 패턴은 작업 단위를 충분히 작게 자르되, 자르는 일 자체는 모델에 맡기는 것이다. "이 저장소의 인증 미들웨어를 새 패키지에 맞춰 마이그레이션해 줘"처럼 큰 지시를 던지면, Codex는 계획을 세우고, 파일을 읽고, 패치를 만들고, 테스트를 돌려 본 뒤 결과를 묶어 돌려준다.

프롬프트는 길게 쓰기보다 컨텍스트(저장소 README, 컨벤션 문서)를 워크스페이스에 미리 깔아 두는 쪽이 안정적이다. [[prompt-engineering]]보다 "환경 엔지니어링"이 더 큰 변수다.

비슷한 도구와의 차이

[[claude-code]]에 익숙한 개발자라면 비슷한 멘탈 모델로 접근하면 된다. 차이는 주로 모델 성능 곡선과, OpenAI 생태계 깊이([[chatgpt-images-2]]·[[gpt-image-2]]·내부 도구 통합)에서 온다. 편집기 통합 중심의 [[github-copilot]], 에디터 네이티브 IDE인 [[cursor]]와도 자주 비교된다.

시스템 위치

Codex는 OpenAI가 운영하는 통합 에이전트 실행 환경으로, ChatGPT의 [[workspace-agents]]와 같은 백엔드 인프라를 공유한다. 단일 모델이 아니라 모델 + 하니스 + 샌드박스가 결합된 시스템이라는 점에서, 학계의 "agentic system" 정의와 같은 결을 가진다.

시스템 구성

크게 세 층으로 본다.

추론 코어: [[gpt-5-5]] 계열의 [[reasoning-model]]. [[chain-of-thought]] 스타일 내적 계산을 도구 호출과 인터리빙한다. [[mixture-of-experts]] 라우팅이 일부 변형에 적용된 것으로 보인다.
하니스(harness): 행동 루프. 관찰→계획→도구 호출→관찰을 반복하며 종료 조건·상한·재시도 정책을 외부에서 제어한다.
실행 환경: 격리된 컨테이너 또는 가상 머신. 셸·브라우저·파일시스템을 도구로 노출한다. [[computer-use]] 인터페이스가 여기 들어온다.

학습 신호

구체 스택은 공개되지 않았지만, 보고된 단서를 종합하면 후행 학습 단계에 [[reinforcement-learning-from-verifiable-rewards]] 류의 신호가 사용된 것으로 보인다. 코드 실행 결과, 단위 테스트 통과 여부, 명령 종료 코드처럼 기계적으로 검증 가능한 신호로 정책을 다듬는 방식이다. [[constitutional-ai]] 풍의 안전 정책은 별개 계층으로 얹힌다.

평가 면에서

Codex는 단발 코드 정확도(예: 함수 합성 벤치마크)뿐 아니라, 다단계 작업 성공률과 비용 곡선이 함께 보고된다. [[jagged-frontier]] 관점에서, 잘 쪼개진 코드 변경은 거의 사람 수준에 가깝지만, 의도가 모호한 큰 지시에서는 여전히 분산이 크다. 고정된 벤치마크보다 실제 저장소 변경(real-world repo benchmarks) 쪽 신호가 점점 강조되고 있다.

한계와 열린 질문

장기 신뢰성: 다단계 작업의 누적 오류. 한 단계의 오답이 다음 단계 입력으로 들어가 증폭된다.
검증 비용: 결과를 사람 검토 없이 자동 머지하기는 아직 위험하다. [[guardian-agent]] 또는 정적 분석을 협업으로 묶는 형태가 현실적 타협안이다.
컨텍스트 한계: [[knowledge-cutoff]] 이후 변화한 라이브러리 API에 대한 환각이 남는다. [[retrieval-augmented-generation]] 통합이 부분적 완화책이다.
에이전시 정의: Codex가 "[[agentic-ai]]"의 어디까지 해당하는지는 운영 정의에 달려 있다. 도구 호출 횟수나 실행 시간만으로는 부족하다.

비교

동급 비교 대상은 [[claude-code]]다. 모델 패밀리(GPT vs. Claude)와 안전 정책 기조 외에, 하니스 설계 철학과 디폴트 권한 모델에서 차이가 두드러진다. 다른 축으로는 IDE 통합 중심의 [[github-copilot]], 에디터 네이티브 IDE인 [[cursor]]가 있다.