AI/ChatGPT(Codex)

gpt5.3codex 출시 리뷰 - 신규 기능, 벤치마크, 시장 반응, 개발자 후기 등 (vs Opus 4.6: AI 코딩 전쟁)

안녕하세요. 갓대희 입니다.

오늘은 2026년 2월 5일에 발표된 GPT-5.3 Codex에 대해 정리해보려고 한다.

codex를 호출하여 업데이트 진행하면 새로 출시된 gpt-5.3-codex 모델을 확인할 수 있다.

GPT-5.3 Codex : OpenAI의 강력한 에이전틱 코딩 모델
OpenAI가 GPT-5.3 Codex를 공식 출시했다.
흥미롭게도 Anthropic의 Claude Opus 4.6 발표와 약 20분 차이로 동시 출시되었다.
GPT-5.2-Codex의 코딩 성능과 GPT-5.2의 추론/전문지식을 하나로 통합하며, 25% 빠른 속도를 자랑한다고 한다.

OpenAI 최초로 자기 자신의 학습, 배포, 테스트에 활용된 "자기 개발(Self-Developing)" 모델이라는 점 또한 주목할 만하다.

GPT-5.3 Codex는 OpenAI의강력한 에이전틱 코딩 모델로, Terminal-Bench 2.0에서 77.3%를 기록했다.

약 20분 차이의 동시 출시
TechCrunch는 이를 두고 "OpenAI launches new agentic coding model only minutes after Anthropic drops its own"(“Anthropic이 자체 에이전트형(agentic) 코딩 모델을 공개한 지 불과 몇 분 만에, OpenAI가 새로운 에이전트형 코딩 모델을 출시했다.”)이라고 보도했다.

VentureBeat는 "AI coding wars heat up ahead of Super Bowl ads"(“슈퍼볼 광고를 앞두고 AI 코딩 경쟁이 더욱 뜨거워지고 있다.”)라고 표현하며 AI 코딩 전쟁의 서막을 알렸다.

Super Bowl 광고란?

Super Bowl은 미국 NFL 풋볼 결승전으로, 연간 1억 명 이상이 시청하는 세계 최대 스포츠 이벤트다. 30초 광고 비용이 약 100억 원($7M)에 달할 정도로, 기업들이 가장 중요한 마케팅 기회로 여긴다.

2026년 Super Bowl(2월 9일)을 앞두고 OpenAI와 Anthropic 모두 TV 광고를 편성했는데, 이는 AI 기업들이 일반 대중을 대상으로 본격적인 브랜드 경쟁에 나섰다는 신호다. 모델 출시 시점이 겹친 것도 이 광고 전쟁의 일환으로 보인다.

1. GPT-5.3 Codex 핵심 변경사항

먼저 GPT-5.3 Codex의 주요 변경사항을 요약해보았다. ( 이후 섹션에 각각에 대해 좀더 상세하게 표현해두었다. )

기능	설명
자기 개발 모델	OpenAI 최초로 자기 자신의 학습, 배포, 테스트에 활용된 모델
25% 속도 향상	GPT-5.2-Codex 대비 25% 빠른 처리 속도
토큰 효율성 2배	동일 작업에 GPT-5.2-Codex 대비 절반 이하의 토큰 사용
통합 모델	코딩 성능(5.2-Codex) + 전문지식/추론(5.2)을 하나로 통합
400K 컨텍스트	400,000 토큰 컨텍스트 윈도우 + Perfect Recall 메커니즘
128K 출력 토큰	최대 128,000 토큰 한 번에 출력 가능
인터랙티브 스티어링	작업 중간에 방향 수정 가능, 컨텍스트 유실 없음 (설정: Settings > General > Follow-up behavior)
사이버보안 High 등급	OpenAI Preparedness Framework에서 최초 "High" 분류
Codex 전 플랫폼 지원	App, CLI, IDE, Web 모든 서피스에서 사용 가능

ex) codex 5.3과 대화를 시도했을때 개인적으로는 응답 속도가 빨라진게 체감 되는 것 같다.

2. 벤치마크 성능

GPT-5.3 Codex는 여러 벤치마크에서 업계 최고 성능을 기록했다. 특히 에이전틱 코딩에서 두각을 나타낸다고 한다.

사실 여태까지 코딩에서는 opus가 압도적이라고 생각했는데, 한번 실제 이 관점에서 체감이 되는지 생각하고 사용해봐야겠다.

주요 벤치마크 결과

벤치마크	GPT-5.3 Codex	GPT-5.2 Codex	Claude Opus 4.6
Terminal-Bench 2.0 (에이전틱 코딩)	77.3%	64.0%	65.4%
SWE-Bench Pro	56.8%	56.4%	-
SWE-Bench Verified (실제 SE)	-	-	80.8%
OSWorld-Verified	64.7%	38.2% **	72.7% *
GDPval	70.9% wins/ties	-	1위
ARC AGI 2 (추론)	-	-	68.8%
Humanity's Last Exam	-	-	1위
BrowseComp (정보 검색)	-	-	1위

주목할 점: Terminal-Bench 2.0에서 압도적 우위
Terminal-Bench 2.0에서 77.3%로 Claude Opus 4.6(65.4%)을 약 12%p 앞서는 성능을 보여준다. 이는 에이전틱 코딩 작업에서 GPT-5.3 Codex가 현재 업계 최고 수준임을 의미한다. (출처: OpenAI 공식 발표)

벤치마크 해석 시 주의
SWE-Bench Pro와 SWE-Bench Verified는 다른 벤치마크라는 점에 주의해야 한다. 직접적인 비교는 동일 벤치마크 내에서만 유효하다. OSWorld의 경우에도 측정 방식에 따라 결과가 달라질 수 있다.

* OSWorld 벤치마크 주의
GPT-5.3 Codex의 64.7%는 OSWorld-Verified(2025년 7월 업데이트, 300개 이상 이슈 수정된 개선 버전)에서 측정되었고, Claude Opus 4.6의 72.7%는 원본 OSWorld에서 측정되었다. 벤치마크 변형이 다르므로 직접 비교 시 주의가 필요하다.

참고: 인간 기준점 - OSWorld에서 인간은 약 72%를 기록한다. GPT-5.3 Codex의 64.7%는 인간 수준의 약 90%에 해당하는 성능이다.

** GPT-5.2 Codex OSWorld 점수: 공식 발표에서 "nearly doubled its predecessor's score"라고 기술되어 있으며, 실제 GPT-5.2 Codex의 OSWorld-Verified 점수는 38.2%로 확인된다. (출처: MarkTechPost)

3. 자기 개발(Self-Developing) 모델

GPT-5.3 Codex의 가장 혁신적인 특징은 OpenAI에 따르면 자사 최초로 자기 자신을 만드는 데 기여한 모델("our first model that was instrumental in creating itself")이라는 점이다. (출처: OpenAI 공식 발표, NBC News)

자기 개발의 의미

자체 학습 디버깅: Codex 팀이 초기 버전을 사용해 학습 과정의 버그를 찾고 수정
배포 관리: 모델 배포 파이프라인을 GPT-5.3 Codex가 직접 관리
테스트 결과 진단: 테스트 결과를 분석하고 문제점을 진단
NVIDIA GB200 NVL72: 해당 시스템에서 공동 설계, 학습, 서빙

Sam Altman의 코멘트

"It was amazing to watch how much faster we were able to ship 5.3-Codex by using 5.3-Codex, and for sure this is a sign of things to come."
(“5.3-Codex를 개발하는 데 5.3-Codex 자체를 사용하면서 얼마나 더 빠르게 출시할 수 있었는지를 보는 것은 놀라운 일이었고, 이것은 앞으로 다가올 변화의 신호임이 분명하다.”)
— Sam Altman, CEO of OpenAI

이는 AI 발전의 새로운 이정표라고 할 수 있다. AI가 자기 자신의 개발에 참여한다는 것은 개발 속도의 가속화를 의미하며, 동시에 많은 사람들에게 경외감과 우려를 동시에 불러일으키고 있다.

실제 개발자 사용 사례

"GPT-5.3-Codex (X-high reasoning)가 정교한 디자인 도구를 만드는 데 25시간 동안 중단 없이 실행되었다. 약 1,300만 토큰을 생성하고 50,000줄의 코드를 작성했다. 핵심은 'project memory' 기능으로 긴 작업에서도 일관성을 유지할 수 있었다."
— Derrick Choi, X(Twitter)

개발자 인사이트: 장시간 자율 실행이 필요한 대규모 프로젝트에서 GPT-5.3 Codex의 "durable project memory"가 핵심 차별점이다. Prompt.md(목표/스펙)와 Plans.md(마일스톤)를 활용한 구조화된 작업 방식이 효과적이다.

4. Codex 에이전트 플랫폼

GPT-5.3 Codex는 다양한 플랫폼에서 사용할 수 있다. OpenAI는 Codex를 App, CLI, IDE, Web 모든 서피스에서 지원한다.

플랫폼별 특징

서피스	플랫폼	특징
Codex App	macOS	자동화, Git 연동, 백그라운드 스케줄링
Codex CLI	터미널	웹 검색, 스킬, 로컬 실행 (오픈소스, Rust 기반)
IDE Extension	VS Code, Cursor, Windsurf	클라우드 오프로드, 인라인 어시스턴스
Codex Web	브라우저	클라우드 샌드박스 환경

Codex 플랫폼 공통 특징

클라우드 기반: 각 작업이 독립된 컨테이너에서 실행 (저장소 프리로드)
네트워크 격리: 에이전트 실행 중 인터넷 접근 기본 비활성화
병렬 실행: 여러 작업 동시 처리 가능
GitHub 통합: PR 리뷰(@codex review), 이슈 해결, GitHub Action 지원

Codex CLI 사용 예시

# Codex CLI 설치
npm i -g @openai/codex
# 또는
brew install --cask codex

# 사용 예시
codex "이 프로젝트의 테스트 커버리지를 개선해줘"

# PR 리뷰 요청
@codex review

API 사용 예시

API 접근 현황 (2026년 2월 기준)
GPT-5.3 Codex는 현재 Codex App, CLI, IDE Extension, Web에서 사용 가능하며, API 접근은 아직 공개되지 않았다. OpenAI는 "safely enable API access soon"이라고 발표했으며, 사이버보안 심사를 거친 후 순차적으로 공개될 예정이다.

# GPT-5.3-Codex API 사용
from openai import OpenAI

client = OpenAI()

# Responses API 형식 (신규 프로젝트 권장)
response = client.responses.create(
    model="gpt-5.3-codex",
    input="Fix the authentication bug in login.py"
)
print(response.output[0].content)

# 또는 Chat Completions API 형식 (기존 호환)
response = client.chat.completions.create(
    model="gpt-5.3-codex",
    messages=[{"role": "user", "content": "Fix the authentication bug in login.py"}]
)
print(response.choices[0].message.content)

Responses API vs Chat Completions API
OpenAI는 신규 프로젝트에 Responses API를 권장한다. Responses API는 서버 측 대화 상태 관리, 40-80% 캐시 활용 개선, reasoning 모델에서 3% SWE-bench 성능 향상 등의 이점이 있다. Chat Completions API도 계속 지원된다. (출처: OpenAI Migration Guide)

5. 가격 정책

GPT-5.3 Codex의 API 가격은 아직 공식 발표되지 않았으며, 기존 GPT-5 Codex 시리즈 가격을 참고할 수 있다.

API 가격

API 가격 미확정
GPT-5.3 Codex의 공식 API 가격은 아직 발표되지 않았다. 아래는 GPT-5 Codex 시리즈 참고 가격이며, 5.3 버전 가격은 API 공개 시 확정될 예정이다. (출처: OpenAI Pricing)

옵션	입력 (MTok)	출력 (MTok)
GPT-5 Codex (참고)	$1.25	$10.00
GPT-5.1 Codex Mini (참고)	$0.25	$2.00

ChatGPT 구독 플랜

플랜	가격	Codex 메시지 제한
Plus	$20/월	약 160/3시간
Pro	$200/월	무제한
Business	$25/사용자/월	팀 규모 조정
Enterprise	커스텀	커스텀

비용 참고
GPT-5.3 Codex의 API 가격은 아직 미발표 상태이다. 기존 GPT-5 Codex 시리즈 가격(입력 $1.25/출력 $10.00 per MTok) 기준으로 보면 Claude Opus 4.6(입력 $5/출력 $25 per MTok)보다 저렴할 가능성이 있으나, 5.3 버전 가격 확정 전까지는 추정에 불과하다.

6. 사이버보안 우려

GPT-5.3 Codex는 OpenAI Preparedness Framework에서 최초로 "High capability" 등급을 받은 모델이다.

이는 강력한 코딩 능력이 사이버보안 위협에 악용될 수 있다는 우려를 반영한다.

Fortune 보도

"GPT-5.3-Codex is the first model OpenAI believes is good enough at coding and reasoning that it could meaningfully enable real-world cyber harm, especially if automated or used at scale."
(“GPT-5.3-Codex는 코딩과 추론 능력이 충분히 높아, 특히 자동화되거나 대규모로 사용될 경우 현실 세계에서 실제 사이버 피해를 의미 있게 초래할 수 있다고 OpenAI가 판단한 최초의 모델이다.”)
— Fortune

(출처: Fortune, 2026-02-05)

OpenAI의 대응 조치

API 접근 지연: 신규 사용자에 대한 접근 심사 강화
$10M 사이버 방어 연구 크레딧: 방어적 AI 연구 지원
Trusted Access for Cyber(TAC) 프로그램: 신뢰할 수 있는 기관 우선 접근
자동 보안 모니터링: 악용 패턴 실시간 감지 시스템

강력한 코딩 능력은 양날의 검이다. OpenAI는 방어적 사용을 촉진하면서도 악용을 방지하기 위한 다층적 안전장치를 구현하고 있다.

7. Claude Opus 4.6 vs GPT-5.3 Codex

약 20분 차이로 동시 출시된 두 모델을 비교해보았다.

항목	GPT-5.3 Codex	Claude Opus 4.6
Terminal-Bench 2.0	77.3%	65.4%
컨텍스트 윈도우	400K	1M (베타, 기본 200K)
핵심 혁신	자기 개발 모델	Agent Teams (병렬 에이전트)
실행 방식	클라우드 비동기	로컬 터미널 인터랙티브
철학	자율적 코딩 실행	긴 컨텍스트 추론
비용	API 가격 미발표	$5/$25 per MTok
강점	빠른 코드 생성, 배치 작업	복잡한 리팩토링, 보안 분석

Every.to의 흥미로운 비교

"In a head-to-head debugging test, GPT-5.3 Codex ran more than eight forensic tool calls but missed the actual problem, while Claude Opus 4.6 read the document structure once and diagnosed the issue."
— Every.to

복잡한 디버깅에서는 Claude가, 빠른 코드 생성에서는 Codex가 강점을 보인다는 평가다.

8. 커뮤니티 반응

Hacker News: 철학적 차이 분석

"With Codex (5.3), the framing is an interactive collaborator: you steer it mid-execution, stay in the loop. With Opus 4.6, the emphasis is the opposite: a more autonomous, agentic, thoughtful system."

“Codex (5.3)는 상호작용하는 협업자라는 개념에 가깝다. 실행 중에도 사용자가 방향을 조정하며 계속 과정에 참여한다. 반면 Opus 4.6은 그와 반대로, 더 자율적이고(agentic) 스스로 판단하며 신중하게 작업을 수행하는 시스템에 초점을 둔다.”
— Hacker News

GPT-5.3 Codex의 핵심 강점: 인터랙티브 협업자로서 작업 중간에 방향을 수정하고, 사용자가 루프 안에 머물 수 있다. 반면 Claude Opus 4.6은 자율적 에이전트로 독립적 실행에 초점을 맞춘다.

실무 관점: 빠른 피드백 루프가 필요한 페어 프로그래밍, 인터랙티브 디버깅에서는 Codex가, 대규모 자율 작업에서는 Claude가 적합하다는 평가가 많다.

Sam Altman 반응

"GPT-5-Codex is here: a version of GPT-5 better at agentic coding. It is faster, smarter, and has new capabilities."
“GPT-5-Codex가 출시되었다. 이는 에이전트형(agentic) 코딩에 더 특화된 GPT-5 버전으로, 더 빠르고 더 똑똑하며 새로운 기능들을 갖추고 있다.”
(※ GPT-5-Codex 초기 출시 시 트윗, GPT-5.x 시리즈 전반에 해당)

"I love building with this model; it feels like more of a step forward than the benchmarks suggest."
“이 모델로 개발하는 것이 정말 마음에 든다. 벤치마크 점수가 보여주는 것보다 실제로는 훨씬 더 큰 진전처럼 느껴진다.”
— Sam Altman

긍정적 반응

Hacker News: "Codex는 버그와 작은 불일치를 찾는 데 정말 뛰어나다."
커뮤니티 의견: "Claude Code가 '순수한 코딩'에 강하다면, Codex/GPT5.x는 신중하고 체계적으로 '문제점'을 찾아내는 데 있어서는 따라올 자가 없다."
Every.to: "훨씬 사용자 친화적인 모델이다. 빠르고, 조금 더 따뜻하며, 더 창의적이다."
사용성 개선: "이전 Codex 버전이 명백한 결정조차 재확인하느라 멈추는 것에 답답했던 개발자들에게, 이것이 바로 여러분이 기다려온 업데이트다."

※ Hacker News 인용은 GPT-5.2-Codex 토론에서 발췌하였으며, GPT-5.x 시리즈 전반에 적용되는 평가입니다.

우려/부정적 반응

Fortune: 사이버보안 위험 우려 → API 접근 지연 조치
"자기 개발" 개념: 경외감과 우려가 혼재
Every.to: "이 모델은 여전히 Claude 계열 모델들보다 더 문자 그대로 해석하는 경향이 있고, 때때로 근시안적으로 방향을 잃을 수 있다."
진단 능력: Claude 대비 복잡한 문제 진단 능력이 약하다는 평가

커뮤니티 권장

초기 사용자들의 권장:

벌크 코드 생성/배치: GPT-5.3 Codex
복잡한 디버깅/리팩토링: Claude Opus 4.6
비용 절감: GPT-5.3 Codex (API 가격 미발표, 기존 시리즈 기준 저렴할 가능성)

※ 이는 초기 사용자들의 의견이며, 개인마다 경험이 다를 수 있다.

9. 개발자를 위한 실전 팁

공식 문서와 초기 사용자 경험을 바탕으로 정리한 GPT-5.3 Codex 활용 팁이다.

토큰 효율성 극대화

절반의 토큰으로 동일 작업: GPT-5.2-Codex 대비 동일 작업에 절반 이하의 토큰을 사용한다. 비용 민감한 프로젝트에서 큰 이점.
Responses API 활용: 새 프로젝트라면 Responses API를 사용하면 40-80% 캐시 효율 개선 가능.
배치 작업 최적화: 대량 코드 생성, 테스트 작성, 문서화 등 반복 작업에서 비용 대비 효과가 극대화된다.

장시간 자율 실행 설정

Project Memory 활용: Prompt.md(목표/스펙/산출물)와 Plans.md(마일스톤)를 작성하면 25시간 이상 연속 실행에서도 일관성 유지.
Interactive Steering: Settings > General > Follow-up behavior에서 활성화. 작업 중간에 방향 수정 가능.
실시간 진행 상황: Codex는 작업 중 주요 결정과 진행 상황을 실시간으로 알려준다. 최종 결과만 기다릴 필요 없음.

용도별 모델 선택 가이드

작업 유형	권장 모델
빠른 코드 생성, 벌크 작업	GPT-5.3 Codex - 속도와 비용 효율
인터랙티브 페어 프로그래밍	GPT-5.3 Codex - 실시간 협업에 최적화
복잡한 디버깅/근본 원인 분석	Claude Opus 4.6 - 진단 능력 우수
대규모 리팩토링/아키텍처 분석	Claude Opus 4.6 - 1M 컨텍스트 활용
테스트 코드 대량 생성	GPT-5.3 Codex - 토큰 효율성
보안 취약점 분석	Claude Opus 4.6 - 심층 추론

주의: 문자 그대로 해석하는 경향
Every.to에 따르면 GPT-5.3 Codex는 Claude 계열보다 "더 문자 그대로 해석하는 경향"이 있다. 복잡한 맥락이 필요한 작업에서는 명확하고 구체적인 지시가 중요하다. 모호한 요청보다 단계별 명세를 제공하면 더 좋은 결과를 얻을 수 있다.

10. 정리

GPT-5.3 Codex 핵심 요약

Terminal-Bench 77.3%: 업계 최고 에이전틱 코딩 벤치마크 (Claude Opus 4.6의 65.4% 대비 +12%p)
자기 개발: OpenAI 최초로 자기 자신의 개발에 활용된 모델
25% 빠른 속도: 전작 대비 속도와 효율성 모두 개선
토큰 효율성 2배: 동일 작업에 GPT-5.2-Codex 대비 절반 이하의 토큰 사용
비용: API 가격 미발표 상태, 기존 GPT-5 Codex 시리즈 기준 Claude Opus 대비 저렴할 가능성 (확정 시 업데이트 예정)
인터랙티브 협업: 작업 중간에 방향 수정 가능, 컨텍스트 유실 없음
Codex 에이전트: App, CLI, IDE, Web 전 플랫폼 지원

Claude Opus 4.6과의 경쟁 구도

GPT-5.3 Codex 강점:

Terminal-Bench 2.0 (77.3%)
25% 빠른 속도
토큰 효율성 2배
인터랙티브 협업

Claude Opus 4.6 강점:

SWE-Bench Verified (80.8%)
1M 컨텍스트 윈도우 (베타)
Agent Teams
복잡한 디버깅/분석

결론: "어떤 모델이 더 좋다"보다는 용도에 맞는 선택이 중요하다. 빠른 인터랙티브 코딩과 비용 효율에는 Codex, 대규모 리팩토링과 자율 에이전트 작업에는 Claude가 적합하다.

GPT-5.3 Codex는 속도, 비용 효율성, 인터랙티브 협업으로, Claude Opus 4.6은 긴 컨텍스트와 자율적 에이전트 팀으로 차별화하고 있다. 특히 Codex의 "인터랙티브 협업자" 접근 방식은 페어 프로그래밍, 실시간 디버깅, 빠른 피드백 루프가 필요한 워크플로우에서 강점을 발휘한다. 개발자들에게는 양쪽 모두 사용해보고 자신의 워크플로우에 맞는 도구를 선택하는 것을 권장한다.

출처
OpenAI - Introducing GPT-5.3 Codex 공식 발표
GPT-5.3 Codex System Card
OpenAI Developers - Codex Documentation
Codex 제품 페이지

관련 글

저작자표시 비영리 변경금지 (새창열림)

'AI > ChatGPT(Codex)' 카테고리의 다른 글

OpenAI Codex 서브에이전트 - awesome-codex-subagents : 136개 Codex SubAgents 모음( TOML 에이전트 컬렉션 ) (1)	2026.03.28
GPT-5.4 출시 리뷰 - 신규 기능, 벤치마크, 시장 반응, Pro 5.4 vs Thinking 5.4, 실제로 얼마나 다를까? 비교 분석 (5)	2026.03.08
GPT-5.2-Codex 사용법과 주의사항 - 24시간 자율 코딩과 보안 취약점 탐지 (2025), AI 코딩 모델 비교 등 (0)	2025.12.22
GPT Image 1.5 리뷰 - OpenAI '코드 레드' 전략의 결과물 (4배 속도, 20% 저렴, Disney 협업) (2)	2025.12.17
GPT 5.2 출시 - 무료 포토샵, AI 삼파전(GPT-5.2, Gemini 3,Claude Opus 4.5) 살펴보기, skills 등 (1)	2025.12.12

Contents

새소식