AI/ChatGPT(Codex)

GPT-5.4 출시 리뷰 - 신규 기능, 벤치마크, 시장 반응, Pro 5.4 vs Thinking 5.4, 실제로 얼마나 다를까? 비교 분석

안녕하세요! 갓대희 입니다.

솔직히 말해볼게요. 요즘 AI 모델 출시 뉴스에 피로감을 느끼시는 분들 많으시죠? GPT-5.1, 5.2, 5.3… 그리고 3월 5일, GPT-5.4. 이틀 간격으로 버전이 연속 출시되는 OpenAI의 속도전에 지치는 건 자연스러운 반응입니다. 하지만 이번은 진짜 강력하다고 생각이 되었다. (진심이다.)

메인라인 모델이 처음으로 컴퓨터를 직접 조작하게 됐고, OSWorld에서 인간 기준선(72.4%)을 처음으로 넘어섰습니다(75.0%).

모델 선택 화면에도 세 개의 티어가 새로 등장했어요: Instant 5.3, Thinking 5.4, Pro 5.4.

오늘은 "이번 업데이트, 과연 써볼 만한 건가?"라는 관점에서 각 티어를 어떤 상황에서 어떻게 활용하면 좋을지 함께 정리해보겠습니다.

GPT-5.4란 무엇인가
- 출시 배경 및 일정
- 세 가지 티어 한눈에 보기
GPT-5.4의 7가지 핵심 신기능
- 컴퓨터 사용 (Computer Use)
- 100만 토큰 컨텍스트
- Tool Search
- 컨텍스트 컴팩션
- 코딩 통합
- 비즈니스 워크플로우
- 스티어빌리티 (Steerability)
Thinking 5.4 vs Pro 5.4 심층 비교
- 추론 메커니즘 차이
- 벤치마크 비교
- 어떤 티어를 선택해야 하나
구독 플랜별 접근 권한
API 활용 가이드
- 모델 이름 및 엔드포인트
- reasoning.effort 파라미터
- API 가격표
실전 사용 사례
- 에이전트 업무 자동화
- 고급 코딩 워크플로우
- 엔터프라이즈 적용 사례
- 지금 바로 해보기: ChatGPT & Codex 실습 프롬프트
알려진 제한사항 및 주의점
모델 퇴역 일정
한국어 사용자 주의사항
트러블슈팅 Q&A
커뮤니티 반응과 실사용자 목소리
- #QuitGPT 운동과 배경
- 개발자 커뮤니티 반응
- 커뮤니티 공통 선택 기준
결론

ChatGPT 5.4 Pro 완전 가이드
GPT-5.4는 2026년 3월 5일 출시된 OpenAI의 최신 메인라인 모델이다.
Thinking 5.4와 Pro 5.4 두 티어로 제공되며, 업계 최초로 컴퓨터 사용(Computer Use)을 기본 탑재했다.
OSWorld 벤치마크에서 인간 기준선(72.4%)을 초과(75.0%)한 첫 OpenAI 메인라인 모델이기도 하다.

AI 피로감 시대의 맥락: 이번 업데이트를 읽는 방법

GPT-5.4는 단순한 버전 업그레이드 타이밍에 출시된 게 아닙니다. ChatGPT MAU 성장이 캐즘(Chasm, 초기 사용자와 대중 사이의 채택 정체 구간) 국면에 진입했다는 분석이 나오고, OpenAI의 빠른 업데이트 주기가 오히려 신뢰 문제를 만들고 있는 시점이에요.

캐즘 국면이란? 초기 열성 사용자는 이미 충성도가 높지만, 다음 단계인 일반 대중 채택이 정체되는 구간을 말합니다. "또 새 모델이야?" 하는 피로감이 이 단계의 대표적인 특징이에요.
빠른 업데이트 = 양날의 검: 5.1 → 5.2 → 5.3 → 5.4가 수 주 간격으로 출시되면서, 프로덕션 환경에서 모델 드리프트(Model Drift, 같은 모델 ID인데 내부가 조용히 바뀌는 현상) 문제가 현실화되고 있습니다.
GPT-5.4의 응답: 할루시네이션(Hallucination, AI가 사실이 아닌 정보를 생성하는 현상) 33% 감소, 오류 응답 18% 감소를 공식 수치로 제시하며 "신뢰성 회복"을 핵심 메시지로 내세운 배경이 있습니다.

이 맥락을 이해하면 각 기능이 왜 이 시점에 나왔는지가 더 명확해집니다.

1. GPT-5.4란 무엇인가

출시 배경 및 일정

GPT-5.4는 2026년 3월 5일 공식 출시된 OpenAI의 플래그십 메인라인 모델이다. 2일 전인 3월 3일에 먼저 GPT-5.3 Instant를 출시하며 분위기를 달군 뒤, "5.4 sooner than you think"라는 예고 트윗이 3백만 뷰를 기록하며 주목받았다.

GPT-5.4는 별도의 신규 모델을 추가하는 방식이 아니라, 동일한 GPT-5.4 기반 모델 위에서 추론 깊이와 컴퓨팅 투자 수준을 다르게 설정한 티어 시스템이다. 즉, 같은 엔진을 어느 기어로 달리느냐의 차이다.

날짜	이벤트
2026-03-03	GPT-5.3 Instant 출시 (전 플랜 사용자)
2026-03-05	GPT-5.4 공식 발표 (ChatGPT + API + Codex)
2026-03-06	GPT-5.4 전체 롤아웃 완료
2026-06-03	GPT-5.2 Instant 서비스 종료
2026-06-05	GPT-5.2 Thinking 서비스 종료

(출처: Introducing GPT-5.4 | OpenAI, Retiring older models | OpenAI)

세 가지 티어 한눈에 보기

ChatGPT 모델 선택 화면에는 이제 아래 세 가지가 표시된다:

ChatGPT 표시명	설명	API 모델명	접근 플랜
Instant 5.3	즉시 대답. 빠른 일상 대화	`gpt-5.3`	무료 포함 전체
Thinking 5.4	좋은 답변을 위해 더 오래 생각. 추론 강화	`gpt-5.4`	Plus, Team, Pro, Enterprise
Pro 5.4	리서치급 인텔리전스. 최대 성능	`gpt-5.4-pro`	Pro ($200/월), Enterprise 전용

(출처: help.openai.com, OpenAI API Docs)

Auto 모드는 무엇인가?

ChatGPT 모델 선택 화면 최상단의 Auto 옵션은 라우팅 레이어이다.

질문의 복잡도를 감지해 Instant 5.3과 Thinking 5.4 중 자동으로 선택해 응답한다.

API 상에서는 gpt-5-chat-latest로 매핑된다.

2. GPT-5.4의 7가지 핵심 신기능

1) 컴퓨터 사용 (Computer Use) — 업계 최초 메인라인 탑재

이번에 가장 놀라운 변화는 바로 이겁니다. GPT-5.4가 메인라인 모델 최초로 컴퓨터 사용 기능을 기본 탑재했어요. Claude의 Computer Use와 비슷한 개념이라고 보시면 됩니다.

AI가 직접 마우스를 클릭하고, 키보드를 입력하고, 브라우저를 조작할 수 있게 된 거예요.

OSWorld-Verified 벤치마크: 75.0% — 인간 기준선 72.4%를 초과한 첫 OpenAI 모델 (GPT-5.2 대비 47.3%에서 급등)
build-run-verify-fix 루프 실행: Codex에서 코드를 작성하고, 실행하고, 결과를 보고, 자체 수정하는 완전한 에이전트 루프
별도 도구 불필요: 이전에는 Operator 제품이나 별도 스캐폴딩이 필요했던 작업을 단일 모델 호출로 처리

핵심 변화: Stateless → Stateful (지속적 환경)

이전 모델(GPT-5.3 Codecs)은 작업할 때마다 새로운 환경을 구축(Stateless)해야 했다. GPT-5.4는 OS의 상태와 작업 맥락을 그대로 유지하는 지속적(Persistent) KUA 환경을 제공한다.

단기 기억 확보: 이전 작업을 기억하며 자연스럽게 다음 단계로 이어짐
토큰 사용량 2/3 절감: OpenAI 발표 기준 — 매번 환경을 새로 설명할 필요가 없어지기 때문 (Tool Search의 47% 절감과 별도 효과)

실제 사용 예

PCWorld 보도에 따르면: "Quicken에서 장부를 정리해줘"라고 요청하면 — 앱을 실행하고, UI를 탐색하고, 작업을 완료한다. 노코드 에이전트 자동화의 새 시대다.

(출처: Introducing GPT-5.4 | OpenAI, PCWorld)

2) 100만 토큰 컨텍스트 (1M Token Context)

한 번에 얼마나 많은 정보를 넣을 수 있느냐, 이게 실무에서는 정말 중요한 문제인데요. GPT-5.4는 최대 100만 토큰 컨텍스트를 지원합니다. 전체 코드베이스, 수백 페이지의 법률 문서, 대규모 데이터셋을 단일 요청으로 처리할 수 있어요.

중요: 기본값은 272K 토큰

1M 컨텍스트는 기본이 아니다. API에서 model_context_window와 model_auto_compact_token_limit 파라미터를 명시적으로 설정해야 활성화된다. 또한 272K 토큰 초과 구간부터는 정상 요금의 2배 과금이 적용된다.

API 기본: 272K 토큰 (공식 확인)
API 1M 옵트인: 1,050,000 토큰 (실험적, 공식 확인)
ChatGPT 플랜별 컨텍스트: 플랜에 따라 상이 — 최신 정보는 공식 Help Center에서 확인 권장

주의: 컨텍스트가 길다고 항상 좋은 건 아니다

OpenAI 공식 Codex 가이드는 "불필요하거나 부정확한 컨텍스트를 채우면 오히려 신뢰도가 낮아진다"고 명시하고 있다. 관련성 높은 정보만 선별해 넣는 것이 핵심이다.

(출처: OpenAI Community 공식 딥다이브)

3) Tool Search — 토큰 47% 절감

API 비용이 걱정되는 분들이라면 이 기능에 주목해주세요. 에이전트 워크플로우(AI가 여러 도구를 연결해 자동으로 작업하는 흐름)에서 가장 중요한 새 기능 중 하나입니다. 모든 도구 정의를 한 번에 로드하는 대신, 필요할 때만 검색해서 로드하는 방식이에요.

MCP Atlas 벤치마크 250개 태스크: 동일 정확도에서 토큰 사용량 47% 절감
대형 도구 생태계에 특히 효과적: 수십~수백 개의 MCP 도구를 쓰는 에이전트에서 비용 절감 효과 극대화
순 API 비용 감소 효과: 토큰당 단가는 GPT-5.2보다 올랐지만, Tool Search로 실제 사용 토큰이 줄어 총비용은 크게 증가하지 않을 수 있음

(출처: OpenAI Community 공식 딥다이브)

4) 컨텍스트 컴팩션 (Context Compaction)

AI와 긴 대화를 나누다 보면 "아까 말한 거 왜 까먹었어?"라는 경험, 다들 있으시죠? GPT-5.4는 긴 에이전트 실행 이력을 유지하는 최초의 메인라인 OpenAI 모델입니다. 이전 모델들은 긴 멀티턴(여러 차례 주고받는) 에이전트 체인에서 앞부분 맥락이 점차 사라지는 문제가 있었어요.

에이전트 궤적(Trajectory) 유지: 수백 단계를 거치는 자율 에이전트에서도 초기 목표와 맥락 유지
Responses API 통합: previous_response_id 체이닝으로 멀티턴 에이전트 상태 유지 — Compaction은 이전 컨텍스트를 암호화된 압축 아이템으로 요약해 다음 턴에 전달 (원시 CoT 토큰을 그대로 전달하는 방식이 아님)

5) 코딩 통합 — GPT-5.3-Codex 흡수

개발자분들에게 반가운 소식이에요. GPT-5.3-Codex의 프런티어(Frontier, 최첨단) 코딩 능력이 GPT-5.4 메인라인에 통합되었습니다. 이제 별도 Codex 모델을 따로 쓸 필요가 없어요.

SWE-bench Pro: 57.7% (출처: OpenAI 공식 발표)
o3 대비 22% 적은 출력 토큰, 45% 적은 도구 호출 (출처: Medium, GPT-5 vs o3 비교 분석 — 공식 미확인, 참고용)

6) 비즈니스 워크플로우 개선

회사에서 AI를 업무에 쓰고 계신 분들이라면 이 부분이 체감될 겁니다. 엔터프라이즈 환경을 겨냥한 실용적 개선들이에요.

스프레드시트·문서 분석 성능 향상 — 투자은행 수준 스프레드시트 모델링 포함 (정확한 벤치마크 수치는 공식 발표 확인 필요)
Microsoft Excel / Google Sheets 금융 플러그인: 회계, 재무 분석 작업 자동화
오류율 감소: 개별 사실 오류 33% 감소, 오류 포함 전체 응답 18% 감소 (vs GPT-5.2) (출처: OpenAI 공식 발표)

(출처: Introducing GPT-5.4 | OpenAI, VentureBeat)

7) 스티어빌리티 (Steerability) — 생각 도중 실시간 방향 수정

AI가 한참 생각하고 있는데, "아 그 방향 아닌데..."라고 느낀 적 있으시죠? GPT-5.4에서 새롭게 도입된 스티어빌리티(Steerability, 방향 전환 기능)는 AI가 답변을 생성(Thinking)하는 도중에 사용자가 개입해서 즉시 방향을 수정할 수 있는 기능입니다.

사용 예

AI가 현재 위치를 기반으로 날씨를 조사하는 '생각' 도중, 사용자가 "캘리포니아 기준으로 바꿔줘"라고 말하면 — AI는 즉시 논리 회로를 변경해 새로운 기준으로 응답한다.

긴 작업에서 특히 강력: 코딩처럼 오래 걸리는 작업이 잘못된 방향으로 흐르기 전에 "A 방식이 아닌 B 방식으로 해줘"라고 중간 수정 가능
시행착오 대폭 감소: 전체 결과를 받은 뒤 다시 프롬프트를 쓰는 낭비 없이, 작업 중간에 실시간 협업 가능
ChatGPT UI + API 모두 지원: Thinking 5.4에서 Preamble(계획 미리보기)과 함께 활용하면 최적

3. Thinking 5.4 vs Pro 5.4 비교

추론 메커니즘 차이

두 티어는 같은 GPT-5.4 기반 모델이지만, 추론에 투입하는 컴퓨팅 예산과 제한의 차이가 본질적인 구분이다.

항목	Thinking 5.4	Pro 5.4
추론 깊이	high (최대 깊이에서 타임아웃 가능)	xhigh (예산 무제한)
컴퓨팅 예산 캡	있음 (Heavy 제외)	없음 (항상 Heavy)
Preamble (계획 미리보기)	제공 (중간 개입 가능)	제공
Apps, Memory, Canvas	사용 가능	비활성 (컴퓨팅 집약도 때문)
이미지 생성	가능	비활성
API 엔드포인트	Chat Completions + Responses API	Responses API 전용
API 토큰 비용	$2.50 / $15 per M	$30 / $180 per M (12배)

(출처: OpenAI API Docs, OpenAI Help Center)

벤치마크 비교

흥미로운 점은 Pro가 모든 분야에서 Thinking을 앞서는 것이 아니라는 것이다. 일상 지식 업무에서는 Thinking이 오히려 우세하다.

벤치마크	GPT-5.2	Thinking 5.4	Pro 5.4
GDPval (44개 직종 지식 업무)	70.9%	83.0% ✓	82.0%
ARC-AGI-2 (추상 추론)	—	73.3%	83.3% ✓
BrowseComp (멀티소스 웹 리서치)	—	82.7%	89.3% ✓
OSWorld-Verified (컴퓨터 조작)	47.3%	75.0% ✓	—
SWE-bench Pro (소프트웨어 엔지니어링)	—	57.7% ✓	—

✓ = 해당 카테고리 최고 성능 | — = 2026-03-06 기준 공식 벤치마크 미공개 (기능 미지원이 아님) | OSWorld 인간 기준선 72.4% (GPT-5.4 Thinking이 최초 초과)

(출처: The Decoder, OpenAI 공식 발표)

어떤 티어를 선택해야 하나?

Thinking 5.4를 선택하는 경우

추론 경로를 직접 확인하고 감사(Audit)하고 싶을 때
여러 소스를 종합하는 심층 리서치
멀티스텝 코딩, 디버깅, 리팩토링 — 로직 투명성이 중요한 작업
모델이 계획을 제시하면 중간에 방향을 수정하고 싶을 때
비용이 중요할 때: Pro 대비 12배 저렴하면서 일반 업무에서 동등하거나 우세

Pro 5.4를 선택하는 경우

추상 추론 퍼즐, 프런티어 논리 도전 과제 (ARC-AGI-2 수준)
수십 개 출처를 철저히 종합하는 심층 웹 리서치 (BrowseComp 수준)
법률, 금융, 과학 문서 분석 — 오류 비용이 극히 높은 작업
실패 비용이 높은 프로덕션 에이전트 워크플로우
비용보다 최대 성능이 절대적으로 필요한 경우

개발자를 위한 하이브리드 패턴

커뮤니티에서 권장하는 전략: Pro를 라우팅 및 복잡한 태스크 분해에 사용하고, 병렬화 가능한 하위 태스크는 Thinking이나 표준 GPT-5.4에 위임해 비용을 제어하는 방식이다.

4. 구독 플랜별 접근 권한

구독 플랜	Instant 5.3	Thinking 5.4	Pro 5.4
Free	O	X	X
Plus ($20/월)	O	O	X
Team	O	O	X
Pro ($200/월)	O	O	O
Enterprise	O	O	O

(출처: OpenAI Help Center)

5. API 활용 가이드

모델 이름 및 엔드포인트

GPT-5.4 API에서는 아래 모델명을 사용한다:

# Chat Completions API + Responses API 공용
gpt-5.4             # Thinking 5.4 — Chat Completions + Responses API 모두 지원
gpt-5.3             # Instant 5.3 — 기본 빠른 응답

# Responses API 전용 (에이전트 워크플로우)
gpt-5.4-pro         # Pro 5.4 — Responses API 전용 (Chat Completions 미지원)

* gpt-5-chat-latest(Auto 라우팅 별칭)는 커뮤니티 보고 기준 정보이며, 공식 API 문서에서의 확인이 필요합니다.

중요: gpt-5.4-pro는 Chat Completions API 미지원

gpt-5.4-pro는 Responses API 전용이다. 기존 /v1/chat/completions 엔드포인트로는 사용할 수 없다. 에이전트 워크플로우 설계 시 반드시 Responses API (/v1/responses)로 마이그레이션이 필요하다.

Chat Completions → Responses API 마이그레이션

기존 코드에서 달라지는 핵심 부분만 정리한다:

# Before: Chat Completions (gpt-5.4 only)
response = openai.chat.completions.create(
    model="gpt-5.4",
    messages=[{"role": "user", "content": "분석해줘"}],
    temperature=0.7  # reasoning 모드에서는 사용 불가
)
result = response.choices[0].message.content

# After: Responses API (gpt-5.4-pro 포함 모든 모델)
response = openai.responses.create(
    model="gpt-5.4-pro",  # 또는 "gpt-5.4"
    reasoning={"effort": "high"},  # temperature 대신
    input=[{"role": "user", "content": "분석해줘"}]
)
result = response.output[0].content[0].text  # 응답 구조 변경됨

* openai Python SDK v1.x 기준. 최신 SDK 사용법은 공식 API 레퍼런스에서 확인.

reasoning.effort 파라미터

GPT-5.4의 추론 깊이는 reasoning.effort 파라미터로 제어한다. GPT-5.4에서 새롭게 추가된 xhigh 레벨은 gpt-5.4와 gpt-5.4-pro 모두 지원한다. 단, none과 low는 gpt-5.4-pro에서는 사용할 수 없다.

import openai

response = openai.responses.create(
    model="gpt-5.4",
    reasoning={"effort": "high"},  # none | low | medium | high | xhigh
    input=[
        {
            "role": "user",
            "content": "복잡한 코드베이스를 분석해줘"
        }
    ]
)

effort 값	설명	적용 티어
`none`	추론 없음, 최저 레이턴시. temperature 등 파라미터 사용 가능	gpt-5.4 (pro 미지원)
`low`	경량 추론	gpt-5.4 (pro 미지원)
`medium / high`	중·심층 추론 (Thinking 기본: high)	gpt-5.4, gpt-5.4-pro
`xhigh`	GPT-5.4 신규. 예산 무제한 Heavy 모드	gpt-5.4, gpt-5.4-pro

파라미터 호환성 주의

temperature, top_p, logprobs는 reasoning.effort = "none"일 때만 사용할 수 있다. 추론 모드에서는 대신 text.verbosity와 max_output_tokens를 사용해야 한다.

API 가격표

(출처: openai.com/api/pricing, 2026-03-06 기준 — 최신 가격은 공식 페이지에서 확인)

모델	입력 (per 1M)	캐시 입력 (per 1M)	출력 (per 1M)
`gpt-5.2` (참고용)	$1.75	$0.175	$14.00
`gpt-5.4` (Thinking)	$2.50	$0.25	$15.00
`gpt-5.4-pro`	$30.00	—	$180.00

* 272K 토큰 초과 구간: 정상 요금의 2배 과금 적용 (공식 문서 기준)

실전 비용 시뮬레이션

가격표만 보면 막연하다. 실제 에이전트 워크플로우 시나리오로 월간 비용을 추정해보자.

시나리오: 하루 50건 에이전트 태스크 (평균 입력 8K 토큰 + 출력 1.5K 토큰)

전략	건당 비용	일간	월간 (30일)
Thinking 5.4 전용 (`gpt-5.4`)	$0.042	$2.10	~$63
Pro 5.4 전용 (`gpt-5.4-pro`)	$0.51	$25.50	~$765
하이브리드 (Pro 10% + Thinking 90%)	$0.089	$4.45	~$134

* 입력 8K × $2.50/M + 출력 1.5K × $15/M 기준. Tool Search 적용 시 토큰 최대 47% 절감 가능 → 실제 비용은 더 낮을 수 있음. 추정치이므로 실제 워크플로우로 직접 측정 권장.

6. 사용 사례

에이전트 업무 자동화

GPT-5.4의 컴퓨터 사용과 Tool Search를 결합하면, 이전에는 수동으로 해야 했던 반복 작업을 완전 자동화할 수 있다.

회계 자동화: "이번 달 Quicken 장부 정리해줘" → 앱 실행, UI 탐색, 입력, 저장까지 자율 처리
투자은행 모델링: Excel/Google Sheets에서 DCF 모델 구성 및 민감도 분석 자동화
멀티스텝 웹 리서치: 수십 개 출처를 자율 탐색하고 보고서 생성

자율 쇼케이스: GPT-5.4가 실제로 만든 것들

GPT-5.4 출시와 함께 공개된 실제 데모 사례들이다. 모두 AI가 단독으로 설계부터 배포까지 수행했다.

프로젝트	소요 시간	핵심 포인트
시티 제너레이터 (City Generator)	~1시간	SoloBot이 7단계 이상 계획 수립 → 자율 실행. 화면 캡처로 UI를 직접 분석해 "하늘 비중이 너무 크다"는 문제를 스스로 파악하고 수정
비행 시뮬레이터	~3시간	단 한 번의 프롬프트 → 로컬 개발 + 웹 서버 배포까지 완결. "이전 모델에서는 이처럼 많은 단계를 밟지 않았다"
3D 체스 Electron 앱	—	유리·대리석 질감 구현 + KUA로 기물 직접 드래그하며 캐슬링 규칙까지 검증. 빌드-테스트 루프를 스스로 완결
커피숍 웹사이트 (낸시 사례)	—	디자인 시안 분석 → 최적 이미지 4개 병렬 생성 → KUA로 원본과 결과물 시각 비교. 코딩 지식 없는 사용자도 완성
Gmail 자동화	수초 이내	첫 번째 이메일 분석 → 특정 주소로 답장 전송 완료. "제대로 실행되는지 보기도 전에" 완료될 만큼 빠름

⚠️ 위 사례는 OpenAI 공식 쇼케이스 및 커뮤니티 데모 기반 (Level 2–3). 재현 결과는 환경에 따라 다를 수 있음.

고급 코딩 워크플로우

Codex에서 GPT-5.4의 build-run-verify-fix 루프를 활용한 완전 자율 코딩 에이전트:

# Responses API를 이용한 에이전트 루프 예시
response = openai.responses.create(
    model="gpt-5.4",
    reasoning={"effort": "high"},
    tools=[
        {"type": "computer_use"},
        {"type": "code_interpreter"},
    ],
    input=[{
        "role": "user",
        "content": "이 Python 코드를 테스트하고 버그를 찾아 수정해줘"
    }]
)

엔터프라이즈 적용 사례

Fortune 보도에 소개된 기업 활용 사례 (2차 출처 — OpenAI 공식 발표에서 직접 인용 미확인):

법률 AI 기업 Harvey: BigLaw Bench 평가에서 91% 달성 — 로펌 수준의 법률 문서 분석
재산세 자동화 기업 Mainstay: GPT-5.2 대비 에이전트 약 3배 빠르게 실행, 토큰 사용량 약 70% 절감

(출처: Fortune — 기업별 직접 확인 권장)

지금 바로 해보기: ChatGPT & Codex 실습 프롬프트

글만 읽는 것보다 직접 해보는 게 가장 빠른 학습이죠. 아래 프롬프트를 복사해서 바로 실행해보세요. ChatGPT 사용자와 Codex 개발자를 위한 실습을 각각 준비했습니다.

Part A: ChatGPT에서 해보기 (Plus 플랜 이상, Thinking 5.4 사용)

모델: Thinking 5.4 vs Pro 5.4

예시 1 - 싱글 프롬프트 게임 만들기

프롬프트 하나로 완성된 게임이 나오는지 확인해보세요. GPT-5.4의 코딩 통합 능력을 가장 직관적으로 체험할 수 있습니다.

테마파크 경영 시뮬레이션 게임을 만들어줘.
조건:
- HTML + JavaScript 단일 파일로 완성
- 건물 배치, 방문객 수, 수익 계산 포함
- 버그 없이 바로 실행 가능하게

캡처 포인트: AI가 한 번에 완성된 코드를 생성하는지, 그리고 실제로 브라우저에서 바로 실행되는지 확인해보세요.

ex) 5.4 Thinking

- 미리 보기 버튼이 비활성화 되어 있고, 소스를 생성중에 변경할 내용이 있다면 후속 질문을 보내보라고 하고 있다.

- 싱글프롬프트 기준으로 그래도 완성이 되는 모습은 경이???롭다. Thinking 5.4모델은 생각 보다 금방 완성되었다.

ex) 5.4 Pro

- pro는 좀더 사고과정을 신중하게 가져가는 모습으로 보인다.

- 소스생성을 하지 않고 한참동안 Thinking 과정을 진행한다.

- 54분째 작업을 진행하며, 아직 검토중이다. 싱글 프롬프트에 이정도라면................................. 게임 한번 찍어내볼까? 라는 생각도 들기 시작하였다.

- 완료된 게임의 모습

- 1시간 넘게 데충요청한 게임을 만들게 한게 너무 미안 하였다.

게임 챌린지 모음 — 싱글 프롬프트로 얼마나 만들 수 있을까?

아래 프롬프트를 하나씩 붙여넣고, GPT-5.4가 어디까지 완성하는지 직접 확인해보자.

나또한

모두 HTML + JavaScript 단일 파일로 요청하는 방식이라 별도 설치 없이 브라우저에서 바로 실행됩니다.

모델: Pro 5.4

비행기 슈팅 게임

고전 아케이드 감성의 종스크롤 슈팅 게임. 적기 패턴과 점수 시스템까지 한 번에 잡아줍니다.

HTML + JavaScript로 종스크롤 비행기 슈팅 게임을 만들어줘.
- 플레이어 비행기: 방향키로 이동, 스페이스바로 총알 발사
- 적 비행기: 위에서 랜덤하게 등장, 점점 빨라짐
- 점수판, 목숨 3개, 게임오버 화면 포함
- 단일 HTML 파일로 완성

- 미사일, 동작, 점수, 목숨 모든 기능이 잘 동작한다. (21분 소요)

모델: Pro 5.4

공룡 달리기 게임

Chrome 오프라인 공룡 게임 스타일. 점프 타이밍 게임의 클래식입니다.

Chrome 공룡 게임처럼 옆으로 달리는 점프 게임을 만들어줘.
- 스페이스바나 클릭으로 점프
- 장애물(선인장, 새)이 오른쪽에서 랜덤 등장
- 점수가 올라갈수록 속도 증가
- 픽셀 아트 느낌의 캐릭터, 단일 HTML 파일

ex)

모델: Pro 5.4

벽돌 깨기 게임

마우스로 패들을 조작해 모든 벽돌을 없애는 고전 게임. 물리 반사 로직을 AI가 얼마나 정확하게 구현하는지 볼 수 있습니다.

Canvas로 벽돌 깨기 게임을 만들어줘.
- 마우스(또는 방향키)로 하단 패들 이동
- 상단에 색상별 벽돌 배열 (5행 x 10열)
- 공이 벽과 패들에서 정확히 반사
- 목숨 3개, 모든 벽돌 제거 시 클리어 화면
- 단일 HTML 파일

ex)

- 아쉬운점은 아이템이 없고, 다음 스테이지 등이 없지만, 싱글 프롬프트임에도 생각보다 부딪히는 각도에 따라 공의 움직임이 실제 벽돌깨기 만큼이나 퀄리티가 높았기때문에 만족스러웠고, 그나마 빨리 만든 게임 이었다.

- 열심히 gpt가 만들어준 게임인 만큼 clear해보았다.

모델: Pro 5.4

플래피 버드 스타일 게임

클릭 한 번으로 날갯짓, 파이프 사이를 통과하는 중독성 게임. 단순하지만 물리 구현이 까다롭습니다.

플래피 버드 스타일 게임을 만들어줘.
- 스페이스바나 클릭으로 위로 날갯짓
- 파이프 장애물이 랜덤 높이로 등장
- 중력 효과로 자연스럽게 아래로 떨어짐
- 파이프 통과 시 점수 획득, 충돌 시 게임오버
- 단일 HTML 파일

ex)

모델: Pro 5.4

테트리스

블록 회전·이동·쌓기까지 구현해야 하는 테트리스는 AI 코딩 능력의 리트머스 테스트입니다.

테트리스 게임을 만들어줘.
- 7종류 테트로미노 블록 (I, O, T, S, Z, J, L)
- 방향키로 이동·회전, 아래 방향키로 빠르게 낙하
- 한 줄 완성 시 제거 + 점수 획득
- 레벨 올라갈수록 낙하 속도 증가
- 다음 블록 미리보기, 단일 HTML 파일

ex) 하다보니 스페이스바로 한번에 떨어뜨리는 기능을 요청하지 않은게 후회되었지만, ...ㅎㅎㅎ

모델: Thinking 5.4

타워 디펜스 게임

적 경로 계산, 타워 배치, 업그레이드 시스템까지. 로직이 복잡한 장르라 AI가 한 번에 얼마나 구현하는지 도전해보세요.

타워 디펜스 게임을 만들어줘.
- 격자 맵에 타워를 클릭으로 배치
- 적들이 정해진 경로를 따라 이동
- 타워 3종류 (기본/속사/광역), 골드로 구매
- 적 처치 시 골드 획득, 기지에 적 도달 시 목숨 감소
- 웨이브 시스템 (점점 강해지는 적), 단일 HTML 파일

ex)

3D 게임 챌린지 — Three.js로 입체 세계 만들기

Three.js CDN을 활용하면 브라우저에서 3D 게임도 만들 수 있습니다. GPT-5.4가 라이브러리 import부터 3D 물리까지 한 번에 짜주는지 도전해보세요.

모델: Thinking 5.4

3D 공 굴리기 (Marble Roll)

기울어진 3D 플랫폼에서 공을 굴려 골인 지점까지 도달하는 게임. Three.js CDN으로 즉시 실행됩니다.

Three.js CDN을 사용해 3D 공 굴리기 게임을 만들어줘.
- WASD 또는 방향키로 공 이동
- 3D 플랫폼 위를 굴러다니는 구 물리
- 플랫폼 끝에서 떨어지면 리스폰
- 목표 지점(골인 구역)에 닿으면 클리어
- CDN import 포함 단일 HTML 파일

ex) 버그는 있지만 3d와 조작은 잘 동작한다.

모델: 5.4 Pro

3D 레이싱 게임

유튜브 쇼케이스에서 소개된 비행 시뮬레이터와 같은 방식의 물리 기반 차량 게임입니다. 커브 드리프트까지 구현해줄까요?

Three.js CDN으로 3D 레이싱 게임을 만들어줘.
- WASD로 차량 가속/후진/조향
- 원형/타원형 레이싱 트랙
- 카메라가 차량 뒤를 따라가는 3인칭 시점
- 랩 타임 측정, 최고 기록 저장
- 차량에 간단한 물리 효과 (관성, 코너링)
- CDN import 포함 단일 HTML 파일

모델: Thinking 5.4

예시 3 - PPT 한 번에 만들기

자료를 첨부하고 프롬프트 하나로 발표자료를 완성해보세요. 레이아웃의 전문성을 직접 확인할 수 있습니다.

[첨부 파일 내용]을 바탕으로 5페이지 발표자료를 만들어줘.
- 표지, 목차, 핵심 내용 3슬라이드 구성
- 전문적인 레이아웃으로
- 다운로드 가능한 PPTX 형식으로

Part B: Codex에서 해보기 (개발자 전용)

모델: Codex (GPT-5.4 기반)

예시 4 - 자율 앱 개발 (City Generator 방식)

Codex에게 3D 앱을 만들어달라고 요청하고, AI가 스스로 단계를 나누고 실행 후 화면을 보며 수정하는 과정을 관찰해보세요.

3D 도시 생성기를 만들어줘.
- Three.js 사용
- 랜덤으로 건물 배치 생성
- 카메라 회전/줌 기능 포함
- 완성되면 로컬 서버로 실행

ex) 너무 데충 프롬프트를 했지만, 그래도 3D 렌더링이 잘 되는 것 까진 볼 수 있었다.

- 생성 결과

모델: Codex (GPT-5.4, Computer Use 활성화)

예시 5 - 빌드-테스트 루프 체험

AI가 앱을 만들고, 직접 실행해서, 기물을 움직여 테스트까지 하는 완전한 자율 루프를 체험해보세요. Computer Use 기능이 활성화되어 있어야 합니다.

체스 게임을 Electron 앱으로 만들어줘.
- 3D 렌더링 (유리/대리석 질감)
- 모든 기물 이동 규칙 포함 (캐슬링 포함)
- 완성 후 직접 플레이해서 버그가 없는지 확인해줘

ex) 중간에 직접 오류 수정까지 완료하여 최종 렌더링 성공

- 결과 : 화면조정이 좀 필요하지만 3D 체스게임도 싱글프롬프트로 개발 가능하다.

싱글 프롬프트 게임을 직접 플레이해보자

위 챌린지를 직접 실행해보고 싶은데 환경 세팅이 번거롭다면? 싱글 프롬프트로 만든 9개의 게임을 웹에서 바로 플레이할 수 있도록 배포해두었습니다.

각 게임 페이지에서 원본 프롬프트 전문도 확인할 수 있습니다. 그대로 GPT-5.4에 붙여넣어 직접 재현해보세요.

실습 안내

실습 결과는 사용자 환경과 프롬프트 표현에 따라 다를 수 있습니다. 재미있는 결과가 나왔다면 커뮤니티에 공유해보세요! 같은 프롬프트라도 시도할 때마다 다른 결과가 나올 수 있으니, 여러 번 시도해보는 것도 좋은 방법입니다.

7. 알려진 제한사항 및 주의점

GPT-5.4를 본격적으로 쓰기 전에, 미리 알아두면 시행착오를 줄일 수 있는 제한사항들을 정리했습니다. 특히 Pro 5.4를 고려하시는 분들은 꼭 확인해주세요.

제한사항	상세	신뢰도
1M 컨텍스트 옵트인 필요	기본값은 272K. 명시적 API 파라미터 설정 필요	공식 문서 (Level 1)
긴 컨텍스트 신뢰도 저하	불필요한 정보를 채울수록 오히려 오답 증가	공식 문서 (Level 1)
컴퓨터 사용 완벽하지 않음	OSWorld 75% = 4회 중 1회는 실패	벤치마크 데이터 (Level 1)
Pro 5.4 기능 제한	Apps, Memory, Canvas, 이미지 생성 비활성	공식 Help Center (Level 1)
Pro 5.4 고비용	Thinking 대비 12배 — 일반 업무에서 비효율	공식 가격표 (Level 1)
gpt-5.4-pro Chat Completions 미지원	Responses API 전용, 기존 코드 마이그레이션 필요	공식 API 문서 (Level 1)
모델 드리프트 (Model Drift)	동일 모델 ID로 조용히 업데이트되어 동작 변화 가능. 프로덕션 회귀 테스트 필수	커뮤니티 피드백 (Level 3)
Pro 5.4 $200/월 — 비활성 기능 다수	Apps, Memory, Canvas, 이미지 생성 모두 비활성. $200을 냈는데 $20 Plus보다 쓸 수 있는 기능이 적다	공식 Help Center (Level 1)

모델 드리프트 — 개발자 대응 가이드

OpenAI는 동일 모델 ID(gpt-5.4) 하에서 조용히 모델을 업데이트하는 경우가 있다. 이는 오늘 테스트한 동작과 다음 주 프로덕션 동작이 달라질 수 있음을 의미한다. r/codex 개발자 커뮤니티에서는 이 문제에 대한 불만 목소리가 꾸준히 나온다: "GPT-5.4가 5.3 codex보다 나쁘다 — 내 의도를 계속 잘못 이해한다."

날짜 고정 버전 사용: 가능하다면 gpt-5.4-2026-03-05 같은 날짜 고정 버전으로 API를 호출할 것 (지원 여부는 공식 문서 확인)
회귀 테스트 추가: 중요 에이전트 워크플로우에는 동작 변화를 감지하는 자동화 테스트를 작성
API 게이트웨이 고려: 모델 전환을 config 한 줄로 처리할 수 있도록 추상 레이어를 두면 드리프트 대응이 쉬워진다

8. 모델 퇴역 일정

GPT-5.4 출시와 함께 OpenAI는 대규모 구형 모델 퇴역도 함께 발표했다.

GPT-5.2 Instant: 2026년 6월 3일 퇴역 (⚠️ 공식 문서 미확인 — 퇴역 전 공식 페이지에서 확인 권장)
GPT-5.2 Thinking: 2026년 6월 5일 퇴역
GPT-4o, GPT-4.1, GPT-4.1 mini, o4-mini: ChatGPT에서 단계적 퇴역 진행 중

(출처: Retiring GPT-4o and older models | OpenAI)

레거시 모델 사용자 행동 필요

GPT-5.2 기반 API를 사용 중이라면 2026년 6월 전에 GPT-5.4로 마이그레이션해야 한다. 특히 gpt-5.4-pro는 Responses API 전용이므로, 기존 Chat Completions 코드를 사전에 전환해두는 것이 좋다.

9. 한국어 사용자 주의사항

GPT-5.4는 출시 직후라 한국어 환경에서의 공식 벤치마크는 아직 공개되지 않았다. 다만 GPT-5.3 Instant 이후 개선된 내용과 GPT-5.4의 특성을 고려한 실용 가이드를 정리한다.

한국어 추론 품질

Thinking 5.4의 Preamble(계획 미리보기): 영어로 출력되는 경우가 있다. 한국어 응답이 필요하면 시스템 프롬프트에 "모든 응답은 한국어로 작성하라"를 명시하는 것이 좋다.
추론 토큰 언어: 내부 CoT(Chain-of-Thought) 토큰은 영어로 처리되어도 최종 응답은 한국어로 나온다. 추론 품질 자체는 언어에 관계없이 동일하다.
한국어 코딩 지시: 코드 주석, 변수명 등을 한국어로 요청할 수 있으며, GPT-5.4의 코딩 능력은 언어 무관하게 적용된다.

컴퓨터 사용 — 한국어 UI

한국어 UI 앱 자동화 — 추가 확인 필요

Computer Use 기능의 OSWorld 벤치마크는 영어 환경 기준이다. 한국어 UI를 사용하는 앱(한글 Windows, 한국어 웹사이트 등)에서의 성능은 공식 데이터가 없으므로 실제 사용 전 충분한 테스트가 필요하다.

API 활용 시 한국어 프롬프트 팁

# 한국어 응답 + 추론 품질 확보를 위한 시스템 프롬프트 예시
response = openai.responses.create(
    model="gpt-5.4",
    reasoning={"effort": "high"},
    input=[
        {
            "role": "system",
            "content": "You are a helpful assistant. Always respond in Korean."
        },
        {
            "role": "user",
            "content": "이 코드의 버그를 찾아서 수정해줘"
        }
    ]
)

10. 트러블슈팅 Q&A

Q. ChatGPT에서 Thinking 5.4가 보이지 않는다

A. Thinking 5.4는 Plus, Team, Pro, Enterprise 플랜에서만 사용 가능하다. Free 플랜은 Instant 5.3만 이용할 수 있다. 구독 플랜을 확인하거나 업그레이드가 필요하다.

Q. API에서 gpt-5.4-pro 호출 시 오류가 발생한다

A. gpt-5.4-pro는 Responses API 전용이다. /v1/chat/completions로 호출하면 오류가 발생한다. 반드시 /v1/responses 엔드포인트를 사용해야 한다. 기존 코드를 마이그레이션하지 않은 경우 gpt-5.4 (Thinking)를 사용하는 것이 빠른 대안이다.

Q. reasoning.effort를 설정해도 응답이 달라지지 않는 것 같다

A. temperature, top_p 같은 샘플링 파라미터와 reasoning.effort는 함께 사용할 수 없다. effort가 "none"이 아닌 경우 샘플링 파라미터를 제거해야 한다. 또한 응답 길이는 max_output_tokens로, 출력 상세도는 text.verbosity로 제어한다.

Q. 1M 토큰 컨텍스트가 활성화되지 않는다

A. 1M 컨텍스트는 기본이 아닌 옵트인이다. API 요청에 model_context_window와 model_auto_compact_token_limit 파라미터를 명시해야 한다. 또한 272K 초과 구간부터는 요금이 2배 적용되니 비용 계획을 먼저 세워야 한다.

Q. Pro 5.4에서 이미지 생성이 안 된다

A. 의도된 제한이다. Pro 5.4는 컴퓨팅 집약도가 높아 Apps, Memory, Canvas, 이미지 생성이 비활성화되어 있다. 이미지 생성이 필요하면 Thinking 5.4로 전환하거나 Auto 모드를 사용하면 된다.

Q. Windows에서 Codex 성능이 기대보다 낮다

A. Windows 네이티브 환경보다 WSL(Windows Subsystem for Linux) 환경에서 Codex를 구동할 것을 강력히 권장한다. 두 환경 간의 성능 격차는 실제 작업에서 체감할 수 있을 만큼 크다. GPT-5.4의 Computer Use 및 에이전트 루프 기능도 Linux 기반 환경에서 더 안정적으로 동작한다. WSL 설치 및 설정은 Microsoft 공식 WSL 문서를 참고하자.

11. 커뮤니티 반응과 실사용자 목소리

GPT-5.4 출시 전후, 개발자 커뮤니티와 일반 사용자들의 반응은 기술 지표만큼이나 중요한 신호다. 스레드(Threads), X.com, Reddit에서 확인된 주요 반응을 정리한다.

#QuitGPT 운동과 배경

출시 직전의 신뢰 위기

GPT-5.4 출시 3일 전인 2월 28일, OpenAI의 미 국방부(DoD) 계약 발표가 알려지면서 #QuitGPT 운동이 급속도로 확산됐다. 소셜 미디어에서 대규모 이탈 신호가 나타난 시점에, GPT-5.4는 기술적 성능이 아닌 신뢰 회복이 더 중요한 숙제인 상황에서 출시되었다.

Claude가 이 기간 동안 미국 App Store 1위를 기록 (GPT-5.4 출시 주간)
ChatGPT 앱 삭제 급증 보고 (커뮤니티 보고 기반, 독립 검증 필요)

⚠️ #QuitGPT 관련 수치는 주로 커뮤니티·언론 보도 기반 (Level 3). 독립적 검증 데이터 없음.

개발자 커뮤니티 반응 (r/codex, Hacker News)

긍정적 반응: 에이전트 기능에 집중

Computer Use + build-run-verify 루프: "드디어 진짜 에이전트가 됐다"는 반응 — Codex를 쓰던 개발자들에게 가장 큰 호응
Tool Search 47% 토큰 절감: 대형 MCP 생태계를 운영하는 팀들에서 실질적 비용 절감 가능성 평가
Claude vs GPT-5.4 코딩 비교: 에이전트 루프에서는 GPT-5.4, 코드 품질·문서화에서는 Claude가 앞선다는 개인 테스트 결과 다수

부정적 반응: 모델 드리프트와 Pro 기능 제한

모델 드리프트 불만: "GPT-5.4가 5.3 codex보다 훨씬 나쁘다 — 내 의도를 계속 잘못 이해한다" (r/codex 개발자 피드백)
Pro 5.4 기능 역설: "$200/월을 내는데 Apps, Memory, Canvas, 이미지 생성이 모두 안 된다" — $20 Plus 사용자보다 쓸 수 있는 기능이 적다는 불만
버전 피로감: Hacker News에서 "5.1, 5.2, 5.3, 5.4가 몇 주 만에 다 나왔다 — 무엇을 기준으로 써야 하나"라는 혼란 표출

⚠️ 커뮤니티 반응은 영어권 개발자 커뮤니티(r/codex, Hacker News, X.com) 기반이며, 표본 편향 가능. Level 3 정보로 참고용으로만 활용 권장.

커뮤니티 공통 선택 기준

에이전트/자동화 → GPT-5.4 (Computer Use, Tool Search, Context Compaction)
코드 품질·문서화 → Claude Opus 4.6 (SWE-bench 81%+, 128K 출력)
가성비 → Gemini 3.1 Pro ($2/$12 per M, 1M 네이티브 컨텍스트)
수학·과학 추론 → o4-mini 또는 GPT-5.4 Pro (ARC-AGI-2 83.3%)

⚠️ 공식 크로스 벤치마크 없음 — 커뮤니티·3차 출처 분석 기반 (Level 3). 실제 선택은 직접 테스트 권장.

12. 결론

경쟁 모델과의 포지셔닝

GPT-5.4 도입을 검토한다면 현재 시장에서의 위치를 이해하는 것이 중요하다.

GPT-5.4 vs Claude Opus 4.6: 컴퓨터 사용과 에이전트 루프는 GPT-5.4가 앞서며, 코드 품질과 자연스러운 문서 생성에서는 Claude가 경쟁력을 유지한다는 평가가 있다. 정확한 비교는 공식 크로스 벤치마크가 없으므로 용도별 직접 테스트가 필요하다.
GPT-5.4 vs Gemini 2.5 Pro: 초장문 문서 처리와 멀티모달 분석은 Gemini의 2M 컨텍스트가 강점이다. GPT-5.4는 에이전트 자동화와 코딩 통합에서 우위를 주장한다.
GPT-5.4 Pro vs o4-mini: o4-mini는 수학·과학 추론에 특화된 경량 추론 모델이다. GPT-5.4 Pro는 컴퓨터 사용·코딩·일반 업무까지 통합된 올라운더로 포지셔닝된다.

⚠️ 경쟁 모델 비교는 공식 크로스 벤치마크 부재로 3차 출처 분석 기반 (Level 3). 실제 선택은 구체적 사용 케이스로 직접 테스트 권장.

GPT-5.4는 단순한 버전 업그레이드가 아닙니다. 메인라인 모델이 처음으로 컴퓨터를 직접 조작하고, 코드를 스스로 실행하고 수정하는 완전한 에이전트로 진화했어요. OSWorld에서 인간 기준선을 넘은 건 상징적인 사건이지만, 4회 중 1회는 아직 실패한다는 현실도 함께 기억해야 합니다.

여러분에게 드리는 현실적인 조언은 간단합니다: Plus 구독으로 Thinking 5.4를 메인으로 쓰고, 진짜 어려운 작업에만 Pro 5.4를 선별적으로 활용하세요. GDPval 기준으로 일상 지식 업무에서는 Thinking이 Pro보다 오히려 앞선다는 걸 기억하시면, 비용 대비 효과를 극대화할 수 있습니다.

개발자분들이 가장 주목하셔야 할 건 Tool Search와 Context Compaction입니다. 토큰 비용 47% 절감에 긴 에이전트 루프의 안정성 확보까지 — 이 두 가지가 실제 프로덕션 에이전트의 비용 구조를 바꿀 수 있는 핵심 변화예요. 지금이 바로 기존 워크플로우를 다시 점검하고, GPT-5.4에 맞게 최적화해볼 타이밍입니다.

GPT-5.4 핵심 요약

Instant 5.3 — 빠른 일상 대화, 무료 포함 전 플랜
Thinking 5.4 — 추론 투명성 + 비용 효율, Plus 이상
Pro 5.4 — 추상 추론 + 심층 리서치 최강, Pro/Enterprise 전용
6가지 신기능 — 컴퓨터 사용, 1M 컨텍스트, Tool Search, 컴팩션, 코딩 통합, 비즈니스 워크플로우
API 핵심 — gpt-5.4-pro는 Responses API 전용, reasoning.effort에 xhigh 추가

저작자표시 비영리 변경금지 (새창열림)

'AI > ChatGPT(Codex)' 카테고리의 다른 글

free-code 설치 및 사용 방법 : OpenAI Codex를 Claude Code 터미널 감각으로 붙이는 법 (3)	2026.04.12
OpenAI Codex 서브에이전트 - awesome-codex-subagents : 136개 Codex SubAgents 모음( TOML 에이전트 컬렉션 ) (1)	2026.03.28
gpt5.3codex 출시 리뷰 - 신규 기능, 벤치마크, 시장 반응, 개발자 후기 등 (vs Opus 4.6: AI 코딩 전쟁) (2)	2026.02.06
GPT-5.2-Codex 사용법과 주의사항 - 24시간 자율 코딩과 보안 취약점 탐지 (2025), AI 코딩 모델 비교 등 (0)	2025.12.22
GPT Image 1.5 리뷰 - OpenAI '코드 레드' 전략의 결과물 (4배 속도, 20% 저렴, Disney 협업) (2)	2025.12.17

Contents

GPT-5.4 출시 리뷰 - 신규 기능, 벤치마크, 시장 반응, Pro 5.4 vs Thinking 5.4, 실제로 얼마나 다를까? 비교 분석

목차

1. GPT-5.4란 무엇인가

출시 배경 및 일정

세 가지 티어 한눈에 보기

2. GPT-5.4의 7가지 핵심 신기능

1) 컴퓨터 사용 (Computer Use) — 업계 최초 메인라인 탑재

2) 100만 토큰 컨텍스트 (1M Token Context)

3) Tool Search — 토큰 47% 절감

4) 컨텍스트 컴팩션 (Context Compaction)

5) 코딩 통합 — GPT-5.3-Codex 흡수

6) 비즈니스 워크플로우 개선

7) 스티어빌리티 (Steerability) — 생각 도중 실시간 방향 수정

3. Thinking 5.4 vs Pro 5.4 비교

추론 메커니즘 차이

벤치마크 비교

어떤 티어를 선택해야 하나?

4. 구독 플랜별 접근 권한

5. API 활용 가이드

모델 이름 및 엔드포인트

Chat Completions → Responses API 마이그레이션

reasoning.effort 파라미터

API 가격표

실전 비용 시뮬레이션

6. 사용 사례

에이전트 업무 자동화

자율 쇼케이스: GPT-5.4가 실제로 만든 것들

고급 코딩 워크플로우

엔터프라이즈 적용 사례

지금 바로 해보기: ChatGPT & Codex 실습 프롬프트

Part A: ChatGPT에서 해보기 (Plus 플랜 이상, Thinking 5.4 사용)

예시 1 - 싱글 프롬프트 게임 만들기

게임 챌린지 모음 — 싱글 프롬프트로 얼마나 만들 수 있을까?

비행기 슈팅 게임

공룡 달리기 게임

벽돌 깨기 게임

플래피 버드 스타일 게임

테트리스

타워 디펜스 게임

3D 게임 챌린지 — Three.js로 입체 세계 만들기

3D 공 굴리기 (Marble Roll)

3D 레이싱 게임

예시 3 - PPT 한 번에 만들기

Part B: Codex에서 해보기 (개발자 전용)

예시 4 - 자율 앱 개발 (City Generator 방식)

예시 5 - 빌드-테스트 루프 체험

싱글 프롬프트 게임을 직접 플레이해보자

7. 알려진 제한사항 및 주의점

8. 모델 퇴역 일정

9. 한국어 사용자 주의사항

한국어 추론 품질

컴퓨터 사용 — 한국어 UI

API 활용 시 한국어 프롬프트 팁

10. 트러블슈팅 Q&A

Q. ChatGPT에서 Thinking 5.4가 보이지 않는다

Q. API에서 gpt-5.4-pro 호출 시 오류가 발생한다

Q. reasoning.effort를 설정해도 응답이 달라지지 않는 것 같다

Q. 1M 토큰 컨텍스트가 활성화되지 않는다

Q. Pro 5.4에서 이미지 생성이 안 된다

Q. Windows에서 Codex 성능이 기대보다 낮다

11. 커뮤니티 반응과 실사용자 목소리

#QuitGPT 운동과 배경

개발자 커뮤니티 반응 (r/codex, Hacker News)

커뮤니티 공통 선택 기준

12. 결론

경쟁 모델과의 포지셔닝

'AI > ChatGPT(Codex)' 카테고리의 다른 글

당신이 좋아할만한 콘텐츠

티스토리툴바