GPT-5.4 출시 리뷰 - 신규 기능, 벤치마크, 시장 반응, Pro 5.4 vs Thinking 5.4, 실제로 얼마나 다를까? 비교 분석
- -
안녕하세요! 갓대희 입니다.
솔직히 말해볼게요. 요즘 AI 모델 출시 뉴스에 피로감을 느끼시는 분들 많으시죠? GPT-5.1, 5.2, 5.3… 그리고 3월 5일, GPT-5.4. 이틀 간격으로 버전이 연속 출시되는 OpenAI의 속도전에 지치는 건 자연스러운 반응입니다. 하지만 이번은 진짜 강력하다고 생각이 되었다. (진심이다.)

메인라인 모델이 처음으로 컴퓨터를 직접 조작하게 됐고, OSWorld에서 인간 기준선(72.4%)을 처음으로 넘어섰습니다(75.0%).
모델 선택 화면에도 세 개의 티어가 새로 등장했어요: Instant 5.3, Thinking 5.4, Pro 5.4.
오늘은 "이번 업데이트, 과연 써볼 만한 건가?"라는 관점에서 각 티어를 어떤 상황에서 어떻게 활용하면 좋을지 함께 정리해보겠습니다.
목차
- GPT-5.4란 무엇인가
- 출시 배경 및 일정
- 세 가지 티어 한눈에 보기
- GPT-5.4의 7가지 핵심 신기능
- 컴퓨터 사용 (Computer Use)
- 100만 토큰 컨텍스트
- Tool Search
- 컨텍스트 컴팩션
- 코딩 통합
- 비즈니스 워크플로우
- 스티어빌리티 (Steerability)
- Thinking 5.4 vs Pro 5.4 심층 비교
- 추론 메커니즘 차이
- 벤치마크 비교
- 어떤 티어를 선택해야 하나
- 구독 플랜별 접근 권한
- API 활용 가이드
- 모델 이름 및 엔드포인트
- reasoning.effort 파라미터
- API 가격표
- 실전 사용 사례
- 에이전트 업무 자동화
- 고급 코딩 워크플로우
- 엔터프라이즈 적용 사례
- 지금 바로 해보기: ChatGPT & Codex 실습 프롬프트
- 알려진 제한사항 및 주의점
- 모델 퇴역 일정
- 한국어 사용자 주의사항
- 트러블슈팅 Q&A
- 커뮤니티 반응과 실사용자 목소리
- #QuitGPT 운동과 배경
- 개발자 커뮤니티 반응
- 커뮤니티 공통 선택 기준
- 결론
GPT-5.4는 2026년 3월 5일 출시된 OpenAI의 최신 메인라인 모델이다.
Thinking 5.4와 Pro 5.4 두 티어로 제공되며, 업계 최초로 컴퓨터 사용(Computer Use)을 기본 탑재했다.
OSWorld 벤치마크에서 인간 기준선(72.4%)을 초과(75.0%)한 첫 OpenAI 메인라인 모델이기도 하다.
GPT-5.4는 단순한 버전 업그레이드 타이밍에 출시된 게 아닙니다. ChatGPT MAU 성장이 캐즘(Chasm, 초기 사용자와 대중 사이의 채택 정체 구간) 국면에 진입했다는 분석이 나오고, OpenAI의 빠른 업데이트 주기가 오히려 신뢰 문제를 만들고 있는 시점이에요.
- 캐즘 국면이란? 초기 열성 사용자는 이미 충성도가 높지만, 다음 단계인 일반 대중 채택이 정체되는 구간을 말합니다. "또 새 모델이야?" 하는 피로감이 이 단계의 대표적인 특징이에요.
- 빠른 업데이트 = 양날의 검: 5.1 → 5.2 → 5.3 → 5.4가 수 주 간격으로 출시되면서, 프로덕션 환경에서 모델 드리프트(Model Drift, 같은 모델 ID인데 내부가 조용히 바뀌는 현상) 문제가 현실화되고 있습니다.
- GPT-5.4의 응답: 할루시네이션(Hallucination, AI가 사실이 아닌 정보를 생성하는 현상) 33% 감소, 오류 응답 18% 감소를 공식 수치로 제시하며 "신뢰성 회복"을 핵심 메시지로 내세운 배경이 있습니다.
이 맥락을 이해하면 각 기능이 왜 이 시점에 나왔는지가 더 명확해집니다.
1. GPT-5.4란 무엇인가
출시 배경 및 일정
GPT-5.4는 2026년 3월 5일 공식 출시된 OpenAI의 플래그십 메인라인 모델이다. 2일 전인 3월 3일에 먼저 GPT-5.3 Instant를 출시하며 분위기를 달군 뒤, "5.4 sooner than you think"라는 예고 트윗이 3백만 뷰를 기록하며 주목받았다.
GPT-5.4는 별도의 신규 모델을 추가하는 방식이 아니라, 동일한 GPT-5.4 기반 모델 위에서 추론 깊이와 컴퓨팅 투자 수준을 다르게 설정한 티어 시스템이다. 즉, 같은 엔진을 어느 기어로 달리느냐의 차이다.
| 날짜 | 이벤트 |
|---|---|
| 2026-03-03 | GPT-5.3 Instant 출시 (전 플랜 사용자) |
| 2026-03-05 | GPT-5.4 공식 발표 (ChatGPT + API + Codex) |
| 2026-03-06 | GPT-5.4 전체 롤아웃 완료 |
| 2026-06-03 | GPT-5.2 Instant 서비스 종료 |
| 2026-06-05 | GPT-5.2 Thinking 서비스 종료 |
(출처: Introducing GPT-5.4 | OpenAI, Retiring older models | OpenAI)
세 가지 티어 한눈에 보기
ChatGPT 모델 선택 화면에는 이제 아래 세 가지가 표시된다:
| ChatGPT 표시명 | 설명 | API 모델명 | 접근 플랜 |
|---|---|---|---|
| Instant 5.3 | 즉시 대답. 빠른 일상 대화 | gpt-5.3 |
무료 포함 전체 |
| Thinking 5.4 | 좋은 답변을 위해 더 오래 생각. 추론 강화 | gpt-5.4 |
Plus, Team, Pro, Enterprise |
| Pro 5.4 | 리서치급 인텔리전스. 최대 성능 | gpt-5.4-pro |
Pro ($200/월), Enterprise 전용 |
(출처: help.openai.com, OpenAI API Docs)

ChatGPT 모델 선택 화면 최상단의 Auto 옵션은 라우팅 레이어이다.
질문의 복잡도를 감지해 Instant 5.3과 Thinking 5.4 중 자동으로 선택해 응답한다.
API 상에서는 gpt-5-chat-latest로 매핑된다.
2. GPT-5.4의 7가지 핵심 신기능
1) 컴퓨터 사용 (Computer Use) — 업계 최초 메인라인 탑재
이번에 가장 놀라운 변화는 바로 이겁니다. GPT-5.4가 메인라인 모델 최초로 컴퓨터 사용 기능을 기본 탑재했어요. Claude의 Computer Use와 비슷한 개념이라고 보시면 됩니다.
AI가 직접 마우스를 클릭하고, 키보드를 입력하고, 브라우저를 조작할 수 있게 된 거예요.
- OSWorld-Verified 벤치마크: 75.0% — 인간 기준선 72.4%를 초과한 첫 OpenAI 모델 (GPT-5.2 대비 47.3%에서 급등)
- build-run-verify-fix 루프 실행: Codex에서 코드를 작성하고, 실행하고, 결과를 보고, 자체 수정하는 완전한 에이전트 루프
- 별도 도구 불필요: 이전에는 Operator 제품이나 별도 스캐폴딩이 필요했던 작업을 단일 모델 호출로 처리
이전 모델(GPT-5.3 Codecs)은 작업할 때마다 새로운 환경을 구축(Stateless)해야 했다. GPT-5.4는 OS의 상태와 작업 맥락을 그대로 유지하는 지속적(Persistent) KUA 환경을 제공한다.
- 단기 기억 확보: 이전 작업을 기억하며 자연스럽게 다음 단계로 이어짐
- 토큰 사용량 2/3 절감: OpenAI 발표 기준 — 매번 환경을 새로 설명할 필요가 없어지기 때문 (Tool Search의 47% 절감과 별도 효과)
PCWorld 보도에 따르면: "Quicken에서 장부를 정리해줘"라고 요청하면 — 앱을 실행하고, UI를 탐색하고, 작업을 완료한다. 노코드 에이전트 자동화의 새 시대다.
(출처: Introducing GPT-5.4 | OpenAI, PCWorld)
2) 100만 토큰 컨텍스트 (1M Token Context)
한 번에 얼마나 많은 정보를 넣을 수 있느냐, 이게 실무에서는 정말 중요한 문제인데요. GPT-5.4는 최대 100만 토큰 컨텍스트를 지원합니다. 전체 코드베이스, 수백 페이지의 법률 문서, 대규모 데이터셋을 단일 요청으로 처리할 수 있어요.
1M 컨텍스트는 기본이 아니다. API에서 model_context_window와 model_auto_compact_token_limit 파라미터를 명시적으로 설정해야 활성화된다. 또한 272K 토큰 초과 구간부터는 정상 요금의 2배 과금이 적용된다.
- API 기본: 272K 토큰 (공식 확인)
- API 1M 옵트인: 1,050,000 토큰 (실험적, 공식 확인)
- ChatGPT 플랜별 컨텍스트: 플랜에 따라 상이 — 최신 정보는 공식 Help Center에서 확인 권장
OpenAI 공식 Codex 가이드는 "불필요하거나 부정확한 컨텍스트를 채우면 오히려 신뢰도가 낮아진다"고 명시하고 있다. 관련성 높은 정보만 선별해 넣는 것이 핵심이다.
(출처: OpenAI Community 공식 딥다이브)
3) Tool Search — 토큰 47% 절감
API 비용이 걱정되는 분들이라면 이 기능에 주목해주세요. 에이전트 워크플로우(AI가 여러 도구를 연결해 자동으로 작업하는 흐름)에서 가장 중요한 새 기능 중 하나입니다. 모든 도구 정의를 한 번에 로드하는 대신, 필요할 때만 검색해서 로드하는 방식이에요.
- MCP Atlas 벤치마크 250개 태스크: 동일 정확도에서 토큰 사용량 47% 절감
- 대형 도구 생태계에 특히 효과적: 수십~수백 개의 MCP 도구를 쓰는 에이전트에서 비용 절감 효과 극대화
- 순 API 비용 감소 효과: 토큰당 단가는 GPT-5.2보다 올랐지만, Tool Search로 실제 사용 토큰이 줄어 총비용은 크게 증가하지 않을 수 있음
(출처: OpenAI Community 공식 딥다이브)
4) 컨텍스트 컴팩션 (Context Compaction)
AI와 긴 대화를 나누다 보면 "아까 말한 거 왜 까먹었어?"라는 경험, 다들 있으시죠? GPT-5.4는 긴 에이전트 실행 이력을 유지하는 최초의 메인라인 OpenAI 모델입니다. 이전 모델들은 긴 멀티턴(여러 차례 주고받는) 에이전트 체인에서 앞부분 맥락이 점차 사라지는 문제가 있었어요.
- 에이전트 궤적(Trajectory) 유지: 수백 단계를 거치는 자율 에이전트에서도 초기 목표와 맥락 유지
- Responses API 통합:
previous_response_id체이닝으로 멀티턴 에이전트 상태 유지 — Compaction은 이전 컨텍스트를 암호화된 압축 아이템으로 요약해 다음 턴에 전달 (원시 CoT 토큰을 그대로 전달하는 방식이 아님)
5) 코딩 통합 — GPT-5.3-Codex 흡수
개발자분들에게 반가운 소식이에요. GPT-5.3-Codex의 프런티어(Frontier, 최첨단) 코딩 능력이 GPT-5.4 메인라인에 통합되었습니다. 이제 별도 Codex 모델을 따로 쓸 필요가 없어요.
- SWE-bench Pro: 57.7% (출처: OpenAI 공식 발표)
- o3 대비 22% 적은 출력 토큰, 45% 적은 도구 호출 (출처: Medium, GPT-5 vs o3 비교 분석 — 공식 미확인, 참고용)
6) 비즈니스 워크플로우 개선
회사에서 AI를 업무에 쓰고 계신 분들이라면 이 부분이 체감될 겁니다. 엔터프라이즈 환경을 겨냥한 실용적 개선들이에요.
- 스프레드시트·문서 분석 성능 향상 — 투자은행 수준 스프레드시트 모델링 포함 (정확한 벤치마크 수치는 공식 발표 확인 필요)
- Microsoft Excel / Google Sheets 금융 플러그인: 회계, 재무 분석 작업 자동화
- 오류율 감소: 개별 사실 오류 33% 감소, 오류 포함 전체 응답 18% 감소 (vs GPT-5.2) (출처: OpenAI 공식 발표)
(출처: Introducing GPT-5.4 | OpenAI, VentureBeat)
7) 스티어빌리티 (Steerability) — 생각 도중 실시간 방향 수정
AI가 한참 생각하고 있는데, "아 그 방향 아닌데..."라고 느낀 적 있으시죠? GPT-5.4에서 새롭게 도입된 스티어빌리티(Steerability, 방향 전환 기능)는 AI가 답변을 생성(Thinking)하는 도중에 사용자가 개입해서 즉시 방향을 수정할 수 있는 기능입니다.
AI가 현재 위치를 기반으로 날씨를 조사하는 '생각' 도중, 사용자가 "캘리포니아 기준으로 바꿔줘"라고 말하면 — AI는 즉시 논리 회로를 변경해 새로운 기준으로 응답한다.
- 긴 작업에서 특히 강력: 코딩처럼 오래 걸리는 작업이 잘못된 방향으로 흐르기 전에 "A 방식이 아닌 B 방식으로 해줘"라고 중간 수정 가능
- 시행착오 대폭 감소: 전체 결과를 받은 뒤 다시 프롬프트를 쓰는 낭비 없이, 작업 중간에 실시간 협업 가능
- ChatGPT UI + API 모두 지원: Thinking 5.4에서 Preamble(계획 미리보기)과 함께 활용하면 최적
3. Thinking 5.4 vs Pro 5.4 비교
추론 메커니즘 차이
두 티어는 같은 GPT-5.4 기반 모델이지만, 추론에 투입하는 컴퓨팅 예산과 제한의 차이가 본질적인 구분이다.
| 항목 | Thinking 5.4 | Pro 5.4 |
|---|---|---|
| 추론 깊이 | high (최대 깊이에서 타임아웃 가능) | xhigh (예산 무제한) |
| 컴퓨팅 예산 캡 | 있음 (Heavy 제외) | 없음 (항상 Heavy) |
| Preamble (계획 미리보기) | 제공 (중간 개입 가능) | 제공 |
| Apps, Memory, Canvas | 사용 가능 | 비활성 (컴퓨팅 집약도 때문) |
| 이미지 생성 | 가능 | 비활성 |
| API 엔드포인트 | Chat Completions + Responses API | Responses API 전용 |
| API 토큰 비용 | $2.50 / $15 per M | $30 / $180 per M (12배) |
(출처: OpenAI API Docs, OpenAI Help Center)
벤치마크 비교
흥미로운 점은 Pro가 모든 분야에서 Thinking을 앞서는 것이 아니라는 것이다. 일상 지식 업무에서는 Thinking이 오히려 우세하다.
| 벤치마크 | GPT-5.2 | Thinking 5.4 | Pro 5.4 |
|---|---|---|---|
| GDPval (44개 직종 지식 업무) | 70.9% | 83.0% ✓ | 82.0% |
| ARC-AGI-2 (추상 추론) | — | 73.3% | 83.3% ✓ |
| BrowseComp (멀티소스 웹 리서치) | — | 82.7% | 89.3% ✓ |
| OSWorld-Verified (컴퓨터 조작) | 47.3% | 75.0% ✓ | — |
| SWE-bench Pro (소프트웨어 엔지니어링) | — | 57.7% ✓ | — |
✓ = 해당 카테고리 최고 성능 | — = 2026-03-06 기준 공식 벤치마크 미공개 (기능 미지원이 아님) | OSWorld 인간 기준선 72.4% (GPT-5.4 Thinking이 최초 초과)
(출처: The Decoder, OpenAI 공식 발표)
어떤 티어를 선택해야 하나?
- 추론 경로를 직접 확인하고 감사(Audit)하고 싶을 때
- 여러 소스를 종합하는 심층 리서치
- 멀티스텝 코딩, 디버깅, 리팩토링 — 로직 투명성이 중요한 작업
- 모델이 계획을 제시하면 중간에 방향을 수정하고 싶을 때
- 비용이 중요할 때: Pro 대비 12배 저렴하면서 일반 업무에서 동등하거나 우세
- 추상 추론 퍼즐, 프런티어 논리 도전 과제 (ARC-AGI-2 수준)
- 수십 개 출처를 철저히 종합하는 심층 웹 리서치 (BrowseComp 수준)
- 법률, 금융, 과학 문서 분석 — 오류 비용이 극히 높은 작업
- 실패 비용이 높은 프로덕션 에이전트 워크플로우
- 비용보다 최대 성능이 절대적으로 필요한 경우
커뮤니티에서 권장하는 전략: Pro를 라우팅 및 복잡한 태스크 분해에 사용하고, 병렬화 가능한 하위 태스크는 Thinking이나 표준 GPT-5.4에 위임해 비용을 제어하는 방식이다.
4. 구독 플랜별 접근 권한
| 구독 플랜 | Instant 5.3 | Thinking 5.4 | Pro 5.4 |
|---|---|---|---|
| Free | O | X | X |
| Plus ($20/월) | O | O | X |
| Team | O | O | X |
| Pro ($200/월) | O | O | O |
| Enterprise | O | O | O |
(출처: OpenAI Help Center)
5. API 활용 가이드
모델 이름 및 엔드포인트
GPT-5.4 API에서는 아래 모델명을 사용한다:
# Chat Completions API + Responses API 공용
gpt-5.4 # Thinking 5.4 — Chat Completions + Responses API 모두 지원
gpt-5.3 # Instant 5.3 — 기본 빠른 응답
# Responses API 전용 (에이전트 워크플로우)
gpt-5.4-pro # Pro 5.4 — Responses API 전용 (Chat Completions 미지원)
* gpt-5-chat-latest(Auto 라우팅 별칭)는 커뮤니티 보고 기준 정보이며, 공식 API 문서에서의 확인이 필요합니다.
gpt-5.4-pro는 Responses API 전용이다. 기존 /v1/chat/completions 엔드포인트로는 사용할 수 없다. 에이전트 워크플로우 설계 시 반드시 Responses API (/v1/responses)로 마이그레이션이 필요하다.
Chat Completions → Responses API 마이그레이션
기존 코드에서 달라지는 핵심 부분만 정리한다:
# Before: Chat Completions (gpt-5.4 only)
response = openai.chat.completions.create(
model="gpt-5.4",
messages=[{"role": "user", "content": "분석해줘"}],
temperature=0.7 # reasoning 모드에서는 사용 불가
)
result = response.choices[0].message.content
# After: Responses API (gpt-5.4-pro 포함 모든 모델)
response = openai.responses.create(
model="gpt-5.4-pro", # 또는 "gpt-5.4"
reasoning={"effort": "high"}, # temperature 대신
input=[{"role": "user", "content": "분석해줘"}]
)
result = response.output[0].content[0].text # 응답 구조 변경됨
* openai Python SDK v1.x 기준. 최신 SDK 사용법은 공식 API 레퍼런스에서 확인.
reasoning.effort 파라미터
GPT-5.4의 추론 깊이는 reasoning.effort 파라미터로 제어한다. GPT-5.4에서 새롭게 추가된 xhigh 레벨은 gpt-5.4와 gpt-5.4-pro 모두 지원한다. 단, none과 low는 gpt-5.4-pro에서는 사용할 수 없다.
import openai
response = openai.responses.create(
model="gpt-5.4",
reasoning={"effort": "high"}, # none | low | medium | high | xhigh
input=[
{
"role": "user",
"content": "복잡한 코드베이스를 분석해줘"
}
]
)
| effort 값 | 설명 | 적용 티어 |
|---|---|---|
none |
추론 없음, 최저 레이턴시. temperature 등 파라미터 사용 가능 | gpt-5.4 (pro 미지원) |
low |
경량 추론 | gpt-5.4 (pro 미지원) |
medium / high |
중·심층 추론 (Thinking 기본: high) | gpt-5.4, gpt-5.4-pro |
xhigh |
GPT-5.4 신규. 예산 무제한 Heavy 모드 | gpt-5.4, gpt-5.4-pro |
temperature, top_p, logprobs는 reasoning.effort = "none"일 때만 사용할 수 있다. 추론 모드에서는 대신 text.verbosity와 max_output_tokens를 사용해야 한다.
API 가격표
(출처: openai.com/api/pricing, 2026-03-06 기준 — 최신 가격은 공식 페이지에서 확인)
| 모델 | 입력 (per 1M) | 캐시 입력 (per 1M) | 출력 (per 1M) |
|---|---|---|---|
gpt-5.2 (참고용) |
$1.75 | $0.175 | $14.00 |
gpt-5.4 (Thinking) |
$2.50 | $0.25 | $15.00 |
gpt-5.4-pro |
$30.00 | — | $180.00 |
* 272K 토큰 초과 구간: 정상 요금의 2배 과금 적용 (공식 문서 기준)
실전 비용 시뮬레이션
가격표만 보면 막연하다. 실제 에이전트 워크플로우 시나리오로 월간 비용을 추정해보자.
| 전략 | 건당 비용 | 일간 | 월간 (30일) |
|---|---|---|---|
Thinking 5.4 전용 (gpt-5.4) |
$0.042 | $2.10 | ~$63 |
Pro 5.4 전용 (gpt-5.4-pro) |
$0.51 | $25.50 | ~$765 |
| 하이브리드 (Pro 10% + Thinking 90%) | $0.089 | $4.45 | ~$134 |
* 입력 8K × $2.50/M + 출력 1.5K × $15/M 기준. Tool Search 적용 시 토큰 최대 47% 절감 가능 → 실제 비용은 더 낮을 수 있음. 추정치이므로 실제 워크플로우로 직접 측정 권장.
6. 사용 사례
에이전트 업무 자동화
GPT-5.4의 컴퓨터 사용과 Tool Search를 결합하면, 이전에는 수동으로 해야 했던 반복 작업을 완전 자동화할 수 있다.
- 회계 자동화: "이번 달 Quicken 장부 정리해줘" → 앱 실행, UI 탐색, 입력, 저장까지 자율 처리
- 투자은행 모델링: Excel/Google Sheets에서 DCF 모델 구성 및 민감도 분석 자동화
- 멀티스텝 웹 리서치: 수십 개 출처를 자율 탐색하고 보고서 생성
자율 쇼케이스: GPT-5.4가 실제로 만든 것들
GPT-5.4 출시와 함께 공개된 실제 데모 사례들이다. 모두 AI가 단독으로 설계부터 배포까지 수행했다.
| 프로젝트 | 소요 시간 | 핵심 포인트 |
|---|---|---|
| 시티 제너레이터 (City Generator) | ~1시간 | SoloBot이 7단계 이상 계획 수립 → 자율 실행. 화면 캡처로 UI를 직접 분석해 "하늘 비중이 너무 크다"는 문제를 스스로 파악하고 수정 |
| 비행 시뮬레이터 | ~3시간 | 단 한 번의 프롬프트 → 로컬 개발 + 웹 서버 배포까지 완결. "이전 모델에서는 이처럼 많은 단계를 밟지 않았다" |
| 3D 체스 Electron 앱 | — | 유리·대리석 질감 구현 + KUA로 기물 직접 드래그하며 캐슬링 규칙까지 검증. 빌드-테스트 루프를 스스로 완결 |
| 커피숍 웹사이트 (낸시 사례) | — | 디자인 시안 분석 → 최적 이미지 4개 병렬 생성 → KUA로 원본과 결과물 시각 비교. 코딩 지식 없는 사용자도 완성 |
| Gmail 자동화 | 수초 이내 | 첫 번째 이메일 분석 → 특정 주소로 답장 전송 완료. "제대로 실행되는지 보기도 전에" 완료될 만큼 빠름 |
⚠️ 위 사례는 OpenAI 공식 쇼케이스 및 커뮤니티 데모 기반 (Level 2–3). 재현 결과는 환경에 따라 다를 수 있음.
고급 코딩 워크플로우
Codex에서 GPT-5.4의 build-run-verify-fix 루프를 활용한 완전 자율 코딩 에이전트:
# Responses API를 이용한 에이전트 루프 예시
response = openai.responses.create(
model="gpt-5.4",
reasoning={"effort": "high"},
tools=[
{"type": "computer_use"},
{"type": "code_interpreter"},
],
input=[{
"role": "user",
"content": "이 Python 코드를 테스트하고 버그를 찾아 수정해줘"
}]
)
엔터프라이즈 적용 사례
Fortune 보도에 소개된 기업 활용 사례 (2차 출처 — OpenAI 공식 발표에서 직접 인용 미확인):
- 법률 AI 기업 Harvey: BigLaw Bench 평가에서 91% 달성 — 로펌 수준의 법률 문서 분석
- 재산세 자동화 기업 Mainstay: GPT-5.2 대비 에이전트 약 3배 빠르게 실행, 토큰 사용량 약 70% 절감
(출처: Fortune — 기업별 직접 확인 권장)
지금 바로 해보기: ChatGPT & Codex 실습 프롬프트
글만 읽는 것보다 직접 해보는 게 가장 빠른 학습이죠. 아래 프롬프트를 복사해서 바로 실행해보세요. ChatGPT 사용자와 Codex 개발자를 위한 실습을 각각 준비했습니다.
Part A: ChatGPT에서 해보기 (Plus 플랜 이상, Thinking 5.4 사용)
예시 1 - 싱글 프롬프트 게임 만들기
프롬프트 하나로 완성된 게임이 나오는지 확인해보세요. GPT-5.4의 코딩 통합 능력을 가장 직관적으로 체험할 수 있습니다.
테마파크 경영 시뮬레이션 게임을 만들어줘.
조건:
- HTML + JavaScript 단일 파일로 완성
- 건물 배치, 방문객 수, 수익 계산 포함
- 버그 없이 바로 실행 가능하게
ex) 5.4 Thinking

- 미리 보기 버튼이 비활성화 되어 있고, 소스를 생성중에 변경할 내용이 있다면 후속 질문을 보내보라고 하고 있다.

- 싱글프롬프트 기준으로 그래도 완성이 되는 모습은 경이???롭다. Thinking 5.4모델은 생각 보다 금방 완성되었다.

ex) 5.4 Pro
- pro는 좀더 사고과정을 신중하게 가져가는 모습으로 보인다.

- 소스생성을 하지 않고 한참동안 Thinking 과정을 진행한다.

- 54분째 작업을 진행하며, 아직 검토중이다. 싱글 프롬프트에 이정도라면................................. 게임 한번 찍어내볼까? 라는 생각도 들기 시작하였다.

- 완료된 게임의 모습

- 1시간 넘게 데충요청한 게임을 만들게 한게 너무 미안 하였다.

게임 챌린지 모음 — 싱글 프롬프트로 얼마나 만들 수 있을까?
아래 프롬프트를 하나씩 붙여넣고, GPT-5.4가 어디까지 완성하는지 직접 확인해보자.
나또한
모두 HTML + JavaScript 단일 파일로 요청하는 방식이라 별도 설치 없이 브라우저에서 바로 실행됩니다.
비행기 슈팅 게임
고전 아케이드 감성의 종스크롤 슈팅 게임. 적기 패턴과 점수 시스템까지 한 번에 잡아줍니다.
HTML + JavaScript로 종스크롤 비행기 슈팅 게임을 만들어줘.
- 플레이어 비행기: 방향키로 이동, 스페이스바로 총알 발사
- 적 비행기: 위에서 랜덤하게 등장, 점점 빨라짐
- 점수판, 목숨 3개, 게임오버 화면 포함
- 단일 HTML 파일로 완성
- 미사일, 동작, 점수, 목숨 모든 기능이 잘 동작한다. (21분 소요)


공룡 달리기 게임
Chrome 오프라인 공룡 게임 스타일. 점프 타이밍 게임의 클래식입니다.
Chrome 공룡 게임처럼 옆으로 달리는 점프 게임을 만들어줘.
- 스페이스바나 클릭으로 점프
- 장애물(선인장, 새)이 오른쪽에서 랜덤 등장
- 점수가 올라갈수록 속도 증가
- 픽셀 아트 느낌의 캐릭터, 단일 HTML 파일
ex)

벽돌 깨기 게임
마우스로 패들을 조작해 모든 벽돌을 없애는 고전 게임. 물리 반사 로직을 AI가 얼마나 정확하게 구현하는지 볼 수 있습니다.
Canvas로 벽돌 깨기 게임을 만들어줘.
- 마우스(또는 방향키)로 하단 패들 이동
- 상단에 색상별 벽돌 배열 (5행 x 10열)
- 공이 벽과 패들에서 정확히 반사
- 목숨 3개, 모든 벽돌 제거 시 클리어 화면
- 단일 HTML 파일
ex)
- 아쉬운점은 아이템이 없고, 다음 스테이지 등이 없지만, 싱글 프롬프트임에도 생각보다 부딪히는 각도에 따라 공의 움직임이 실제 벽돌깨기 만큼이나 퀄리티가 높았기때문에 만족스러웠고, 그나마 빨리 만든 게임 이었다.

- 열심히 gpt가 만들어준 게임인 만큼 clear해보았다.

플래피 버드 스타일 게임
클릭 한 번으로 날갯짓, 파이프 사이를 통과하는 중독성 게임. 단순하지만 물리 구현이 까다롭습니다.
플래피 버드 스타일 게임을 만들어줘.
- 스페이스바나 클릭으로 위로 날갯짓
- 파이프 장애물이 랜덤 높이로 등장
- 중력 효과로 자연스럽게 아래로 떨어짐
- 파이프 통과 시 점수 획득, 충돌 시 게임오버
- 단일 HTML 파일
ex)

테트리스
블록 회전·이동·쌓기까지 구현해야 하는 테트리스는 AI 코딩 능력의 리트머스 테스트입니다.
테트리스 게임을 만들어줘.
- 7종류 테트로미노 블록 (I, O, T, S, Z, J, L)
- 방향키로 이동·회전, 아래 방향키로 빠르게 낙하
- 한 줄 완성 시 제거 + 점수 획득
- 레벨 올라갈수록 낙하 속도 증가
- 다음 블록 미리보기, 단일 HTML 파일
ex) 하다보니 스페이스바로 한번에 떨어뜨리는 기능을 요청하지 않은게 후회되었지만, ...ㅎㅎㅎ

타워 디펜스 게임
적 경로 계산, 타워 배치, 업그레이드 시스템까지. 로직이 복잡한 장르라 AI가 한 번에 얼마나 구현하는지 도전해보세요.
타워 디펜스 게임을 만들어줘.
- 격자 맵에 타워를 클릭으로 배치
- 적들이 정해진 경로를 따라 이동
- 타워 3종류 (기본/속사/광역), 골드로 구매
- 적 처치 시 골드 획득, 기지에 적 도달 시 목숨 감소
- 웨이브 시스템 (점점 강해지는 적), 단일 HTML 파일
ex)

3D 게임 챌린지 — Three.js로 입체 세계 만들기
Three.js CDN을 활용하면 브라우저에서 3D 게임도 만들 수 있습니다. GPT-5.4가 라이브러리 import부터 3D 물리까지 한 번에 짜주는지 도전해보세요.
3D 공 굴리기 (Marble Roll)
기울어진 3D 플랫폼에서 공을 굴려 골인 지점까지 도달하는 게임. Three.js CDN으로 즉시 실행됩니다.
Three.js CDN을 사용해 3D 공 굴리기 게임을 만들어줘.
- WASD 또는 방향키로 공 이동
- 3D 플랫폼 위를 굴러다니는 구 물리
- 플랫폼 끝에서 떨어지면 리스폰
- 목표 지점(골인 구역)에 닿으면 클리어
- CDN import 포함 단일 HTML 파일
ex) 버그는 있지만 3d와 조작은 잘 동작한다.

3D 레이싱 게임
유튜브 쇼케이스에서 소개된 비행 시뮬레이터와 같은 방식의 물리 기반 차량 게임입니다. 커브 드리프트까지 구현해줄까요?
Three.js CDN으로 3D 레이싱 게임을 만들어줘.
- WASD로 차량 가속/후진/조향
- 원형/타원형 레이싱 트랙
- 카메라가 차량 뒤를 따라가는 3인칭 시점
- 랩 타임 측정, 최고 기록 저장
- 차량에 간단한 물리 효과 (관성, 코너링)
- CDN import 포함 단일 HTML 파일

예시 3 - PPT 한 번에 만들기
자료를 첨부하고 프롬프트 하나로 발표자료를 완성해보세요. 레이아웃의 전문성을 직접 확인할 수 있습니다.
[첨부 파일 내용]을 바탕으로 5페이지 발표자료를 만들어줘.
- 표지, 목차, 핵심 내용 3슬라이드 구성
- 전문적인 레이아웃으로
- 다운로드 가능한 PPTX 형식으로
Part B: Codex에서 해보기 (개발자 전용)
예시 4 - 자율 앱 개발 (City Generator 방식)
Codex에게 3D 앱을 만들어달라고 요청하고, AI가 스스로 단계를 나누고 실행 후 화면을 보며 수정하는 과정을 관찰해보세요.
3D 도시 생성기를 만들어줘.
- Three.js 사용
- 랜덤으로 건물 배치 생성
- 카메라 회전/줌 기능 포함
- 완성되면 로컬 서버로 실행
ex) 너무 데충 프롬프트를 했지만, 그래도 3D 렌더링이 잘 되는 것 까진 볼 수 있었다.

- 생성 결과


예시 5 - 빌드-테스트 루프 체험
AI가 앱을 만들고, 직접 실행해서, 기물을 움직여 테스트까지 하는 완전한 자율 루프를 체험해보세요. Computer Use 기능이 활성화되어 있어야 합니다.
체스 게임을 Electron 앱으로 만들어줘.
- 3D 렌더링 (유리/대리석 질감)
- 모든 기물 이동 규칙 포함 (캐슬링 포함)
- 완성 후 직접 플레이해서 버그가 없는지 확인해줘
ex) 중간에 직접 오류 수정까지 완료하여 최종 렌더링 성공

- 결과 : 화면조정이 좀 필요하지만 3D 체스게임도 싱글프롬프트로 개발 가능하다.

싱글 프롬프트 게임을 직접 플레이해보자
위 챌린지를 직접 실행해보고 싶은데 환경 세팅이 번거롭다면? 싱글 프롬프트로 만든 9개의 게임을 웹에서 바로 플레이할 수 있도록 배포해두었습니다.
각 게임 페이지에서 원본 프롬프트 전문도 확인할 수 있습니다. 그대로 GPT-5.4에 붙여넣어 직접 재현해보세요.
실습 결과는 사용자 환경과 프롬프트 표현에 따라 다를 수 있습니다. 재미있는 결과가 나왔다면 커뮤니티에 공유해보세요! 같은 프롬프트라도 시도할 때마다 다른 결과가 나올 수 있으니, 여러 번 시도해보는 것도 좋은 방법입니다.
7. 알려진 제한사항 및 주의점
GPT-5.4를 본격적으로 쓰기 전에, 미리 알아두면 시행착오를 줄일 수 있는 제한사항들을 정리했습니다. 특히 Pro 5.4를 고려하시는 분들은 꼭 확인해주세요.
| 제한사항 | 상세 | 신뢰도 |
|---|---|---|
| 1M 컨텍스트 옵트인 필요 | 기본값은 272K. 명시적 API 파라미터 설정 필요 | 공식 문서 (Level 1) |
| 긴 컨텍스트 신뢰도 저하 | 불필요한 정보를 채울수록 오히려 오답 증가 | 공식 문서 (Level 1) |
| 컴퓨터 사용 완벽하지 않음 | OSWorld 75% = 4회 중 1회는 실패 | 벤치마크 데이터 (Level 1) |
| Pro 5.4 기능 제한 | Apps, Memory, Canvas, 이미지 생성 비활성 | 공식 Help Center (Level 1) |
| Pro 5.4 고비용 | Thinking 대비 12배 — 일반 업무에서 비효율 | 공식 가격표 (Level 1) |
| gpt-5.4-pro Chat Completions 미지원 | Responses API 전용, 기존 코드 마이그레이션 필요 | 공식 API 문서 (Level 1) |
| 모델 드리프트 (Model Drift) | 동일 모델 ID로 조용히 업데이트되어 동작 변화 가능. 프로덕션 회귀 테스트 필수 | 커뮤니티 피드백 (Level 3) |
| Pro 5.4 $200/월 — 비활성 기능 다수 | Apps, Memory, Canvas, 이미지 생성 모두 비활성. $200을 냈는데 $20 Plus보다 쓸 수 있는 기능이 적다 | 공식 Help Center (Level 1) |
OpenAI는 동일 모델 ID(gpt-5.4) 하에서 조용히 모델을 업데이트하는 경우가 있다. 이는 오늘 테스트한 동작과 다음 주 프로덕션 동작이 달라질 수 있음을 의미한다. r/codex 개발자 커뮤니티에서는 이 문제에 대한 불만 목소리가 꾸준히 나온다: "GPT-5.4가 5.3 codex보다 나쁘다 — 내 의도를 계속 잘못 이해한다."
- 날짜 고정 버전 사용: 가능하다면
gpt-5.4-2026-03-05같은 날짜 고정 버전으로 API를 호출할 것 (지원 여부는 공식 문서 확인) - 회귀 테스트 추가: 중요 에이전트 워크플로우에는 동작 변화를 감지하는 자동화 테스트를 작성
- API 게이트웨이 고려: 모델 전환을 config 한 줄로 처리할 수 있도록 추상 레이어를 두면 드리프트 대응이 쉬워진다
8. 모델 퇴역 일정
GPT-5.4 출시와 함께 OpenAI는 대규모 구형 모델 퇴역도 함께 발표했다.
- GPT-5.2 Instant: 2026년 6월 3일 퇴역 (⚠️ 공식 문서 미확인 — 퇴역 전 공식 페이지에서 확인 권장)
- GPT-5.2 Thinking: 2026년 6월 5일 퇴역
- GPT-4o, GPT-4.1, GPT-4.1 mini, o4-mini: ChatGPT에서 단계적 퇴역 진행 중
(출처: Retiring GPT-4o and older models | OpenAI)
GPT-5.2 기반 API를 사용 중이라면 2026년 6월 전에 GPT-5.4로 마이그레이션해야 한다. 특히 gpt-5.4-pro는 Responses API 전용이므로, 기존 Chat Completions 코드를 사전에 전환해두는 것이 좋다.
9. 한국어 사용자 주의사항
GPT-5.4는 출시 직후라 한국어 환경에서의 공식 벤치마크는 아직 공개되지 않았다. 다만 GPT-5.3 Instant 이후 개선된 내용과 GPT-5.4의 특성을 고려한 실용 가이드를 정리한다.
한국어 추론 품질
- Thinking 5.4의 Preamble(계획 미리보기): 영어로 출력되는 경우가 있다. 한국어 응답이 필요하면 시스템 프롬프트에 "모든 응답은 한국어로 작성하라"를 명시하는 것이 좋다.
- 추론 토큰 언어: 내부 CoT(Chain-of-Thought) 토큰은 영어로 처리되어도 최종 응답은 한국어로 나온다. 추론 품질 자체는 언어에 관계없이 동일하다.
- 한국어 코딩 지시: 코드 주석, 변수명 등을 한국어로 요청할 수 있으며, GPT-5.4의 코딩 능력은 언어 무관하게 적용된다.
컴퓨터 사용 — 한국어 UI
Computer Use 기능의 OSWorld 벤치마크는 영어 환경 기준이다. 한국어 UI를 사용하는 앱(한글 Windows, 한국어 웹사이트 등)에서의 성능은 공식 데이터가 없으므로 실제 사용 전 충분한 테스트가 필요하다.
API 활용 시 한국어 프롬프트 팁
# 한국어 응답 + 추론 품질 확보를 위한 시스템 프롬프트 예시
response = openai.responses.create(
model="gpt-5.4",
reasoning={"effort": "high"},
input=[
{
"role": "system",
"content": "You are a helpful assistant. Always respond in Korean."
},
{
"role": "user",
"content": "이 코드의 버그를 찾아서 수정해줘"
}
]
)
10. 트러블슈팅 Q&A
Q. ChatGPT에서 Thinking 5.4가 보이지 않는다
Q. API에서 gpt-5.4-pro 호출 시 오류가 발생한다
gpt-5.4-pro는 Responses API 전용이다. /v1/chat/completions로 호출하면 오류가 발생한다. 반드시 /v1/responses 엔드포인트를 사용해야 한다. 기존 코드를 마이그레이션하지 않은 경우 gpt-5.4 (Thinking)를 사용하는 것이 빠른 대안이다.Q. reasoning.effort를 설정해도 응답이 달라지지 않는 것 같다
temperature, top_p 같은 샘플링 파라미터와 reasoning.effort는 함께 사용할 수 없다. effort가 "none"이 아닌 경우 샘플링 파라미터를 제거해야 한다. 또한 응답 길이는 max_output_tokens로, 출력 상세도는 text.verbosity로 제어한다.Q. 1M 토큰 컨텍스트가 활성화되지 않는다
model_context_window와 model_auto_compact_token_limit 파라미터를 명시해야 한다. 또한 272K 초과 구간부터는 요금이 2배 적용되니 비용 계획을 먼저 세워야 한다.Q. Pro 5.4에서 이미지 생성이 안 된다
Q. Windows에서 Codex 성능이 기대보다 낮다
11. 커뮤니티 반응과 실사용자 목소리
GPT-5.4 출시 전후, 개발자 커뮤니티와 일반 사용자들의 반응은 기술 지표만큼이나 중요한 신호다. 스레드(Threads), X.com, Reddit에서 확인된 주요 반응을 정리한다.
#QuitGPT 운동과 배경
GPT-5.4 출시 3일 전인 2월 28일, OpenAI의 미 국방부(DoD) 계약 발표가 알려지면서 #QuitGPT 운동이 급속도로 확산됐다. 소셜 미디어에서 대규모 이탈 신호가 나타난 시점에, GPT-5.4는 기술적 성능이 아닌 신뢰 회복이 더 중요한 숙제인 상황에서 출시되었다.
- Claude가 이 기간 동안 미국 App Store 1위를 기록 (GPT-5.4 출시 주간)
- ChatGPT 앱 삭제 급증 보고 (커뮤니티 보고 기반, 독립 검증 필요)
⚠️ #QuitGPT 관련 수치는 주로 커뮤니티·언론 보도 기반 (Level 3). 독립적 검증 데이터 없음.
개발자 커뮤니티 반응 (r/codex, Hacker News)
- Computer Use + build-run-verify 루프: "드디어 진짜 에이전트가 됐다"는 반응 — Codex를 쓰던 개발자들에게 가장 큰 호응
- Tool Search 47% 토큰 절감: 대형 MCP 생태계를 운영하는 팀들에서 실질적 비용 절감 가능성 평가
- Claude vs GPT-5.4 코딩 비교: 에이전트 루프에서는 GPT-5.4, 코드 품질·문서화에서는 Claude가 앞선다는 개인 테스트 결과 다수
- 모델 드리프트 불만: "GPT-5.4가 5.3 codex보다 훨씬 나쁘다 — 내 의도를 계속 잘못 이해한다" (r/codex 개발자 피드백)
- Pro 5.4 기능 역설: "$200/월을 내는데 Apps, Memory, Canvas, 이미지 생성이 모두 안 된다" — $20 Plus 사용자보다 쓸 수 있는 기능이 적다는 불만
- 버전 피로감: Hacker News에서 "5.1, 5.2, 5.3, 5.4가 몇 주 만에 다 나왔다 — 무엇을 기준으로 써야 하나"라는 혼란 표출
⚠️ 커뮤니티 반응은 영어권 개발자 커뮤니티(r/codex, Hacker News, X.com) 기반이며, 표본 편향 가능. Level 3 정보로 참고용으로만 활용 권장.
커뮤니티 공통 선택 기준
- 에이전트/자동화 → GPT-5.4 (Computer Use, Tool Search, Context Compaction)
- 코드 품질·문서화 → Claude Opus 4.6 (SWE-bench 81%+, 128K 출력)
- 가성비 → Gemini 3.1 Pro ($2/$12 per M, 1M 네이티브 컨텍스트)
- 수학·과학 추론 → o4-mini 또는 GPT-5.4 Pro (ARC-AGI-2 83.3%)
⚠️ 공식 크로스 벤치마크 없음 — 커뮤니티·3차 출처 분석 기반 (Level 3). 실제 선택은 직접 테스트 권장.
12. 결론
경쟁 모델과의 포지셔닝
GPT-5.4 도입을 검토한다면 현재 시장에서의 위치를 이해하는 것이 중요하다.
- GPT-5.4 vs Claude Opus 4.6: 컴퓨터 사용과 에이전트 루프는 GPT-5.4가 앞서며, 코드 품질과 자연스러운 문서 생성에서는 Claude가 경쟁력을 유지한다는 평가가 있다. 정확한 비교는 공식 크로스 벤치마크가 없으므로 용도별 직접 테스트가 필요하다.
- GPT-5.4 vs Gemini 2.5 Pro: 초장문 문서 처리와 멀티모달 분석은 Gemini의 2M 컨텍스트가 강점이다. GPT-5.4는 에이전트 자동화와 코딩 통합에서 우위를 주장한다.
- GPT-5.4 Pro vs o4-mini: o4-mini는 수학·과학 추론에 특화된 경량 추론 모델이다. GPT-5.4 Pro는 컴퓨터 사용·코딩·일반 업무까지 통합된 올라운더로 포지셔닝된다.
⚠️ 경쟁 모델 비교는 공식 크로스 벤치마크 부재로 3차 출처 분석 기반 (Level 3). 실제 선택은 구체적 사용 케이스로 직접 테스트 권장.
GPT-5.4는 단순한 버전 업그레이드가 아닙니다. 메인라인 모델이 처음으로 컴퓨터를 직접 조작하고, 코드를 스스로 실행하고 수정하는 완전한 에이전트로 진화했어요. OSWorld에서 인간 기준선을 넘은 건 상징적인 사건이지만, 4회 중 1회는 아직 실패한다는 현실도 함께 기억해야 합니다.
여러분에게 드리는 현실적인 조언은 간단합니다: Plus 구독으로 Thinking 5.4를 메인으로 쓰고, 진짜 어려운 작업에만 Pro 5.4를 선별적으로 활용하세요. GDPval 기준으로 일상 지식 업무에서는 Thinking이 Pro보다 오히려 앞선다는 걸 기억하시면, 비용 대비 효과를 극대화할 수 있습니다.
개발자분들이 가장 주목하셔야 할 건 Tool Search와 Context Compaction입니다. 토큰 비용 47% 절감에 긴 에이전트 루프의 안정성 확보까지 — 이 두 가지가 실제 프로덕션 에이전트의 비용 구조를 바꿀 수 있는 핵심 변화예요. 지금이 바로 기존 워크플로우를 다시 점검하고, GPT-5.4에 맞게 최적화해볼 타이밍입니다.
- Instant 5.3 — 빠른 일상 대화, 무료 포함 전 플랜
- Thinking 5.4 — 추론 투명성 + 비용 효율, Plus 이상
- Pro 5.4 — 추상 추론 + 심층 리서치 최강, Pro/Enterprise 전용
- 6가지 신기능 — 컴퓨터 사용, 1M 컨텍스트, Tool Search, 컴팩션, 코딩 통합, 비즈니스 워크플로우
- API 핵심 — gpt-5.4-pro는 Responses API 전용, reasoning.effort에 xhigh 추가
'AI > ChatGTP(Codex)' 카테고리의 다른 글
| gpt5.3codex 출시 리뷰 - 신규 기능, 벤치마크, 시장 반응, 개발자 후기 등 (vs Opus 4.6: AI 코딩 전쟁) (2) | 2026.02.06 |
|---|---|
| GPT-5.2-Codex 사용법과 주의사항 - 24시간 자율 코딩과 보안 취약점 탐지 (2025), AI 코딩 모델 비교 등 (0) | 2025.12.22 |
| GPT Image 1.5 리뷰 - OpenAI '코드 레드' 전략의 결과물 (4배 속도, 20% 저렴, Disney 협업) (2) | 2025.12.17 |
| GPT 5.2 출시 - 무료 포토샵, AI 삼파전(GPT-5.2, Gemini 3,Claude Opus 4.5) 살펴보기, skills 등 (1) | 2025.12.12 |
| Chat GPT 5.1 업데이트 정리 (0) | 2025.11.17 |
당신이 좋아할만한 콘텐츠
-
gpt5.3codex 출시 리뷰 - 신규 기능, 벤치마크, 시장 반응, 개발자 후기 등 (vs Opus 4.6: AI 코딩 전쟁) 2026.02.06
-
GPT-5.2-Codex 사용법과 주의사항 - 24시간 자율 코딩과 보안 취약점 탐지 (2025), AI 코딩 모델 비교 등 2025.12.22
-
GPT Image 1.5 리뷰 - OpenAI '코드 레드' 전략의 결과물 (4배 속도, 20% 저렴, Disney 협업) 2025.12.17
-
GPT 5.2 출시 - 무료 포토샵, AI 삼파전(GPT-5.2, Gemini 3,Claude Opus 4.5) 살펴보기, skills 등 2025.12.12
소중한 공감 감사합니다