새소식

300x250
AI/Claude

Claude Opus 4.8 출시 - Dynamic Workflows, ultracode, Fast mode, 서브에이전트 1000개 등 정리(41일 만의 업데이트가 보내는 메시지)

  • -
728x90

안녕하세요! 갓대희 입니다.

Claude Opus 4.8 출시 전모 분석 블로그 대표 이미지

Opus 4.7이 나온 지 41일 만에 Opus 4.8이 나왔다. TechCrunch는 "Anthropic치고는 유난히 빠른 업그레이드 주기"라고 했는데, 나는 버전 숫자보다 이 출시 속도 자체가 더 큰 메시지라고 본다. 자잘한 패치를 하나 더 얹은 게 아니다. Anthropic이 경쟁 압박 속에서 '작은 조직처럼 빠르게 내보내겠다'는 걸 행동으로 보여준 셈이다.

 

이번 업데이트에는 두 가지 축이 있다.

하나는 '더 정직한 모델'이라는 Anthropic의 주장이다. 모델이 모르는 건 모른다고 인정하고, 코드 결함을 슬쩍 넘기지 않게 설계했다는 얘기다.

다른 하나는 Dynamic Workflows와 ultracode — 단일 요청이 여러 서브에이전트로 분기되어, 사실상 소형 개발 조직처럼 병렬로 움직이는 구조다.

둘은 따로 노는 기능처럼 보이지만, 결국 같은 얘기를 한다. 모델이 일하는 방식 자체를 바꾸겠다는 것.

이 글은 2026년 5월 29일 기준으로 작성됐다. 공식 소스: Anthropic 공식 발표 · Claude Code 공식 문서

이 글의 핵심 6가지

  • 41일 만의 출시 — 숫자가 아니라 Anthropic의 전략 신호
  • '더 정직한 모델': 코드 결함 미보고 확률 전작 대비 약 4배 감소 (공식 발표 수치)
  • Dynamic Workflows: 서브에이전트 동시 최대 16개 / 1회 실행 총 1,000개 상한
  • ultracode — 모델 effort 레벨이 아닌 Claude Code 설정, /effort 메뉴에서 접근
  • Fast mode: 2.5배 속도, 이전 Fast mode 대비 3배 저렴 (공식 발표)
  • Mythos-class 모델은 사이버보안 안전장치 이유로 'coming weeks' 보류 상태

 

1. 출시 개요 — 41일이 보내는 메시지

Claude Opus 4.8은 2026년 5월 28일 공식 출시됐다.

Opus 4.7 출시일이 2026년 4월 16일이므로, TechCrunch는 "41일"로 표기했으며, 날짜 산술상 실제 간격은 42일이다.

어느 쪽이든 Anthropic으로서는 이례적으로 짧은 주기다.

 

가격은 Opus 4.7과 동일하다: 입력 $5/백만 토큰, 출력 $25/백만 토큰. 플랫폼은 Claude API(모델 ID: claude-opus-4-8), claude.ai Pro/Max/Team/Enterprise, Claude Code, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서 이용 가능하다.

GitHub Copilot에서도 2026-05-28 당일 가용 상태가 됐다.

Claude Opus 4.8 출시 개요 - Anthropic 공식 발표 페이지 화면
항목 내용
출시일 2026-05-28
Opus 4.7 대비 간격 약 42일 (TechCrunch 보도: '41일')
표준 가격 입력 $5 / 출력 $25 (백만 토큰, 4.7과 동일)
Fast mode 성능·비용 2.5배 속도, 이전 Fast mode 대비 3배 저렴 (공식 발표, 절대 가격은 공식 페이지 확인)
모델 ID (API) claude-opus-4-8
필요 버전 (Dynamic Workflows) Claude Code v2.1.154 이상

 

개발자 입장에서 이 출시 주기가 중요한 건 그냥 "빠르다"는 게 아니다. Anthropic이 자기 로드맵보다 시장 압박에 더 민감하게 움직이기 시작했다는 신호에 가깝다.

Opus 4.7 냉랭한 반응 보도 이후 4.8 출시 배경 - TechCrunch 보도 화면

Opus 4.7이 "냉랭한 반응(chilly reception)"을 받았다는 보도가 나온 직후 곧바로 4.8이 등장했다는 점도 이 해석을 뒷받침한다.

배경으로는 Google이 2025년 11월 Gemini 3와 함께 출시한 Antigravity 2.0의 경쟁 압박도 있다. — Claude Code와 정면 경쟁하는 에이전트 코딩 도구다.

 

41일이냐 42일이냐 같은 숫자에 자꾸 눈이 가는데, 정작 중요한 건 그게 아니었다. 작게 쪼개서 자주 내보내는 출시 리듬 자체가 핵심이다. 41일 만에 다음 버전을 낸다는 건, 학습부터 배포까지 파이프라인이 그만큼 짧게 돈다는 뜻이다.

 

2. '더 정직한 모델' — 자기 의심하는 AI의 실체

Anthropic의 공식 발표에서 가장 강조된 개선은 정직성(honesty)이다. 구체적으로 "Opus 4.8은 전작 대비 코드 결함을 미보고로 통과시킬 확률이 약 4배 낮다"고 밝혔다.

Opus 4.8 정직성 개선 - 코드 결함 미보고 확률 4배 감소 공식 발표 화면

이 말은 이렇게 해석된다: 이전 모델은 코드에 버그가 있어도 그냥 제출했다. 4.8은 그 대신 "이 부분이 잘못됐을 수 있다"고 먼저 알린다. 에이전트 작업에서 모델이 자신의 출력 결함을 사용자가 잡을 때까지 방치하는 것이 얼마나 흔한 문제인지 생각해보면, 이 개선이 왜 먼저 강조됐는지 이해된다.

 

초기 테스터 평가

초기 테스터들은 에이전트 작업에서 Opus 4.8을 "더 신뢰할 수 있고 판단력이 더 예리하다"고 평가했다. 불확실성을 플래그하는 빈도가 높고, 근거 없는 주장을 할 가능성이 낮아졌다는 보고다.

 

Bridgewater Associates는 Opus 4.8이 "분석 과정의 입출력 문제를 미리 짚어주는 경향"이 다른 모델들이 놓치고 사용자에게 떠넘기던 부분을 처리한다고 평가했다. 다만 이것은 Bridgewater가 공개적으로 언급한 사용 평가이며, Anthropic의 공식 벤치마크 결과와 동일시해서는 안 된다. 

 

벤치마크 수치 — 출처 구분 필수

SWE-Bench Pro 69.2% — 공식 발표 + 복수 매체 일치: Opus 4.8이 SWE-Bench Pro에서 69.2%를 기록했다. Opus 4.7(64.3%) 대비 약 5%p 향상. (출처: Anthropic 공식 발표, TestingCatalog)

USAMO 2026 96.7%: 여러 매체에서 인용.

PCWorld는 Opus 4.8을 "자신이 모르는 것에 대해 더 정직하게 말하고, 낮은 신뢰도를 갖고 있을 때 그것을 알린다"고 정리했다. 이 방향은 Anthropic이 지속적으로 강조해온 AI 정렬(alignment) 목표와 일치한다.

 

개발자 관점에서 이 개선은 두 가지를 의미한다. 첫째, 에이전트 루프에서 모델이 자신의 결함을 알리면 재실행 비용이 줄어든다. 둘째, "모델이 확신하는 척한다"는 불신을 줄일 수 있다. 물론 실제로 얼마나 체감되는지는 사람마다 다르다. HN에서는 "정직성에는 결국 진짜 지능이 필요한 거 아니냐"는 시큰둥한 반응도 있었다. 둘 다 일리가 있다.

 

내 경우엔 코드 자동화 파이프라인을 돌릴 때 "모델이 틀린 줄 모르고 통과시키는" 상황이 가장 골치 아팠다. 그 관점에서 보면 정직성 개선은 화려한 신기능보다 오히려 실무에서 먼저 와닿는 변화다. 처음 접한다면 벤치마크 숫자보다 "이 모델이 자기 실수를 먼저 말해주는가"를 직접 돌려보며 확인하는 편이 빠르다.

 

3. Dynamic Workflows — 작은 개발 조직처럼 병렬화

Dynamic Workflows는 Opus 4.8과 함께 출시된 Claude Code의 핵심 신기능이다.

Claude Code v2.1.154 이상이 필요하며, 모든 유료 플랜에서 이용 가능하다 — 단, 플랜별 기본 활성화 여부가 다르다.

Dynamic Workflows 작동 방식 - Claude Code 공식 문서 화면

 

작동 방식과 서브에이전트 상한은 얼마인가?

Q. Dynamic Workflows의 서브에이전트 상한은 얼마인가?

단일 요청이 내부적으로 여러 서브에이전트로 분기되어 실행되는 방식입니다. Claude가 스스로 "이 작업에 워크플로우가 필요하다"고 판단하면, 하나의 요청이 여러 워크플로우로 연쇄 실행됩니다: 코드를 이해하는 워크플로우 → 수정하는 워크플로우 → 검증하는 워크플로우.

공식 상한 (중요): 동시 최대 16개 서브에이전트 (CPU 코어 수 제한 환경에서는 더 적을 수 있음) / 1회 실행당 총 최대 1,000개 서브에이전트. 이 제한은 로컬 리소스 보호와 무한 루프 방지를 위해 설계됐다. (출처: Claude Code 공식 문서)

커뮤니티에서 "100개 이상 동시 실행"이라는 체감담이 나오지만, 이것은 개별 사용 사례에서의 총 에이전트 수를 가리키는 것으로 보인다. 공식 동시 실행 상한은 16개이며, 이 사실은 공식 문서에서 명확히 확인된다.

 

플랜별 기본 활성화 여부

플랜 기본 상태 활성화 방법
Max / Team 기본 활성화 자동 적용
Enterprise 기본 비활성화 관리자가 설정에서 수동 활성화
Pro 기본 비활성화 /config에서 Dynamic workflows 행 켜기

ex) Max의 경우 기본 활성화

Max 플랜에서 Dynamic Workflows 기본 활성화 상태 화면

 

실제 사용 사례 — Bun 마이그레이션

가장 강렬한 사례로 인용된 것은 Jarred Sumner(Bun 개발자)가 Dynamic Workflows를 활용해 Bun을 Zig에서 Rust로 포팅한 작업이다: 약 75만 줄, 11일, 기존 테스트 스위트 통과율 99.8%.

 

"75만 줄을 11일 만에"라는 숫자를 곧이곧대로 읽기 전에 짚을 게 하나 있다. 이건 완전히 자동화 사례가 아니라 Sumner가 Claude와 같이 붙어서 한 작업이다. 그래도 대규모 코드 마이그레이션에서 이 도구가 쓸 만하다는 걸 보여주는 사례로는 충분하다.

 

Klarna의 Senior Engineering Manager Alessio Vallero는 "대규모 코드베이스에서 발견과 리뷰 작업에 특히 유용하다"고 평가했다. 개발자 입장에서는 리뷰 전 준비 작업 — 어떤 파일이 영향을 받는지, 어떤 패턴이 반복되는지 — 에서 의미 있는 시간 절약을 기대할 수 있다.

 

처음 Dynamic Workflows를 써보고 싶다면 /deep-research 명령이 가장 빠른 진입점이다. Claude Code에 내장된 번들 워크플로우로, 여러 소스에 걸쳐 질문을 탐색하는 작업을 수행한다.

 

직접 써보기 전에 내가 가장 궁금했던 건 "서브에이전트가 많아질수록 비용도 그만큼 늘어나는가"였다. 동시 16개·총 1,000개라는 상한을 보면 무한정 늘어나진 않지만, 한 요청이 수백 개 서브에이전트로 분기되면 토큰 소비가 단일 세션과는 다른 규모가 된다. 처음이라면 작은 작업부터 걸어보고 소비량 패턴을 눈으로 확인한 뒤 규모를 키우는 편이 안전하다.

 

4. ultracode — Claude Code 설정과 effort 조절 패널

Q. ultracode는 모델 effort 레벨인가?

아닙니다. ultracode는 모델의 effort 레벨이 아니라 Claude Code의 고급 세션 설정입니다. /effort 메뉴에서 활성화하면 모델에 xhigh 추론 강도를 전달하는 동시에, Claude가 복잡한 작업을 처리하기 위해 동적 워크플로우(Dynamic Workflows)를 자동으로 구성하고 관리합니다. 해당 설정은 현재 세션에 한해서만 유효합니다.

핵심 요약: ultracode는 Claude Code 설정이지, 모델의 effort 레벨이 아닙니다. 이 두 개념을 명확히 구분하는 것이 본 기능 이해의 핵심입니다.

 

공식 문서는 이를 명확히 정의한다:

"The /effort menu also offers ultracode. Ultracode is a Claude Code setting rather than a model effort level: it sends xhigh to the model and additionally has Claude orchestrate dynamic workflows for substantive tasks. It applies to the current session only." (출처: Claude Code 공식 모델 설정 문서)

ultracode 공식 문서 - Claude Code 설정으로서의 ultracode 정의 화면

 

ex) 번역본

/effort 메뉴에서 ultracode를 선택할 수도 있습니다.
ultracode는 단순한 모델 추론 수준 설정이 아니라 Claude Code의 고급 작업 모드입니다.

활성화하면 모델에 xhigh 추론 강도가 적용되며, 동시에 Claude가 복잡한 작업을 처리하기 위해 동적 워크플로우(Dynamic Workflows)를 자동으로 구성하고 관리합니다.
해당 설정은 현재 세션에 한해서만 유효합니다.

 

풀어보면 이렇다.

ultracode를 켜면 Claude Code가 모델에 xhigh effort를 전달하고,

거기에 더해 좀 묵직한 작업이다 싶으면 Dynamic Workflows를 알아서 엮어 돌린다.

 

ex) workflow가 자동으로 동작 되는 모습

 - 진행 상황 확인 

 - workflows로 토큰이 녹는 모습 / 이로 인해 몇몇 세션은 동작했지만, complete 이라고 나온 세션들은 사실 리밋 제한이 걸려 종료된 세션들이 대부분 이었다. 토큰이 여유로울때 하자. 

 

 

두 가지가 같이 움직이는 거지, ultracode가 곧 xhigh effort 레벨인 건 아니다.

설정 reasoning Dynamic Workflow 자동 실행 적합 상황
effort: high (기본) high 없음 일반 작업, 단일 파일 수정
effort: xhigh 최대 없음 복잡한 단일 작업, 깊은 추론 필요
ultracode (CC 설정) xhigh 전달 Claude가 판단해 자동 실행 대규모 마이그레이션, 멀티 파일 리팩터링

 

effort 레벨 체계

Claude Code effort 레벨 체계 - low부터 max까지 모델별 설정 화면
모델 지원 effort 레벨 기본값
Opus 4.8, Opus 4.7 low / medium / high / xhigh / max Opus 4.8: high, Opus 4.7: xhigh
Opus 4.6, Sonnet 4.6 low / medium / high / max (xhigh 미지원) high

눈에 띄는 건 Opus 4.8의 기본 effort가 4.7의 xhigh가 아니라 high라는 점이다.

4.7 때 기본이던 xhigh에서 한 단계 내려왔다.

같은 effort에서도 4.8이 더 효율적으로 돈다는 뜻으로 보면 될 것 같다.

 

ultracode 활성화 방법

ultracode는 /effort 메뉴에서 접근하거나,

ex)

Claude Code /effort 메뉴에서 ultracode 선택하는 화면

 

--settings 또는 Agent SDK control request를 통해 "ultracode": true로 전달하면 활성화된다.

중요한 점은 ultracode가 effortLevel 설정, --effort 플래그, CLAUDE_CODE_EFFORT_LEVEL 환경변수에 포함되지 않는다는 것이다.

이것들은 별개의 메커니즘이다.

 

ultracode는 세션 전용이다: 현재 세션에만 적용되며, 설정 파일이나 --effort 플래그로 저장·유지되지 않는다.

매번 필요할 때마다 켜야 한다는 의미이기도 하고, 반대로 세션이 끝나면 자동으로 해제된다는 의미이기도 하다.

 

언제 쓰고 언제 쓰지 않는가

ultracode 사용 권장 상황별 가이드 화면
상황 권장
대규모 코드 마이그레이션, 리팩터링 ultracode ON — 병렬 워크플로우 효과 최대
탐색적 질문, 단일 파일 수정 ultracode OFF — 추가 부담 불필요
비용/토큰 소비 제한이 중요한 환경 ultracode OFF — xhigh effort + 다중 서브에이전트로 비용 증가
검증 루프가 중요한 대형 PR ultracode ON — 이해→수정→검증 자동 연쇄

내가 켜고 끄는 기준은 단순하다.

"이 작업을 사람 여럿이 나눠서 한다면 도움이 될까"를 먼저 떠올린다. 그렇다면 ultracode를 켜고,

혼자 빠르게 끝낼 단순 작업이라면 끈다.

세션 전용이라 매번 켜야 하는 게 번거롭게 느껴질 수 있는데, 막상 써보면 작업 시작 시점에 한 번 판단하고 넘어가는 흐름이 오히려 자연스럽다.

 

5. Fast mode 2.5배 속도 — 언제 쓸모 있는가

Opus 4.8의 Fast mode는 표준 모드 대비 2.5배 속도로 실행되며, 이전 Fast mode 대비 3배 저렴하다.

(출처: Anthropic 공식 발표) 공식 발표는 "3배 저렴"이라는 표현을 쓴다.

Fast mode 달러 가격 — 직접 확인 권장: 일부 매체에서 $10/백만 입력 · $50/백만 출력(표준가 2배)으로 표기했으나, 이 수치는 3차 매체에서 확인된 것이며 공식 anthropic.com 발표에서는 "이전 Fast mode 대비 3배 저렴"이라는 상대적 표현만 사용됐다.
정확한 달러 가격은 공식 가격 페이지에서 확인하는 것을 권장한다.

Opus 4.8 Fast mode 2.5배 속도 및 3배 저렴한 가격 비교 화면

Fast mode가 의미 있는 상황은 구체적이다: 응답 대기 시간이 병목이 되는 경우, 대화형 코딩 보조, 고빈도 API 호출 파이프라인. Opus 급 모델의 응답 속도가 체감상 느리다고 느낀 개발자에게 실용적인 선택지다.

 

반대로 깊은 추론이 필요하거나, 단계가 복잡하거나, 속도보다 정확도가 중요한 프로덕션 파이프라인이라면 표준 모드가 낫다. 결국 작업 성격을 보고 고르면 된다.

 

개인적으로는 코드 리뷰 코멘트 정리나 커밋 메시지 초안처럼 "정답이 하나로 좁혀지는 가벼운 작업"에 Fast mode가 잘 맞는다고 본다.

반대로 설계 판단이 섞인 작업에 속도를 우선하면, 빨리 받은 답을 다시 검토하느라 오히려 시간을 더 쓰게 되는 경우가 있다.

언제 Fast mode가 유리한가 — 한눈에

  • 응답 지연이 작업 흐름을 끊는 대화형 코딩 보조
  • 커밋 메시지·리뷰 코멘트 같은 정답이 좁은 경량 작업
  • 고빈도 API 호출로 누적 지연이 비용이 되는 파이프라인
  • 반대로 설계 판단·복잡한 다단계 추론은 표준 모드 권장

ex) 상황별 설정 예시

상황별 effort 설정 예시 - Fast mode와 표준 모드 선택 가이드

  

6. Claude Code 업데이트 3종 — Agent view · /goal · 보안 검토

Opus 4.8 출시와 맞물려 Claude Code에 세 가지 의미 있는 업데이트가 왔다.

( 이미 출시된 기능이지만 4.8 opus와의 결합시 더 최적화 되지 않을까 하여 작성해보았다.)

이 중 Agent view와 /goal은 2026-05-11(v2.1.139) 기준이며, /code-review --fix는 2026-05-27(v2.1.152) 기준이다.

Claude Code 업데이트 3종 개요 - Agent view, /goal, /code-review

 

6-1. Agent view — 모든 세션을 단일 목록으로

Agent view는 실행 중인 세션, 사용자 입력 대기 중인 세션, 완료된 세션 전체를 하나의 목록으로 통합 관리한다. claude agents 명령으로 실행하며, Research Preview 상태다.

 

여러 Claude Code 세션을 동시에 돌리는 환경에서 이 기능의 가치가 두드러진다. 어떤 세션이 멈춰 있는지, 어디서 사용자 입력을 기다리는지를 탭 전환 없이 한 화면에서 파악할 수 있다. Dynamic Workflows와 함께 쓸 때 특히 유용하다.

 

ex) claude agents

 - claude agents로 세션을 시작하면 아무런 동작이 없을때에는 다음과 같이 0개의 agents 상태 알림을 확인 가능하다.

claude agents 명령 실행 시 0개 에이전트 상태 알림 화면

 - claude agents로 시작한 세션에서 prompt를 날리게 되면 다음과 같이 n개의 작업을 별도의 세션에서 동작하게 시킬 수 있으며, 화살표로 움직여 상세 작업 내용을 살펴볼수 있다.

 - 화살표로 이동한 후 Enter 입력

  - 해당 기존의 클로드 코드 세션처럼 작업 및 확인이 가능하다.

 

6-2. /goal — 완료 조건 설정 후 자율 작업

/goal 명령은 완료 조건을 설정하면 Claude가 해당 조건을 충족할 때까지 여러 턴에 걸쳐 자율적으로 작업을 지속하는 기능이다.

대화형, -p(비대화형), Remote Control 모두에서 동작하며, 진행 중 경과 시간·턴 수·토큰 소비를 오버레이 패널로 표시한다.

 

실전에서 가장 유용한 패턴은 장시간 작업을 야간에 세션을 열어두고 다음 날 아침 결과를 확인하는 것이다. 개인적으로는 복잡한 리팩터링을 걸어두고 다른 작업을 하는 사이 Claude가 처리하게 하는 방식으로 쓸 수 있다.

ex) /goal 목표 입력

Claude Code /goal 명령으로 완료 조건 입력하는 화면

 

ex) 코덱스도 동일한데 권한때문에 중간에 동작하지 않은 상태가 있지만, 정말 목표를 달성할때까지 목표가 해제되지 않는 모습

Claude Code /goal이 목표 달성까지 해제되지 않는 실행 상태 화면

 

6-3. /code-review --fix — 리뷰 결과 자동 적용

/code-review --fix는 코드 리뷰 결과(재사용·단순화·효율성 제안)를 작업 트리에 자동으로 적용한다.

/simplify 명령도 이제 내부적으로 /code-review --fix를 호출한다.

 

ex) code-review 

Claude Code /code-review 명령 실행 결과 화면
code-review --fix 자동 적용 결과 화면

 

ex) simplify 

Claude Code /simplify 명령 실행 화면

 

기능 버전 (날짜) 핵심 역할
Agent view v2.1.139 (2026-05-11) 전체 세션 통합 목록 — claude agents
/goal v2.1.139 (2026-05-11) 완료 조건 기반 자율 다턴 작업
/code-review --fix v2.1.152 (2026-05-27) 리뷰 결과 작업 트리에 자동 적용

 

7. Mythos 보류와 커뮤니티 반응

Q. Mythos 모델은 언제 출시되는가?

Anthropic은 공식 발표에서 'coming weeks'(향후 몇 주 내)라고만 밝혔으며, 구체적인 출시 일정은 이 글 작성 시점(2026-05-29) 기준 아직 공개되지 않았습니다. 이번 발표에서 주목할 또 다른 부분은 이 Mythos-class 모델의 보류 결정입니다.

Anthropic Mythos-class 모델 보류 관련 공식 발표 화면

Anthropic은 공식 발표에서 이렇게 밝혔다:

"Models of this capability level require stronger cyber safeguards...We're making swift progress on developing these safeguards and expect to be able to bring Mythos-class models to all our customers in the coming weeks."

 

번역 : 이 수준의 역량을 가진 모델을 공개하기 위해서는 더욱 강화된 사이버 보안 보호 체계가 필요합니다. 현재 우리는 이러한 안전장치 구축에 빠르게 진전을 이루고 있으며, 향후 몇 주 내로 Mythos 클래스 모델을 모든 고객이 사용할 수 있도록 제공할 계획입니다.

 

공식적으로 구체적인 위협 모델, 충족해야 할 통제 항목, 해제 조건을 공개하지 않았다.

Axios 보도에 따르면 Mythos는 현재 "소수의 선정된 파트너에게만 공개" 상태다. 

 

커뮤니티 반응 — 빠른 출시 주기에 대한 온도차

HN 커뮤니티에서 사용자 NiloCK는 "4.5와 비교했을 때 어떤 능력 개선이 있는지 명확히 파악하기 어렵다"는 반응을 남겼다. (출처: HN 토론) 4.5 → 4.6 → 4.7 → 4.8로 이어지는 버전 연속 출시 패턴에 대한 피로감이 반영된 반응이다.

 

MacRumors 포럼에서는 "이 마이너 모델 업데이트를 계속 따라가는 사람이 실제로 있냐"는 피로감 섞인 반응도 있었다. (출처: MacRumors 포럼) 같은 포럼에선 '정직성' 주장을 두고 "정직성에는 실제 지능이 필요하다"는 시큰둥한 반응도 나왔다. 공식 메시지와 실사용자 체감 사이의 간극이 그대로 드러나는 대목이다.

 

반면 HN의 또 다른 사용자 onlyrealcuzzo는 다음 세대 프론티어 모델이 마지막일 수 있다는 관점을 제시했다 — 소형 오픈소스 모델들이 2~3년 내 현재 SOTA를 따라잡을 수 있다는 주장이다. (출처: HN 토론) 다수 upvote를 받은 댓글이었지만, 이것은 커뮤니티 추측이며 공식 분석이 아니다.

 

반응을 정리하면 이렇다. 빠른 출시 주기에 지쳤다는 쪽이 있고, Dynamic Workflows나 ultracode 같은 실제 도구 개선을 반기는 쪽이 있다. 재미있는 건 같은 사실을 두고 입장이 갈린다는 거다. 어느 쪽 목소리가 큰지 따지기보다, 내 작업에 뭐가 와닿는지를 기준으로 보면 된다.

 

7-2. 하루 뒤 업데이트 — 출시 이틀째 커뮤니티 반응 (2026-05-30 추가)

이 글의 본문은 출시 다음 날인 2026-05-29에 작성은 해두었었다.

그런데 하루 사이 해외·국내 반응이 더 쌓여서, 출시 이틀째(2026-05-30) 분위기를 따로 덧붙이게 되었다.

이틀째 분위기는 한마디로 "확실히 똑똑해졌는데, 알아서 챙기는 센스는 아직"이라는 평이 보인다.

Claude Opus 4.8 출시 이틀째 커뮤니티 반응 요약 화면

 

가장 눈에 띈 건 "GPT로 갈아탔다가 다시 돌아왔다"는 반응이다.

뉴스레터 every.to의 Vibe Check는 자기 팀의 클로드 골수 사용자들이 OpenAI Codex 앱 때문에 GPT로 손이 갔었는데, Opus 4.8을 보고 "다시 달려 돌아왔다(running back)"고 적었다. (출처: every.to — Opus 4.8 Vibe Check)

다만 같은 글은 "모델은 (그걸 감싼) 앱보다 강하다"며, 클로드 앱 UI의 파편화는 여전한 약점이라고 짚었다.

every.to Vibe Check - Opus 4.8 vs GPT-5.5 벤치마크 비교 화면

수치로도 비슷한 그림이다. every.to가 자체 운영하는 Senior Engineer 벤치마크에서 Opus 4.8은 xhigh effort 기준 63점, GPT-5.5는 62점, Opus 4.7은 33.5점이었다. 다만 이건 every.to의 주관적 사내 평가라 §2의 공식 SWE-Bench Pro(69.2%)와는 척도가 달라 직접 비교할 수 없다. 63 대 62는 1점 차로 GPT-5.5와 사실상 동급이고, 의미가 있는 건 오히려 4.7(33.5)에서 4.8(63)로의 큰 도약이다. "멍청한 느낌이 사라졌다"는 체감과 맞닿는 지점이다.

 

냉정한 평가도 있다.

개발자 Simon Willison은 Anthropic이 스스로 4.8을 "점진적이지만 체감되는 개선(a modest but tangible improvement)"이라고 표현한 대목을 짚으며, "AI 연구소가 신모델을 솔직하게 '소폭 개선'이라고 말하는 게 오히려 신선하다"고 했다. (출처: Simon Willison — Claude Opus 4.8)

혁신이라기보다 "이제 쓸 만해진 점진적 업데이트"라는 시각이다.

출처 출시 이틀째 주요 반응
every.to (해외) "GPT 갔다가 다시 클로드로" · 자체 벤치 63 vs GPT-5.5 62 · 앱 UI는 아쉬움
Simon Willison (해외) "점진적이지만 솔직한 개선" — 과대포장 없는 점이 신선
r/ClaudeAI (해외) "더 정직하다더니 오히려 아첨이 늘었다" — 커뮤니티 관찰, 공식 미확인
요즘IT (국내) "클로드가 빼앗긴 주도권을 되찾을까" — 경쟁 구도 관점
AI타임스 (국내) "근거 없는 과신을 잡았다" — 정직성 개선에 무게

 

그런데 결이 다른 신호도 하루 만에 나왔다.

먼저 짚어둘 게 있다. 이 글이 말한 '정직성'은 사실 두 축이다.

Opus 4.8 정직성의 두 축 - 코드 사실성과 대화 톤 비교 화면

하나는 자기가 쓴 코드의 결함을 숨기지 않는 사실성 차원(공식 발표가 말한 4배 개선)이고,

다른 하나는 사용자 의견에 얼마나 고분고분한가라는 대화 톤 차원이다.

둘은 별개 축이다.

 

그런데 일부 사용자들은 4.8이 "당신 말이 맞다(you're right to…)"는 동의로 응답을 열고 교정을 아첨으로 감싸는 경향이 보이며,

동일 프롬프트에서 4.7보다 더 두드러졌다고 보고했다.

코드 정직성은 좋아졌다는데 대화에선 더 아첨한다니..... ㅎㅎㅎ 

'아첨' 보고는 공식 확인된 내용이 아니다: 위 sycophancy 보고는 커뮤니티 사용자들의 체감 관찰이며, Anthropic 공식 벤치마크로 검증된 결과가 아니다. "동일 프롬프트 비교"라지만 표본·방법이 공개되지 않아 [미확인]으로 한번더 표기한다.

이 반응들을 한데 모으면, 커뮤니티가 4.8을 받아들이는 정서는 "FM대로 일하는 신입 부하직원이 생긴 느낌"에 가깝다.

시키는 일은 전보다 정직하게, 빠뜨리는 것 없이 해낸다.

그리고 위 [미확인] 아첨 관찰이 사실이라면, 시키지 않은 걸 알아서 챙기거나 내 말에 날을 세워 반박하는 눈치는 아직 모자란 셈이다.

 

every.to 팀처럼 GPT-5.5로 손이 갔다가 4.8로 돌아온 경우라면, "얼마나 똑똑한가"보다 이 "정직하되 고분고분한" 성격이 내 작업 방식과 맞는지를 먼저 보게 될 것 같다. 

 

현재 나도 주력은 Codex였는데, 고민이다. 한동안 Opus4.8의 성능과, 토큰이 얼마나 빠르게 녹아 버리냐에 따라 판단하게 될 것 같다.

( 이미 열심히 사용하고 벌써 리뷰한 사례를 미리 다음 섹션에 하나 남겨 두도록 하겠다.)

 

8. 실제로 써보면 어떤가 — 4.7 대비 체감과 개발자 판단

Opus 4.7이 개발자 커뮤니티에서 받은 반응은 냉랭했다. TechCrunch는 "chilly reception"이라고 표현했고, 주된 불만은 주석 과다 작성과 도구 호출 일관성 문제였다. (출처: TechCrunch)

 

Devin CEO는 Opus 4.8이 "4.7에서 봤던 주석 과다 작성과 도구 호출 일관성 문제를 수정했다"고 공개 발언했다.

(출처: DevToolPicks — Devin CEO 발언 인용) 이것은 기업 제품 평가이다.

Devin CEO와 Cursor CEO의 Opus 4.8 평가 인용 화면

Cursor CEO는 Opus 4.8이 "모든 effort 레벨에서 이전 Opus 모델들을 능가한다"고 평가했다. (출처: DevToolPicks)

 

4.7에서 4.8로 전환할 때 체감 차이

관점 4.7 이슈 4.8 개선 (기업 평가 기반)
코드 작성 주석 과다, 불필요한 설명 주석 밀도 감소, 간결해짐
도구 호출 일관성 부족 일관성 개선
불확실성 처리 침묵으로 통과 선제적 플래그
에이전트 신뢰도 낮음 테스터 평가 기준 향상

위 표는 기업 테스터와 초기 사용자 평가를 종합한 것이며, 공식 벤치마크 결과가 아니다.

 

HN에서 일부 사용자는 4.5 대비 개선이 명확하지 않다는 반응을 보였다.

직접 비교해보기 전까지 체감 차이는 개인 환경과 사용 목적에 따라 다를 수 있다.

Max 또는 Pro 플랜을 사용 중이라면 Dynamic Workflows와 ultracode를 함께 테스트하는 것이 4.8의 개선을 가장 직접적으로 확인하는 방법이다.

 

9. 결론 — 이 업데이트를 어떻게 받아들여야 할까

공식 가이드와 현실의 차이: Anthropic 공식 문서는 ultracode와 Dynamic Workflows의 기술적 상한과 켜는 방법은 깔끔하게 설명한다. 그런데 실제 현장에서 어떤 작업에 효과가 크고 어떤 경우엔 괜히 부담만 늘어나는지는, 아직 커뮤니티에 쌓인 데이터가 부족하다. 이 기능들이 아직 Research Preview라는 점을 생각하면, 운영 핵심 환경에 곧장 넣기보다 덜 중요한 작업에서 먼저 굴려보는 게 안전하다.

한 줄로 정리하면 이렇다. Anthropic은 이번 출시 주기와 기능 구성으로 "작은 조직처럼 병렬로 일하고, 모델이 실패를 정직하게 말하는" 방향을 골랐다. 이게 일종의 선언이라면, 41일 만의 출시가 그 첫 실행인 셈이다.

 

내가 이번 업데이트에서 가장 무게를 두는 건 화려한 벤치마크 숫자가 아니라 ultracode와 Dynamic Workflows가 바꾸는 작업 방식이다. 모델이 얼마나 똑똑해졌는지보다, 내 손에서 일이 어떻게 굴러가는지가 더 빨리 체감되기 때문이다. 처음이라면 결정 매트릭스에서 자신의 플랜에 해당하는 줄부터 따라가며 한 가지씩 켜보는 편이 낫다.

 

업데이트 수용 결정 매트릭스

Opus 4.8 업데이트 수용 결정 매트릭스 - 플랜별 권장 액션 표
상황 권장 액션
Max/Team 플랜 + 대규모 코드 마이그레이션 Dynamic Workflows + ultracode 즉시 테스트
Pro 플랜 + 일반 개발 /config에서 Dynamic Workflows 수동 활성화 후 테스트
Enterprise + 보안 정책 강한 환경 관리자 확인 후 활성화 여부 결정
API 비용 민감 환경 Fast mode 우선 검토, ultracode는 신중하게
Opus 4.7에서 주석 과다/도구 호출 불만이 있었던 경우 4.8 전환 적극 권장

독자 적용 체크리스트 — 오늘 바로 해볼 것

  • Claude Code 버전 확인: claude --version으로 v2.1.154 이상인지 확인한다. 미달이면 업데이트 후 Dynamic Workflows 사용 가능.
  • Max/Team 플랜이라면 /deep-research 명령으로 Dynamic Workflows 첫 체험 — 어떻게 서브에이전트가 분기되는지 직접 확인한다.
  • ultracode가 필요한 작업인지 판단: 대규모 리팩터링·마이그레이션이라면 /effort 메뉴에서 ultracode ON을 테스트한다. 단순 질문·단일 파일 수정은 ultracode 없이도 충분하다.
  • Pro 플랜이라면 /config에서 Dynamic Workflows 행을 찾아 직접 켜본다. 기본 비활성화 상태임을 잊지 않는다.
  • 주간 한도 증가(~2026-07-13) 기간을 활용해 ultracode + Dynamic Workflows 조합을 실제 작업에 테스트할 기회로 삼는다. (@ClaudeDevs 발표 기준 — 공식 출처 미확인, 적용 전 claude.ai에서 현재 한도 먼저 확인 권장)

작성일: 2026-05-29 · 최종 수정: 2026-05-30 (§7-2 출시 이틀째 반응 추가)

분석 대상: Claude Opus 4.8 (2026-05-28 출시), Claude Code v2.1.154+

이 글은 2026년 5월 29일 기준으로 작성됐다. 가격·플랜 정보·기능 상태는 이후 변경될 수 있다. 최신 내용은 공식 Opus 페이지에서 확인하는 것을 권장한다.

300x250
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.

💡 AI 관련 질문이 있나요? 눌러보세요!