RSP v3.0에서 삭제된 'pause 약속'은 무엇인가?

이전 RSP에는 안전 완화 조치를 보장하지 못하면 모델 개발을 중단한다는 하드 커밋먼트가 있었습니다. RSP v3.0(2026-02-24 발효)에서는 이 단독 pause 조항이 삭제됐습니다. 단순 조건 완화가 아니라 정책 구조가 변경됐습니다. 회사 자체 계획(company plans)과 산업 전체 권고(industry-wide recommendations)를 분리하고, Risk Reports·external review·competitor-contingent commitments를 포함한 다층 구조로 전환됐습니다. (출처: Anthropic RSP v3.0 전문, Appendix A)

Claude Mythos는 ASL-4 모델인가?

Anthropic이 공식적으로 ASL-4로 분류하지 않았습니다. 다만 유출 문서와 RSP v3.0 문서의 내용을 근거로 여러 매체가 'ASL-4 임박' 또는 '접근 중'이라고 분석합니다. ASL-4는 아직 정식으로 정의되지 않은 단계입니다.

AI/AI 주간 News

Claude Mythos(Capybara) - 앤트로픽 Claude Mythos 유출 분석 : ASL-4 임박, RSP 변화, 개발자 시사점

안녕하세요! 갓대희입니다.

2026년 3월 26일, Fortune의 단독 보도 하나가 AI 업계를 뒤흔들었다.

앤트로픽(Anthropic)이 CMS(콘텐츠 관리 시스템) 설정 오류라는 인적 실수 하나로, 발표 예정이었던 블로그 게시물과 관련 자료 약 3,000건을 외부에 노출시켰다. 그 문서들 안에 아무도 예상하지 못했던 정보가 담겨 있었다. 앤트로픽이 개발한 역대 가장 강력한 AI 모델 Claude Mythos(코드명 Capybara)의 존재와 개요가 세상에 모습을 드러낸 것이다.

사이버보안 분야에서 "다른 어떤 AI 모델보다 훨씬 앞서 있다"는 내부 평가, "전례 없는 사이버보안 위험"이라는 자체 경고, 그리고 ASL-4 임박 신호까지. 이 유출은 단순한 실수를 넘어서 AI 안전 논의의 판을 바꾸는 사건이 됐다.

오늘은 공식 소스를 기반으로 이 사건의 전모와 시사점을 분석해보자.

3줄 요약
1. 앤트로픽 CMS 인적 오류로 약 3,000건 미공개 자료 유출 — 그 안에 역대 최강 모델 Claude Mythos(코드명 Capybara) 존재 확인 (출처: Fortune, 2026-03-26)

2. 모델은 소프트웨어 코딩·학술 추론·사이버보안 전 분야에서 Claude Opus 4.6 대비 극적으로 높은 점수 — 내부 문서는 "전례 없는 사이버보안 위험"이라고 자체 경고

3. 앤트로픽은 2026-02-24 RSP v3.0을 발효하며 기존 "학습 중단" 하드 커밋먼트를 삭제 — ASL-4 임박 신호와 맞물려 AI 안전 논쟁이 재점화

사건 개요 — 실수로 열린 판도라의 상자
- 무엇이 노출됐나
- 누가 발견했나
- 앤트로픽의 공식 대응
Claude Mythos와 Capybara 계층
- 두 이름의 관계
- Capybara: Opus를 넘는 새 계층
- "지금까지 개발한 AI 모델 중 단연 가장 강력한"
성능 — 무엇이 다른가
- 코딩·추론·사이버보안
- "step change"의 의미
- 경쟁 구도 — GPT-5, Gemini 3와의 맥락
전례 없는 사이버보안 위험
- 내부 경고 내용
- 공격자 vs 방어자 비대칭
- 업계 전반의 사이버 위험 — Anthropic만의 문제가 아니다
ASL-4 임박 신호
- ASL 체계란
- 현재 모델 수준
- ASL-4의 의미
RSP v3.0 — Pause 약속 삭제의 의미
- 무엇이 바뀌었나
- 왜 바꿨나
- 비판과 반론
- 업계 정책 비교 — OpenAI·Google과의 수렴과 차이
출시 전략 — 신중한 단계적 배포
- 얼리 액세스 → 사이버 방어 우선
- 정식 출시 타임라인
개발자·보안 전문가에게 주는 시사점
자주 묻는 질문
참고 자료

1. 사건 개요 — 실수로 열린 판도라의 상자

무엇이 노출됐나

2026년 3월 26일, Fortune이 단독으로 보도한 내용에 따르면 앤트로픽의 CMS(콘텐츠 관리 시스템) 외부 도구에 설정 오류가 발생해, 중앙 데이터 저장소에 업로드된 자료 가운데 명시적으로 비공개 설정을 하지 않은 것들이 기본적으로 공개 상태가 됐다.

이로 인해 앤트로픽의 뉴스·연구 사이트에 정식으로 발행되지 않은 미공개 자산 약 3,000건이 외부에서 접근 가능한 상태였다. 여기에는 발표 예정인 블로그 게시물 초안, 관련 이미지, 내부 문서 등이 포함됐다. 그 중 가장 주목받은 것은 아직 공개되지 않은 신규 AI 모델에 관한 두 가지 버전의 초안 블로그 포스트였다.

공식 문서 출처
Fortune에 따르면 앤트로픽은 외부 CMS 도구 문제로 초안 콘텐츠가 접근 가능한 상태가 됐다고 설명했다.
(앤트로픽 대변인, Fortune 인용 — 원문 간접 인용)

앤트로픽은 이 사건을 "인적 오류의 결과(result of human error)"라고 공식 설명했다.
→ Fortune 원본 기사 (2026-03-26)

누가 발견했나

이 노출된 저장소를 발견하고 검토한 것은 두 명의 보안 연구원이었다.

연구원	소속	역할
Roy Paz	LayerX Security (선임 AI 보안 연구원)	노출 저장소 발견 및 1차 검토
Alexandre Pauwels	University of Cambridge (사이버보안 연구원)	보안이 취약한 공개 접근 가능 저장소 분석

두 연구원은 이 자료를 Fortune에 제공했고, Fortune은 3월 26일 단독 보도로 세상에 알렸다. 이후 국내외 주요 언론이 일제히 보도를 이어갔다. (출처: Fortune, 2026-03-26)

앤트로픽의 공식 대응

앤트로픽은 이 사건에 대해 비교적 즉각적으로 반응했다.

대변인은 Fortune의 보도에 대해 새로운 모델을 학습했으며 현재 테스트 중임을 인정했다. 동시에 "추론, 코딩 및 사이버보안 측면에서 의미 있는 발전을 이룬 범용 모델을 개발하고 있다"고 밝혔으며, 이 모델이 "step change(획기적 변화)"를 가져올 것이며 "지금까지 개발한 모델 중 가장 뛰어난 성능을 자랑한다"고 덧붙였다.

또한 "소수의 얼리 액세스 고객과 협력하여 모델을 테스트하고 있다"고 확인했다. 보안 문제를 해결했으며 추가 미공개 자산의 노출을 방지하기 위한 조치를 취했다고 밝혔다.

2. Claude Mythos와 Capybara 계층

두 이름의 관계

유출된 자료에서 모델은 두 가지 이름으로 등장한다. Claude Mythos(미토스)와 Capybara(카피바라)다.

• Fortune 원본 보도는 두 이름이 동일 모델을 가리키는 것으로 서술한다.
• 일부 2차 매체는 Capybara를 "독립된 새 계층 이름"으로 해석하지만, 이는 Fortune 원본에 기반한 추가 해석이다.
• "Capybara가 계층 이름인지, 아니면 모델의 후보 이름인지"는 Anthropic이 아직 공식 확인하지 않았다.

Fortune 원본 보도를 기준으로 정리하면, 초안 블로그 포스트 버전 1은 "Mythos"라는 이름을 사용하고, 버전 2는 "Capybara"라는 이름을 사용했다. 두 문서 모두 동일한 신규 최상위 모델을 설명한다. 본 글에서는 일반적으로 통용되는 표현인 Claude Mythos(코드명 Capybara)로 통일해 사용한다.

Capybara: Opus를 넘는 새 계층

유출 문서에는 Capybara에 대해 이렇게 설명한다.

(출처: Fortune, 2026-03-26)

Capybara 계층의 위치

"Capybara는 새로운 모델 계층의 새로운 이름이며, 지금까지 가장 강력했던 Opus보다 더 크고 지능적이다. 단, 더 비싸다."

(유출된 초안 블로그 포스트 내용, Fortune 인용)

현재 앤트로픽의 모델 계층은 하이쿠(Haiku) → 소네트(Sonnet) → 오퍼스(Opus) 순으로 구성되어 있다. Capybara는 이 Opus 위에 새로운 최상위 계층으로 자리 잡는다. 이는 단순한 버전 업그레이드가 아니라 계층 자체의 확장이다.

계층	대표 모델	특징	상태
Haiku	Claude Haiku 4.5	속도·비용 최적화, 경량	정식 출시
Sonnet	Claude Sonnet 4.6	균형형, 범용	정식 출시
Opus	Claude Opus 4.6	최고 성능, 복잡한 작업	정식 출시
Capybara	Claude Mythos	Opus를 초월, 극도의 성능	얼리 액세스 테스트 중

※ 계층 구조는 유출 초안 문서 및 Fortune 보도 기반. 정식 출시 전까지 변경될 수 있음.

"지금까지 개발한 AI 모델 중 단연 가장 강력한"

유출 문서에서 가장 인상적인 표현은 앤트로픽의 자기 평가다. 유출된 초안에는 Claude Mythos에 대해 "지금까지 개발한 AI 모델 중 단연 가장 강력한 모델(by far the most powerful AI model we've ever developed)"이라고 적혀 있다. 앤트로픽 대변인도 이 모델이 "step change"를 가져올 것이라고 공식 확인했다.

(출처: Fortune, 2026-03-26)

3. 성능 — 무엇이 다른가

코딩 · 추론 · 사이버보안

유출된 초안 문서는 Claude Opus 4.6과 Capybara(Mythos)를 비교하며 구체적인 영역을 명시한다.

(출처: Fortune, 2026-03-26)

유출 초안 원문 인용
"Compared to our previous best model, Claude Opus 4.6, Capybara gets dramatically higher scores on tests of software coding, academic reasoning, and cybersecurity, among others."

(“기존 최고 성능 모델인 Claude Opus 4.6과 비교하면, Capybara는 소프트웨어 코딩, 학문적 추론, 사이버보안 등 다양한 테스트에서 훨씬 뛰어난 점수를 보여줍니다.”)

(유출된 앤트로픽 초안 블로그, Fortune 보도)

• "dramatically higher scores"는 정성적 표현이며 구체적인 수치 벤치마크는 유출 문서에서 공개되지 않았다.
• 정확한 점수 차이와 벤치마크 환경은 앤트로픽의 공식 성능 보고서 발표를 기다려야 한다.
• 현재로서는 앤트로픽의 자체 평가이며 독립 제3자 검증은 이루어지지 않았다.

"step change"의 의미

앤트로픽이 사용한 "step change"라는 표현은 단순한 점진적 개선(incremental improvement)이 아닌 질적으로 다른 도약을 의미한다. AI 모델 발전에서 이 표현은 새로운 능력 영역이 열렸을 때 사용하는 업계 용어다.

앤트로픽이 자체적으로 이 표현을 사용하는 경우는 드물다. 이번 유출과 대변인의 공식 발언 모두 일관되게 "step change"를 사용했다는 점은 주목할 만하다. 다만 구체적으로 어떤 새로운 능력이 생겼는지는 공식 발표 전까지 추정, 추측 수준에서만 논의 가능하다.

경쟁 구도 — GPT-5, Gemini 3와의 맥락

Claude Mythos의 "step change"가 업계에서 어떤 의미인지 이해하려면, 동시대 경쟁 모델들의 위치를 함께 봐야 한다.

프론티어 AI 현황 비교 (2026년 3월 기준)

모델	주요 강점	출처/상태
Claude Mythos	코딩·학술추론·사이버보안 "dramatically higher", "step change" — Opus 4.6 대비	유출 문서 / Fortune (2026-03-26). 얼리 액세스 테스트 중
GPT-5 계열	코딩·에이전틱 작업 강화, SWE-bench 고점. GPT-5.1-Codex-Max는 사이버 CTF 76%	OpenAI 공식 발표. 정식 출시 완료 단계 존재
Gemini 3	에이전틱/vibe coding, 멀티모달 추론 강화	Google DeepMind FSF v3 (2025-09-22) 기반

GPT-5 계열이 코딩과 에이전틱 작업에서 강세를 보이는 동안, 앤트로픽은 Claude Mythos로 사이버보안 역량을 차별화 축으로 내세우고 있다는 점이 유출 문서에서 읽힌다. 다만 이는 앤트로픽 내부 문서의 자기 평가이며, GPT-5와의 직접 벤치마크 비교는 공식 발표 이후에야 가능하다.

4. 전례 없는 사이버보안 위험

내부 경고 내용

이번 유출에서 가장 충격적인 부분은 앤트로픽 자신이 자사 모델의 위험을 경고하는 내용이었다. 유출 문서에는 다음과 같은 표현이 포함됐다. (출처: Fortune, The Decoder, 2026-03-26)

유출 문서의 경고 표현
1. "currently far ahead of any other AI model in cyber capabilities"
(현재 사이버 역량에서 다른 어떤 AI 모델보다 훨씬 앞서 있다)

2. "unprecedented cybersecurity risks"
(전례 없는 사이버보안 위험)

3. Fortune 보도에 따르면, 유출 문서는 이 시스템이 방어자들의 대응 속도를 크게 앞지르는 방식으로 취약점을 악용할 수 있는 모델들의 등장을 예고한다고 서술했다. (원문 취지 요약 — 직접 인용 아님)

공격자 vs 방어자 비대칭

사이버보안 분야에서 AI의 등장은 공격과 방어 모두에 영향을 미친다. 그런데 이번 유출 문서가 특별히 경고하는 것은 비대칭성이다.

방어자는 넓은 표면(전체 코드베이스, 모든 시스템)을 지켜야 하는 반면, 공격자는 단 하나의 취약점만 찾으면 된다. AI가 취약점 탐색 속도를 획기적으로 높인다면, 이 비대칭성은 더욱 심화된다. 앤트로픽의 내부 문서는 이 모델이 방어자가 대응하기 전에 취약점을 악용할 수 있는 속도를 가질 수 있다고 경고한다.

바로 이 때문에 앤트로픽이 출시 전략에서 사이버 방어 조직에 먼저 접근권을 주는 방향을 고려하고 있다는 내용이 유출 문서에 포함됐다. 공격자보다 방어자가 먼저 준비할 수 있도록 하겠다는 취지다.

업계 전반의 사이버 위험 — Anthropic만의 문제가 아니다

"unprecedented cybersecurity risks"라는 표현을 앤트로픽 단독의 과장으로 읽으면 안 된다. 경쟁사들도 같은 문제를 인식하고 있다.

프론티어 AI 사이버 역량 — 업계 현황

모델	사이버 관련 공식 평가	정책 대응
Claude Mythos	내부 문서: "다른 어떤 AI보다 사이버 역량 far ahead", "unprecedented risks" — 유출 문서 기반 [UNVERIFIED 공식 미확인]	방어 조직 얼리 액세스 우선 검토 (유출 초안)
GPT-5.1-Codex-Max	CTF 벤치마크 76% (GPT-5 기준 27%에서 급상승) — OpenAI Preparedness Framework 기준 High cybersecurity capability (출처: OpenAI, 2025-12-10)	Preparedness Framework Critical 평가 시 배포 제한
Gemini 3	Google FSF v3 (2025-09-22): "improved protection against misuse via cyberattacks" 명시 — 사이버공격 오용 방지 강화	CCL(Critical Capability Level) 기반 alert threshold 시스템

즉, "unprecedented"라는 앤트로픽의 표현은 Anthropic 자신의 이전 모델 대비 전례 없는 수준이라는 의미이면서, 동시에 GPT-5.1-Codex-Max가 이미 CTF 76%를 기록하는 등 업계 전체가 함께 직면한 사이버 dual-use 리스크의 한 단면이기도 하다. Anthropic만 위험한 모델을 만드는 것이 아니라, 프론티어 AI 전반이 이 임계점에 도달하고 있다는 신호다.

개발자 관점에서
이 경고가 현실화된다면, 코드베이스를 가진 모든 개발자·기업은 영향을 받는다. 앤트로픽이 방어자 우선 출시를 고려하는 이유가 여기에 있다. 코드 보안 감사 도구, 자동화된 취약점 탐지, 보안 테스트 자동화에 대한 수요가 급격히 높아질 것으로 예상된다.

5. ASL-4 임박 신호

ASL 체계란

앤트로픽은 2023년부터 AI Safety Level(ASL)이라는 자체 위험 평가 체계를 운영하고 있다. AI 모델의 위험 수준을 1~5단계로 구분하는 것으로, RSP(Responsible Scaling Policy)의 핵심 프레임워크다.

(출처: Anthropic RSP 공식 문서)

[주의] 아래 표는 RSP v3.0 공식 정의가 아닙니다
RSP v3.0(2026-02-24)은 ASL 각 단계를 고정된 표로 재정의하지 않는다. v3.0의 핵심 운영 프레임은 단계 표가 아니라 capability/usage thresholds + company plans + industry-wide recommendations + Risk Reports다. 특히 ASL-4 이상은 의도적으로 미정의 상태로 남겨두었다.

아래 표는 2023년 RSP 소개와 업계 통용 해석을 정리한 배경 설명이며, RSP v3.0의 공식 단계 정의로 이해하면 안 된다. (출처: RSP v3.0 전문)

단계	수준	설명	현재 상태
ASL-1	기초	기본 AI 수준, 최소 위험	—
ASL-2	표준	일반적 AI 도구 수준	—
ASL-3	고위험	비AI 기준선(검색·교과서) 대비 CBRN(화학·생물·방사능·핵) 오용 위험을 상당히 증가시키거나 저수준 자율 능력을 보이는 시스템 (출처: Anthropic RSP)	Claude Opus 4.6에 ASL-3 보호 조치 적용 중 (잠정·예방적)
ASL-4	초위험	[추정] 국가급 해킹 역량, 자율적 AI 연구 가능 — RSP v3.0에서 의도적으로 미정의. 향후 고역량 수준 확인 시 개발 예정	[추정] Mythos 접근 중 (미공식)
ASL-5	초월	인류 문명 수준 위협	—

현재 모델 수준과 ASL-4 임박

RSP v3.0(2026-02-24 발효) 문서에 따르면, Claude Opus 4.6은 AI R&D-4 능력 임계값을 초과하지 않는 것으로 현재 평가되어 있다. 그러나 문서는 동시에 이렇게 밝힌다. (출처: Anthropic RSP v3.0 발표)

RSP v3.0 문서 내용

"자신 있게 이 임계값을 배제하기가 점점 더 어려워지고 있으며, 더 주관적인 평가가 필요하다"
(RSP v3.0, 앤트로픽 공식 문서)

여러 매체의 분석에 따르면, Claude Mythos는 ASL-4 임계값에 "접근 중"일 가능성이 있다. 앤트로픽이 유출 문서에서 이 모델을 "전례 없는 사이버보안 위험"이라고 표현한 것이 이 분석의 근거다.

그러나 중요한 사실은 ASL-4가 아직 정식으로 정의되지 않았다는 점이다. RSP v3.0에서 상위 ASL(4 이상)은 "더 높은 AI 역량 수준이 어떤 모습일지 더 나은 그림이 생기면 세부 사항을 발전시킬 것"이라고 명시한다. ASL-4 자체가 현재 미완성 정의라는 점에서, 어떤 모델이 ASL-4라고 공식 선언하는 것은 한동안 어렵다. (출처: GovAI RSP v3.0 분석)

Boris Cherny의 ASL 발언

AI타임스 보도에서는 앤트로픽 Claude Code 책임자 Boris Cherny가 2026년 2월 초 팟캐스트에서 "현재 모델이 ASL-3에서 4로 넘어가는 단계"라고 밝혔다고 인용했다. 보리스 체르니(Boris Cherny, 앤트로픽의 Claude Code 창시자)의 2026년 2월 인터뷰는 Lenny's Newsletter 팟캐스트 등에서 확인되며, ASL 레벨 전환에 관한 발언도 여러 경로에서 보도됐다.

"ASL-3에서 4로 넘어가는 단계"라는 정확한 인용구가 특정 팟캐스트 에피소드에서 그대로 발언됐는지는 공개 트랜스크립트를 통해 직접 확인하지 못했다. 발언의 취지는 여러 보도에서 유사하게 서술되지만, 인용 정확도는 원본 팟캐스트를 직접 확인할 것을 권장한다.

관련 인터뷰: Lenny's Newsletter - Boris Cherny

6. RSP v3.0 — Pause 약속 삭제의 의미

무엇이 바뀌었나

앤트로픽은 2026년 2월 24일 RSP v3.0을 발효했다. AI타임스 기사에서 "2월 25일"로 보도한 것과 하루 차이가 있는데, 이는 외신 보도 날짜(2월 25일 집중 보도)와 공식 발효일(2월 24일)이 혼동된 것으로 보인다. (출처: Anthropic RSP v3.0 공식 발표)

RSP v3.0의 가장 큰 변화는 이전 버전에 있던 "학습 중단(pause training)" 하드 커밋먼트의 삭제다.

구분	이전 RSP	RSP v3.0 (2026-02-24)
학습 중단 조건	안전 완화 조치를 보장하지 못하면 개발 중단 (하드 커밋먼트)	단독 pause 조항 삭제. 대신 구조 변경: Risk Reports + external review + competitor-contingent commitments + industry-wide recommendations로 분리. 경쟁사 안전 조치 수준에 따른 조건부 약속(Appendix A) 포함
ASL-4 이상 정의	2023 RSP도 이미 ASL-4+는 "아직 정의되지 않음"으로 명시	의도적으로 미정의. 향후 고역량 수준 확인 시 개발 예정
일방적 vs 업계 공동	앤트로픽 단독 약속	단독 조치 + 업계 공동 권고 분리
새 추가 요소	—	Frontier Safety Roadmaps + Risk Reports 도입

왜 바꿨나

앤트로픽은 이 변경에 대해 다음과 같이 설명한다. (출처: RSP v3.0 공식 발표)

논리 1 — 경쟁 현실: 경쟁사들이 개발을 멈추지 않는 상황에서 앤트로픽만 일방적으로 개발을 중단해도 AI 위험을 줄이는 효과가 없다. 오히려 더 안전 의식이 낮은 회사가 프론티어를 장악하는 결과를 낳는다는 논리다.

논리 2 — 집단 행동 필요: 상위 ASL의 위험은 단일 회사가 감당하기 어렵다. RSP v3.0은 더 높은 수준의 안전 조치는 업계 전체 또는 정부 차원의 공동 행동이 필요하다고 명시하며, 앤트로픽의 단독 약속이 아닌 업계 권고 사항으로 분류한다.

비판과 반론

이 변경은 AI 안전 커뮤니티에서 상당한 비판을 받았다. (출처: SaferAI 분석, GovAI 분석)

비판 측 주요 논거

"경쟁사가 하니까 나도 한다"는 논리는 군비 경쟁(arms race)을 정당화하는 레이스 투 더 바텀(race to the bottom)이다.
기존 "pause 약속"이 앤트로픽의 안전 우선 철학의 핵심 차별화 요소였는데, 이를 삭제하면 다른 회사들과 구분이 어려워진다.
RAND 보고서는 ASL-4급 보안 표준이 "현재 불가능하며 국가 보안 커뮤니티의 지원이 필요하다"고 지적하는데, 이 현실을 인정하면서도 개발을 계속하는 것은 모순이다.

앤트로픽 측 반론

기존 ASL-3 보호 조치는 완전히 유지한다. 낮추는 것이 아니라 조건을 명확히 하는 것이다.
새로 도입된 Frontier Safety Roadmaps와 Risk Reports는 오히려 투명성을 높이는 조치다.
안전 의식이 낮은 회사들이 프론티어를 차지하는 것보다, 안전을 중시하는 앤트로픽이 계속 선두를 유지하는 것이 장기적으로 더 안전하다.

업계 정책 비교 — OpenAI·Google과의 수렴과 차이

RSP v3.0의 변화를 Anthropic만의 안전 후퇴로 보기 전에, 경쟁사의 정책 방향도 함께 봐야 한다.

프론티어 AI 안전 정책 비교 (2025~2026)

회사	정책명 / 발표	핵심 구조
Anthropic	RSP v3.0 (2026-02-24)	ASL capability thresholds + Risk Reports + Frontier Safety Roadmaps + competitor-contingent commitments (ASL 역량 임계값 + 위험 보고서(Risk Reports) + Frontier Safety 로드맵 + 경쟁사 조건부 약속)
OpenAI	Preparedness Framework (2025-04-15 개정)	Tracked Categories + High/Critical capability 등급 + Capabilities Reports + Safeguards Reports 추적 대상 카테고리 + High/Critical 역량 등급 + 역량 보고서(Capabilities Reports) + 보호조치 보고서(Safeguards Reports)
Google DeepMind	Frontier Safety Framework v3 (2025-09-22)	CCL(Critical Capability Level) + alert thresholds + safety case reviews + CCL 도달 시 mitigations 의무화 CCL(중대한 역량 수준, Critical Capability Level) + 경보 임계값(alert thresholds) + 안전성 검토(safety case reviews) + CCL에 도달했을 때 완화 조치(mitigations) 의무화

※ OpenAI Preparedness Framework 개정일은 2025-04-15 기준. Google FSF v3는 2025-09-22. [출처: 각 회사 공식 문서]

세 회사 모두 단독 pause 약속보다 구조화된 능력 평가 + 조건부 조치 방향으로 수렴하고 있다. Anthropic이 RSP v3.0에서 pause 약속을 삭제한 것은 업계 고립적 후퇴가 아니라, 이 수렴 흐름의 일부다. 그러나 비판론자들은 세 회사 모두 "자기 평가 + 자기 결정"이라는 구조적 한계를 공유한다고 지적한다. (출처: GovAI RSP v3.0 분석)

7. 출시 전략 — 신중한 단계적 배포

얼리 액세스 → 사이버 방어 우선

앤트로픽 대변인은 "소수의 얼리 액세스 고객과 협력하여 모델을 테스트하고 있다"고 공식 확인했다. 유출 문서에는 이 전략의 방향이 더 구체적으로 서술됐다. (출처: Fortune, 2026-03-26)

유출 문서의 출시 단계 전략 (초안 기반)

Phase 1: 소수 얼리 액세스 고객 대상 테스트 (현재 진행 중)
Phase 2: 사이버 방어 조직 우선 출시 — 코드베이스 견고성 향상 지원
Phase 3: 일반 정식 출시 (수개월 후 예상)

"사이버 방어 조직 우선" 출시 계획은 유출된 초안 문서에서 언급된 것으로, 앤트로픽이 공식 보도자료로 확인한 내용은 아니다. 최종 출시 전략은 변경될 수 있다.

정식 출시 타임라인

유출 문서에는 "모델 운영 비용이 많이 들고, 아직 일반 출시 준비가 되지 않았다"는 표현이 포함됐다. 앤트로픽은 "이 모델의 강력한 기능을 고려해 출시 방식을 신중하게 결정하고 있다"고 밝혔다.

여러 분석가들은 연구용 미리보기(Research Preview) 형태의 제한적 공개가 먼저 이뤄지고, 정식 출시까지는 수개월이 더 걸릴 것으로 예상한다. 국가 안보급 리스크를 동반하는 모델에는 RSP 규정상 최소 수개월의 안전성 검증 기간이 필요하다.

8. 개발자·보안 전문가에게 주는 시사점

Claude Mythos 유출이 단순한 IT 뉴스가 아닌 이유는, 이것이 소프트웨어 개발 생태계 전체에 직접적인 영향을 미치는 변화의 신호이기 때문이다.

개발자 관점

개발자가 지금 준비해야 할 것들

코드 보안 강화 선제 대응: 앤트로픽이 사이버 방어 조직에 먼저 접근권을 주려는 이유는 공격 AI에 선제 대응하도록 돕기 위해서다. 코드베이스의 보안 취약점을 지금 점검하는 것이 현명하다.
AI 기반 코드 리뷰 도구 적극 활용: Claude Code, GitHub Copilot Security 등 AI 기반 보안 스캔 도구의 활용이 더욱 중요해질 것이다.
Capybara 계층 접근 준비: 사이버 방어 용도의 얼리 액세스 프로그램이 열릴 경우, 신청할 명분을 미리 준비해 두면 좋다.

보안 전문가 관점

보안 관점 시사점
• AI 기반 공격 시뮬레이션 준비: 적대적 AI가 자동으로 취약점을 찾는 환경에서의 방어 전략이 필요하다.
• 패치 사이클 단축: AI가 취약점을 방어자보다 빠르게 찾는다면, 취약점 발견 → 패치 배포까지의 시간을 줄이는 것이 핵심이다.
• 얼리 액세스 프로그램 주목: 앤트로픽이 방어자 우선 배포를 계획하고 있다면, 보안 팀이 이 프로그램에 참여해 모델을 먼저 이해하는 것이 전략적으로 유리하다.

AI 산업 거시적 관점

이번 유출은 AI 업계에 두 가지 큰 메시지를 던진다.

첫째, AI 능력이 안전 통제보다 빠르게 발전하고 있다는 신호가 이미 업계 내부에서 인식되고 있다. 앤트로픽이 자체 모델을 "전례 없는 사이버보안 위험"이라고 내부 문서에 적은 것은 이례적이다.

둘째, RSP v3.0에서 pause 약속을 삭제한 것은 "AI 안전이 경쟁 현실 앞에서 후퇴하는가"라는 근본적인 질문을 제기한다. 이 논쟁은 Claude Mythos 정식 출시 전후로 더욱 격화될 것이다.

9. 자주 묻는 질문

Q: Claude Mythos는 지금 사용할 수 있나?

A: 2026년 3월 현재 일반 사용은 불가능하다. 소수 얼리 액세스 고객과의 테스트 단계다. 앤트로픽은 모델의 강력한 기능을 고려해 신중하게 출시 방식을 결정 중이라고 밝혔다. 일반 출시까지는 수개월이 더 걸릴 것으로 예상된다.

Q: Claude Mythos와 Capybara는 같은 모델인가?

A: Fortune 원본 보도에 따르면 두 이름이 동일 모델을 가리킨다. 유출된 초안 블로그의 서로 다른 버전에서 각각 사용됐다. 다만 Capybara가 독립 계층 이름인지, 모델 후보명인지는 Anthropic이 공식 확인하지 않았다.

Q: RSP에서 삭제된 "pause 약속"이란 무엇인가?

A: 이전 RSP에는 안전 완화 조치를 보장하지 못하면 모델 개발을 중단한다는 하드 커밋먼트가 있었다. RSP v3.0(2026-02-24)에서 이 단독 pause 조항이 삭제됐다. 단순히 '경쟁 선두 + 재앙적 위험' 조건으로 대체된 것이 아니라, 회사 자체 계획과 산업 전체 권고를 분리하고 Risk Reports·external review·competitor-contingent commitments를 포함한 다층 구조로 전환됐다. 참고로 "경쟁 선두" 조건은 중단 트리거의 직접 조건이 아니라 완화 조치 강도를 결정하는 데 반영되는 요소다. (출처: Anthropic RSP v3.0 전문 Appendix A; GovAI RSP v3.0 분석)

Q: Claude Mythos가 공식 ASL-4 모델로 분류되나?

A: 아니다. Anthropic이 공식적으로 ASL-4로 분류한 적이 없다. 더불어 ASL-4 자체가 RSP v3.0에서 아직 정식으로 정의되지 않은 단계다. 여러 매체의 "ASL-4 임박" 분석은 내부 문서의 사이버보안 경고를 근거로 한 추정이다.

Q: 이번 유출이 개발자에게 미치는 직접적 영향은?

A: 직접적인 즉각 영향은 없다. 그러나 사이버보안 역량이 극적으로 높은 AI 모델이 출시되면, 코드베이스 보안 취약점이 자동으로 탐지·악용될 리스크가 높아진다. 앤트로픽이 방어자 우선 배포를 고려하는 만큼, 보안 도구 활용과 코드베이스 점검을 선제적으로 진행하는 것이 권장된다.

10. 참고 자료

공식 출처

Fortune 단독 보도 (2026-03-26) — Claude Mythos 유출 원본 보도
Anthropic RSP v3.0 공식 발표 — 2026-02-24 발효
Anthropic RSP v3.0 전문 — 전체 정책 문서
Anthropic Responsible Scaling Policy — ASL 체계 공식 페이지

심층 분석 자료

GovAI — RSP v3.0 심층 분석 — 변경 사항 및 시사점
The Decoder — Claude Mythos 성능 분석
SaferAI — RSP v3.0 비판적 분석
Lenny's Newsletter — Boris Cherny 인터뷰 — Claude Code 및 AI 미래
MLQ.ai — RSP v3.0 주요 변경 정리

경쟁사 안전 정책 자료

OpenAI Preparedness Framework — Tracked Categories, High/Critical capability 등급 체계
Google DeepMind Frontier Safety Framework v3 (2025-09-22) — CCL, alert thresholds, safety case reviews

저작자표시 비영리 변경금지 (새창열림)

'AI > AI 주간 News' 카테고리의 다른 글

OpenAI on AWS : AWS Bedrock으로 향한 GPT와 Codex 전략 - OpenAI가 Azure 독점을 벗어났다 (2)	2026.05.06
Anthropic이 경고한 "화이트칼라 대불황" Anthropic 2026 AI 노동시장 보고서 분석 - 내 직업, 진짜 안전할까? (3)	2026.03.11
Block 4000명 해고, 정말 AI 때문이었을까 - AI가 4000명을 대체했다? Block 대량 해고와 주가 24% 급등, AI 시대의 잔인한 현실 (2)	2026.03.08
OpenAI Pentagon 계약 논란 정리(OpenAI 군사 계약 사태 해설) — QuitGPT 운동 왜 150만 명이 ChatGPT 탈퇴했나 (1)	2026.03.08
26년 AI 펜타곤 사태 : Anthropic은 거부하고 OpenAI는 서명했다 — AI 자율무기 레드라인 전쟁 정리 (2)	2026.03.04

Contents

Claude Mythos(Capybara) - 앤트로픽 Claude Mythos 유출 분석 : ASL-4 임박, RSP 변화, 개발자 시사점

목차

1. 사건 개요 — 실수로 열린 판도라의 상자

무엇이 노출됐나

누가 발견했나

앤트로픽의 공식 대응

2. Claude Mythos와 Capybara 계층

두 이름의 관계

Capybara: Opus를 넘는 새 계층

Capybara 계층의 위치

"지금까지 개발한 AI 모델 중 단연 가장 강력한"

3. 성능 — 무엇이 다른가

코딩 · 추론 · 사이버보안

"step change"의 의미

경쟁 구도 — GPT-5, Gemini 3와의 맥락

4. 전례 없는 사이버보안 위험

내부 경고 내용

공격자 vs 방어자 비대칭

업계 전반의 사이버 위험 — Anthropic만의 문제가 아니다

5. ASL-4 임박 신호

ASL 체계란

현재 모델 수준과 ASL-4 임박

Boris Cherny의 ASL 발언

6. RSP v3.0 — Pause 약속 삭제의 의미

무엇이 바뀌었나

왜 바꿨나

비판과 반론

업계 정책 비교 — OpenAI·Google과의 수렴과 차이

7. 출시 전략 — 신중한 단계적 배포

얼리 액세스 → 사이버 방어 우선

유출 문서의 출시 단계 전략 (초안 기반)

정식 출시 타임라인

8. 개발자·보안 전문가에게 주는 시사점

개발자 관점

개발자가 지금 준비해야 할 것들

보안 전문가 관점

AI 산업 거시적 관점

9. 자주 묻는 질문

10. 참고 자료

공식 출처

심층 분석 자료

경쟁사 안전 정책 자료

'AI > AI 주간 News' 카테고리의 다른 글

당신이 좋아할만한 콘텐츠

티스토리툴바