새소식

300x250
AI/Gemini

Gemini 3 Deep Think 살펴보기 - Google의 병렬 추론 AI, 언제 어떤 모드를 사용해야 할까?

  • -
728x90

안녕하세요! 갓대희입니다.
오늘은 최근에 핫한 Gemini 3 Deep Think에 대해 알아 보려고 한다.

( 현재 기준으로 Ultra 플랜결제시 사용할 수 있기 때문에, 직접적인 체감은 어려울 것 같다. 가볍게 읽고 넘어가시면 좋을 것 같다.)

Gemini 3 Deep Think: Google의 고급 추론 모드 완벽 가이드
2025년 12월 4일 발표된 Gemini 3 Deep Think는 Gemini 3 Pro의 고급 추론 모드로, 병렬 가설 탐색을 통해 복잡한 수학, 과학, 논리 문제에서 업계 최고 수준의 성능을 제공한다. 이 글에서는 공식 문서를 기반으로 Deep Think의 모든 것을 정리해보자.

지난 글에서 Gemini 3.0의 전반적인 출시 소식과 주요 기능들을 다루었다.

[AI/Gemini] - Gemini 3.0 업데이트 출시 : 3.0 Pro, Search AI Mode, Antigravity

 

이번 글에서는 그 중에서도 가장 주목받고 있는 Gemini 3 Deep Think에 대해 심층적으로 분석해보자.

2025년 11월 18일 Gemini 3가 공식 출시된 이후, Google은 "추가적인 안전성 평가와 안전 테스터들의 피드백"을 위한 시간이 필요하다고 밝혔다. 그리고 약 2주 후인 2025년 12월 4일, Google AI Ultra 구독자들을 대상으로 Deep Think 모드가 정식 출시되었다.

( 나도 아직 Ultra 플랜을 결제는 고민하고 있어서, 일단 당장은 참고만 하고자 간단하게 내용 요약 하였다. ) 

 

공식 발표 출처
"Gemini 3 Deep Think mode pushes the boundaries of intelligence even further, delivering a meaningful improvement in reasoning capabilities."
(Gemini 3 Deep Think 모드는 지능의 한계를 한층 더 확장하며, 추론(reasoning) 능력에서 의미 있는 향상을 제공합니다.)
Google 공식 블로그 - Gemini 3 Deep Think

 

1. Gemini 3 Deep Think란?

Deep Think는 별도의 독립된 AI 모델이 아니다.

Gemini 3 Pro 모델 내에 구현된 "고급 추론 모드"로, 더 많은 시간과 내부적 숙고를 통해 복잡한 다단계 문제 해결에 최적화된 기능이다.

핵심 개념

  • 정의: Gemini 3 Pro의 특수 추론 모드
  • 핵심 기술: 병렬 추론 아키텍처 (Parallel Reasoning Architecture)
  • 작동 방식: 여러 가설을 동시에 탐색하여 인간과 유사한 숙고 과정 시뮬레이션
  • 목적: 복잡한 수학, 과학, 논리 문제 해결에 특화
  • 컨텍스트 윈도우: 1백만 토큰 (1M tokens) - 대용량 문서 처리 가능
  • 최대 출력: 64,000 토큰 (64k tokens) - 대규모 코드/문서 생성

 

2. Deep Think의 작동 원리

기존 AI 모델들은 대부분 선형적(순차적) 추론 방식을 사용한다. 하나의 추론 경로를 따라가면서 결론에 도달하는 방식이다.

반면, Deep Think는 병렬 추론 아키텍처를 채택하여 완전히 다른 접근 방식을 취한다.

Deep Think 추론 프로세스

  1. 문제 분석: 입력된 문제를 분석하고 여러 해결 가설 생성
  2. 병렬 분기: 각 가설을 동시에 탐색하는 여러 추론 분기 생성
  3. 신뢰도 점수 할당: 각 분기에 신뢰도 점수를 부여하여 평가
  4. 수렴 전 독립 검증: 최종 결론 도출 전 각 경로를 독립적으로 검증
  5. 최적 해답 선택: 가장 높은 신뢰도를 가진 해답을 최종 결과로 제시
구분 기존 AI 모델 Gemini 3 Deep Think
추론 방식 선형·순차적 병렬 다중 경로
가설 탐색 단일 경로 여러 가설 동시 탐색
불확실성 처리 제한적 정량화된 신뢰도 점수
응답 시간 빠름 (초 단위) 느림 (분 단위)
최적 사용 케이스 일반 대화, 간단한 작업 복잡한 수학/과학/논리 문제

 

3. Gemini 3 Pro vs Gemini 3 Deep Think 성능 비교

Google은 공식 발표에서 여러 벤치마크 결과를 공개했다. 아래 표는 공식 발표 자료를 기반으로 정리한 성능 비교다.

벤치마크 Gemini 3 Pro Deep Think 개선율
Humanity's Last Exam
(도구 미사용)
37.5% 41.0% +9.3%
GPQA Diamond
(과학 지식 평가)
91.9% 93.8% +2.1%
ARC-AGI-2
(코드 실행 포함)
~31.1% 45.1% +45%
AIME 2025
(코드 실행 포함)
100% 100% -
MathArena Apex
(수학 추론 SOTA)
23.4% - New SOTA
LMArena Elo
(종합 리더보드)
1501 - #1 리더보드
ScreenSpot-Pro
(화면/이미지 이해)
72.7% - 압도적 1위

※ 위 수치는 Google 공식 블로그 및 공식 발표 자료에서 확인된 데이터이다. ARC-AGI-2의 Gemini 3 Pro 점수(31.1%)는 서드파티 추정치이며 공식 확인이 필요하다. MathArena Apex와 LMArena Elo는 Gemini 3 Pro 공식 발표 수치다.
AIME 2025: Gemini 3 Pro는 도구 미사용 시 95%, 코드 실행 포함 시 100%를 달성한다.

💡 주목할 점
• Google은 Deep Think가 "Humanity's Last Exam에서 도구를 사용하지 않고 업계 최고 성적(41.0%)을 달성했다"고 발표했다.
• Gemini 3 Pro는 LMArena 리더보드 1위 (1501 Elo)를 기록하며 종합 성능에서도 최고 수준을 입증했다.
• 수학 분야에서는 MathArena Apex에서 23.4%로 새로운 SOTA를 달성했다.

 

4. Deep Think의 핵심 기술 특징

4.1. 병렬 가설 탐색 (Parallel Hypothesis Exploration)

Deep Think의 가장 핵심적인 기술이다. 하나의 문제에 대해 여러 해결 가설을 동시에 생성하고 탐색한다.

각 분기는 독립적으로 결론을 향해 진행되며, 최종적으로 가장 신뢰도가 높은 결과를 선택한다.

병렬 추론을 이해하기 쉬운 비유

전통적인 LLM이 혼자서 문제를 푸는 한 사람이라면,
Deep Think여러 전문가가 같은 방에서 동시에 작업하는 것과 같다.

각 전문가는 자신만의 방식으로 결론에 도달하려 시도하고, 서로의 결과를 교차 검증(cross-reference)하여 최상의 속성을 취합한다. 이 협업 방식 덕분에 Deep Think는 단일 추론 경로의 한계를 극복한다.

 

4.2. 신뢰도 점수 시스템 (Confidence Scoring)

각 추론 분기에 신뢰도 점수를 할당하여 결과의 불확실성을 정량화한다. 이는 기존 AI 모델에서 제한적이었던 "불확실성 표현"을 개선한 것으로, 특히 복잡한 의사결정 시나리오에서 유용하다.

 

4.3. 도구 통합 (Tool Integration)

Deep Think는 다양한 외부 도구와 통합된다:

  • 코드 실행기: 프로그래밍 문제 해결 시 실제 코드 실행
  • 시뮬레이션 브라우저: 웹 정보 검색 및 검증
  • 계산기: 수학적 계산 검증
공식 문서 내용 참고
ARC-AGI-2 벤치마크에서 Deep Think는 코드 실행기를 활용하여 45.1%를 달성했으며, 이는 도구 미사용 시보다 현저히 높은 성능이다.
Google 공식 블로그 - Gemini 3 소개

 

4.4. 멀티모달 통합 및 시각적 추론

Deep Think는 텍스트, 이미지, 코드를 동시에 처리할 수 있는 강력한 멀티모달 능력을 갖추고 있다. 예를 들어, 수학 문제가 담긴 이미지를 분석하고, 해결 과정을 텍스트와 코드로 동시에 제시할 수 있다.

특히 Gemini 3 Pro는 시각적 추론(Visual Reasoning) 분야에서 두드러진 성능을 보인다. 이는 ARC-AGI-2 벤치마크에서 높은 점수를 기록한 핵심 요인 중 하나다. 멀티모달 처리 능력과 시각적 추론이 결합되어 복잡한 시각적 퍼즐이나 다이어그램 해석에서 강점을 발휘한다.

시각적 이해 벤치마크 비교

모델 ScreenSpot-Pro ARC-AGI-2
Gemini 3 Pro 72.7% 31.1%
Claude Sonnet 4.5 36.2% -
GPT-5.1 3.5% 17.6%
시각적 추론의 의미
ARC-AGI 벤치마크는 작은 그리드에서 숨겨진 규칙을 추론하고 올바른 패턴을 생성하는 퍼즐 형태의 테스트다. 이는 단순 암기가 아닌 체계적 추론(systematic reasoning) 능력을 평가한다. Gemini 3 Pro의 우수한 이미지 이해 능력이 이러한 시각적 퍼즐에서 강점으로 작용한다.

 

5. Deep Think의 장점과 단점

장점

1. 탁월한 추론 능력
복잡한 다단계 문제에서 기존 모델 대비 현저한 성능 향상. Humanity's Last Exam에서 업계 최고 성적 달성.
2. 수학/과학 분야 특화
국제수학올림피아드 금메달 수준, AIME 2025에서 100% 달성 (코드 실행 포함). MathArena Apex에서 새로운 SOTA(23.4%) 기록. 확률론, 양자역학 등 고급 과학 문제 처리 가능.
3. 불확실성 정량화
각 추론 분기에 신뢰도 점수를 제공하여 결과의 확신 정도를 명확히 알 수 있음.
4. 강력한 코딩 지원
대규모 프로젝트 계획, 다중 파일 코드 생성, 컨텍스트별 디버깅에서 개선된 성능.

 

단점

1. 높은 비용
Google AI Ultra 구독 필요 (월 $249.99). API 사용 시에도 일반 모드보다 높은 토큰 비용 발생.
2. 긴 응답 시간
일반적으로 수 분이 소요됨. 실시간 대화나 빠른 응답이 필요한 상황에는 부적합.
3. 제한된 접근성
현재 Ultra 구독자와 안전 테스터에게만 제공. 일반 사용자는 점진적 출시를 기다려야 함.
4. 윤리적 엣지케이스
Google은 "윤리적 추론의 엣지 케이스에서 일부 한계"를 인정하며, 지속적인 RLHF 개선 중.
[실제 테스트 필요]
• 정확한 응답 시간은 문제 복잡도에 따라 다름 (공식 문서: "일반적으로 수 분")
• 150K+ 토큰에서의 컨텍스트 손실 가능성 (기존 글에서 언급된 Gemini 3 Pro의 제한사항)
• API 사용 시 실제 사고 토큰 비용 확인 필요

실제 활용 사례 및 테스트 결과

5-1. 실제 성능 비교: GPT-5.1 Pro vs Deep Think

Gemini 3 Deep Think가 출시된 같은 주에 OpenAI도 GPT-5.1 Pro를 발표하며 직접적인 경쟁 구도가 형성되었다. 두 모델 모두 "더 깊은 사고"를 통해 복잡한 문제를 해결하는 것을 목표로 하자.

 

구독 가격 비교

서비스 월 구독료 포함 기능
ChatGPT Pro $200 GPT-5.1 Pro, o1 Pro Mode 무제한
Google AI Ultra $250 Gemini 3 Deep Think, Gemini Agent

 

실제 코딩 테스트 결과

한 테스터가 두 모델을 실시간 코딩 및 시뮬레이션 구현 능력으로 정면 대결시킨 결과다. 아래는 해당 테스트의 주요 결과다.

테스트 항목 승자 평가 근거
브라우저 OS + skate.exe
내장 3D 게임 포함
Deep Think Windows 95 스타일 OS와 작동하는 스케이트 게임 구현
2.5D 진화 시뮬레이션
신경망 기반 생명체
무승부 양쪽 모두 구현 성공, GPT-5.1이 번식 쿨다운 타이머 구현
전체 기능 브라우저 OS
Nebula OS
GPT-5.1 5,263줄 코드, 설정/미디어 플레이어 등 다양한 기능
C++ 스케이트보드 게임
3D 독립 실행형
GPT-5.1 첫 시도에 컴파일 성공 (Deep Think는 수정 후 성공)

테스트 결과 분석

  • Deep Think 강점: 레트로 스타일 구현, 간결한 코드 (574줄 vs 5,263줄)
  • GPT-5.1 강점: 기능 풍부함, 첫 시도 컴파일 성공률 높음
  • 흥미로운 점: 두 모델 모두 OS 이름을 "Nebula OS"로 명명
  • 생각 시간: 두 모델 모두 복잡한 작업에 약 36~38분 소요
관련 데이터 출처
위 테스트 결과는 AI 기술 리뷰 채널의 유튜브 영상에서 확인할 수 있다. 개인 테스터의 비교 사례이며, 실제 성능은 작업 유형과 프롬프트에 따라 달라질 수 있다.
유튜브 영상 보기 - GPT-5.1 Pro vs Gemini 3 Deep Think

 

5-2. Deep Think 단독 심층 테스트: 실제 활용 사례

벤치마크 점수 외에 실제 복잡한 작업에서의 성능을 평가한 심층 테스트 결과다. 브라우저 OS 생성, 3D 게임 구현, 물리 시뮬레이션 등 다양한 도메인에서 Deep Think의 능력을 검증했다.

테스트 항목 결과 주목할 점
브라우저 OS + 게임
틱택토, 스네이크, 계산기
성공 복고풍 디자인 자체 선택, 기능적 앱 구현
비행 전투 시뮬레이터
3D 환경, 적기, 조작
우수 사망 애니메이션 구현 (유일한 모델), 나선형 추락 + 지면 충돌 효과
C++ 레이싱 게임
절차적 지형 생성
성공 고도 변화 구현, 부드러운 곡선 트랙 시도
3D 프린터 시뮬레이션
물리적 현실성
우수 Z-Seam(Z축 이음매) 실제 구현 - 3D 프린팅의 실제 물리적 현상 재현
RF 전송 체인
파동 물리학 시뮬레이션
성공 텍스트→이진수→변조→복조→ASCII 변환, 노이즈 영향 시각화
가장 인상적인 결과

1. 비행 시뮬레이터 사망 애니메이션: 테스트한 모든 모델 중 유일하게 비행기가 나선형으로 추락하여 지면에 닿는 사망 시퀀스를 구현했다.

2. 3D 프린터 Z-Seam: 실제 3D 프린팅에서 발생하는 물리적 현상인 Z-Seam(새 레이어 시작 시 생기는 이음매)을 시뮬레이션에 반영했다. 이는 Deep Think가 단순 코드 생성을 넘어 도메인 지식을 활용한 현실적 시뮬레이션이 가능함을 보여준다.

테스트 종합 분석

  • 강점: 복잡한 시퀀스 구현, 도메인별 전문 지식 활용, 물리적 현실성
  • 개선 필요: 일부 게임에서 적 AI 로직 부족, 난이도 조절 미흡
  • 사용성: Gemini 2.5 Deepthink 대비 오류 발생률 크게 감소
  • 응답 시간: 복잡한 작업에도 합리적인 시간 내 완료
관련 데이터 출처
위 테스트 결과는 AI 기술 리뷰 채널의 Gemini 3 Pro Deepthink 심층 테스트 영상에서 확인할 수 있다. 개인 테스터의 사례이며, 프롬프트와 환경에 따라 결과가 달라질 수 있다.
유튜브 영상 보기 - Gemini 3 Deep Think 심층 테스트

 

6. Deep Think 사용 방법

6.1. Gemini 앱에서 사용하기

Gemini 앱 사용 단계

  1. 구독 확인: Google AI Ultra 구독 ($249.99/월) 필요
  2. 모델 선택: 모델 드롭다운에서 "Gemini 3 Pro" 선택
  3. Deep Think 활성화: 프롬프트 바에서 "Deep Think" 모드 선택
  4. 작업 제출: 복잡한 문제 입력 후 제출
  5. 결과 대기: 일반적으로 수 분 후 알림으로 결과 확인

 

6.2. API로 사용하기

Python API 호출 예시

# Gemini 3 Deep Think API 호출
from google import genai
from google.genai import types

client = genai.Client()

response = client.models.generate_content(
    model="gemini-3-pro-preview-thinking",  # Deep Think 모델
    contents="복잡한 수학 문제를 입력하세요",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(
            thinking_level="high",      # 최대 추론 깊이
            include_thoughts=True       # 사고 과정 포함
        )
    )
)

# 사고 과정 확인
for part in response.candidates[0].content.parts:
    if hasattr(part, 'thought') and part.thought:
        print("=== 사고 과정 ===")
        print(part.text)
    else:
        print("=== 최종 답변 ===")
        print(part.text)

 

6.3. 가격 정책

접근 방법 비용 비고
Google AI Ultra 구독 $249.99/월 Gemini 앱에서 무제한 사용
API - 입력 토큰 $1.60 / 1M tokens CometAPI 기준
API - 출력 토큰 $9.60 / 1M tokens 사고 토큰 포함

※ API 가격은 서드파티 출처(CometAPI) 기준이며, Google 공식 가격은 Vertex AI Pricing 페이지에서 확인하세요.

 

7. API 파라미터 상세 설명

공식 문서에 따르면, Gemini 3 모델에서는 thinking_level 파라미터로 사고 깊이를 조절할 수 있다.

파라미터 설명
thinking_level "low" 지연 시간과 비용 최소화. 간단한 작업에 적합.
thinking_level "high" 추론 깊이 최대화. 기본값. 복잡한 문제에 권장.
include_thoughts true/false 사고 과정(Thought Summary)을 응답에 포함할지 여부.
공식 문서 내용 참고
"Gemini 3 Pro uses dynamic thinking by default to reason through prompts. If thinking_level is not specified, Gemini 3 Pro will default to high."
( Gemini 3 Pro는 프롬프트를 추론(reason)하기 위해 기본적으로 dynamic thinking을 사용합니다. thinking_level이 명시되지 않은 경우, Gemini 3 Pro의 기본 값은 high로 설정됩니다. )
Google AI for Developers - Gemini Thinking

 

8. 언제 Deep Think를 사용해야 할까?

작업 유형 권장 모드 이유
팩트 검색, 간단한 분류 Gemini 3 Pro
(thinking_level: low)
빠른 응답이 중요, 복잡한 추론 불필요
비교 분석, 일반적인 코딩 Gemini 3 Pro
(thinking_level: high)
적당한 추론 필요, 시간 제약 있음
복잡한 수학/과학 문제 Deep Think 다단계 추론, 여러 가설 탐색 필요
대규모 코드 아키텍처 설계 Deep Think 복잡한 의존성 분석, 전략적 계획
논리 퍼즐, 증명 Deep Think 엄밀한 논리적 추론 필요

 

자주 묻는 질문 ❓

Q: Deep Think는 Gemini 3 Pro와 별도의 모델인가?
A: 아니다. Deep Think는 Gemini 3 Pro의 고급 추론 모드다. 별도의 독립된 모델이 아니라, 같은 모델에서 더 깊은 사고 과정을 활성화한 것이다.
Q: Deep Think를 사용하려면 별도 요금이 필요한가?
A: Gemini 앱에서 사용하려면 Google AI Ultra 구독($249.99/월)이 필요하다. API 사용 시에는 일반 Gemini 3 Pro 요금에 추가로 사고 토큰 비용이 발생한다.
Q: Deep Think의 응답 시간은 얼마나 걸리나?
A: 공식 문서에 따르면 "일반적으로 수 분"이 소요된다. 문제의 복잡도에 따라 달라지며, 간단한 쿼리의 90%는 5초 이하로 응답한다 (서드파티 출처).
Q: 일반 사용자도 Deep Think를 사용할 수 있나?
A: 현재(2025년 12월 기준)는 Ultra 구독자와 안전 테스터에게만 제공된다. Google은 점진적으로 출시 범위를 확대할 예정이다.
Q: Gemini 2.5 Deep Think와 Gemini 3 Deep Think의 차이점은?
A: Gemini 3 Deep Think는 Gemini 2.5의 성과(국제수학올림피아드 금메달 수준)를 계승하면서, 병렬 추론 아키텍처 강화와 멀티모달 통합이 개선되었다. Humanity's Last Exam에서 업계 최고 성적을 달성했다.

참고 자료

 

마무리

Gemini 3 Deep Think는 단순한 업그레이드가 아닌, AI 추론 방식의 패러다임 전환을 보여준다. 병렬 가설 탐색, 신뢰도 점수 시스템, 도구 통합 등의 기능은 복잡한 문제 해결에서 기존 AI 모델의 한계를 넘어서는 성능을 제공한다.

다만, 높은 비용과 긴 응답 시간은 분명한 트레이드오프다. 모든 작업에 Deep Think를 사용할 필요는 없으며, 문제의 복잡도와 요구사항에 따라 적절한 모드를 선택하는 것이 효율적인 활용법이다.

내용 요약
Deep Think = Gemini 3 Pro의 고급 추론 모드 (별도 모델 아님)
핵심 기술 = 병렬 가설 탐색 + 신뢰도 점수 시스템
성능 = HLE 41.0% (SOTA), LMArena 1501 Elo (#1), AIME 100% (코드 실행 포함)
스펙 = 1M 입력 토큰 + 64k 출력 토큰
비용 = Ultra 구독 $249.99/월 또는 API 토큰 과금
제한 = 긴 응답 시간, 현재 Ultra 구독자만 접근 가능
300x250
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.

💡 AI 관련 질문이 있나요? 눌러보세요!