새소식

300x250
AI/Gemini

Gemini 3 Flash 출시 리뷰 - 벤치마크, 가격, 사용법 등(3배 빠르고 4배 저렴한 Google의 새 AI 모델 Gemini 3)

  • -
728x90

안녕하세요. 갓대희 입니다.

오늘은 Google Gemini3 Flash 에 대해 리뷰해보려고 한다. 

 

 

Google Gemini 3 Flash: Pro급 추론 능력과 Flash급 속도를 결합한 차세대 AI 모델
2025년 12월 17일, Google이 Gemini 3 Flash를 공식 출시했다. 이 모델은 Gemini 3 Pro 수준의 추론 능력을 갖추면서도 3배 빠른 속도와 약 1/4 수준의 비용을 제공한다. Gemini 앱에서는 기본 모델로 설정되어 무료로 사용할 수 있으며, API를 통해 개발자들도 즉시 활용할 수 있다.

Google이 AI 모델의 새로운 기준을 제시했다. 2025년 12월 17일 발표된 Gemini 3 Flash는 "Pro급 추론 능력(Pro-grade reasoning)과 Flash급 지연시간, 효율성, 비용(Flash-level latency, efficiency and cost)"을 결합한 모델로, 성능과 비용 효율성 사이의 균형점을 새롭게 정의한다. 특히 코딩 벤치마크인 SWE-bench Verified에서 78%를 기록하며 상위 모델인 Gemini 3 Pro를 능가하는 결과를 보여줘 개발자 커뮤니티의 큰 관심을 받고 있다.

출처
이 글의 모든 정보는 2025년 12월 17일 Google 공식 발표를 기반으로 한다.
Google Blog - Gemini 3 Flash 발표

 

Gemini 3 Flash란?

Gemini 3 Flash는 Google DeepMind의 최신 Gemini 모델 라인업에서 "프론티어급 지능을 빠른 속도로(Frontier intelligence at speed)" 제공하도록 설계된 모델이다. 기존 Gemini 모델들이 성능(Pro)과 효율성(Flash-Lite) 중 하나를 선택해야 했다면, Gemini 3 Flash는 이 모든 한계를 허물고 품질, 비용, 속도 사이의 "파레토 최적 전선(Pareto Frontier)"을 새롭게 정의한다.

특히, 단순히 답변 속도가 빠른 것을 넘어 스스로 판단하고 도구를 사용하는 에이전틱 워크플로우(Agentic Workflows)에 가장 최적화된 모델로 설계되어, 개발자들이 더 지능적이고 반응이 빠른 AI 에이전트를 구축할 수 있게 돕는다.

Gemini 3 Flash의 핵심 포지셔닝

  • Pro급 추론: 복잡한 문제 해결, 멀티모달 이해, 에이전틱 워크플로우 지원
  • Flash급 속도: Gemini 2.5 Pro 대비 3배 빠른 응답 속도
  • 비용 효율성: Gemini 3 Pro 대비 약 1/4 수준의 비용
  • 토큰 효율성: Thinking Modulation 기술로 일반 작업 시 2.5 Pro 대비 평균 30% 적은 토큰 사용
  • 에이전트 최적화: 복잡한 도구 사용과 멀티스텝 추론이 필요한 상황에 특화

 

기술 사양

항목 Gemini 3 Flash
최대 입력 토큰 1,048,576 토큰 (약 100만)
최대 출력 토큰 65,536 토큰
지식 기준일 2025년 최신 정보 반영 (출시 직전까지)
지원 입력 형식 텍스트, 이미지, 비디오, 오디오, PDF
출력 형식 텍스트만 지원

Thinking 레벨 옵션

Gemini 3 Flash는 4단계 Thinking 레벨을 지원한다. 이는 Gemini 3 Pro의 2단계(low/high)보다 세분화된 옵션이다:

  • minimal - 가장 빠른 응답, 최소한의 추론
  • low - 기본적인 추론
  • medium - 균형 잡힌 추론
  • high - 깊은 추론, 복잡한 문제에 적합

⚠️ 제한사항 및 참고사항

  • 출력 형식: 현재 텍스트 출력만 지원한다. 이미지, 오디오 등의 멀티모달 출력은 불가능하다.
  • 이미지 세그멘테이션: Gemini 2.5 Pro에서 지원하던 이미지 세그멘테이션 기능이 Gemini 3 Flash에서는 제거되었다.
  • 프리뷰 상태: Gemini CLI에서 사용하려면 "Preview features"를 활성화해야 한다.

 

벤치마크 성능

Google 공식 발표에 따르면, Gemini 3 Flash는 주요 AI 벤치마크에서 다음과 같은 성능을 기록했다:

벤치마크 Gemini 3 Flash 벤치마크 설명
GPQA Diamond 90.4% 대학원 수준의 과학 문제 해결 능력 평가
Humanity's Last Exam 33.7% 인류 최고 난이도 시험 (전문가 수준)
MMMU Pro 81.2% 멀티모달(이미지+텍스트) 이해력 평가
SWE-bench Verified 78% 실제 GitHub 이슈 해결 능력 (Pro 76.2% 능가)

출처: Google Blog - Gemini 3 Flash 발표 (2025년 12월 17일)

 

경쟁 모델 비교 (Google DeepMind 발표)

⚠️ 참고
아래 벤치마크는 Google DeepMind 공식 발표 데이터다. 모든 AI 회사가 자사 모델에 유리한 벤치마크를 선별하여 발표하는 경향이 있으므로, 독립 벤치마크(LM Arena 등)와 함께 참고하자.
벤치마크 Gemini 3 Flash Gemini 3 Pro Claude Sonnet 4.5 GPT-5.2 Grok 4.1
Humanity's Last Exam
최고 난이도 추론
33.7% 37.7% 24.8% 26.4% 23.4%
GPQA Diamond
대학원 수준 과학
90.4% 88.5% 79.1% 80.7% 82.1%
AIME 2025
수학 경시대회
92.6% 93.0% 77.3% 78.0% 83.3%
SWE-bench Verified
실제 코딩 문제
78.0% 76.2% 76.6% 72.0% 68.5%
LiveCodeBench Pro
실시간 코딩 평가
73.9% 76.7% 63.1% 69.9% 67.9%
MMMU-Pro
멀티모달 이해
81.2% 82.1% 70.3% 73.1% -
ARC-AGI-2
시각적 추론
21.5% 31.3% 14.5% 14.0% 8.0%

출처: Google DeepMind - Gemini Models (2025년 12월)
⚠️ 위 수치는 Google 발표 기준이다. 실제 성능은 사용 환경과 프롬프트에 따라 달라질 수 있다. 독립적인 검증을 위해 LM Arena 등 제3자 벤치마크도 참고하자.

이건 Google DeepMind에서 발표한 벤치마크 표를 번역 한 것 이다. 참고로만 보자( Claude Opus를 빼버리다니................................................. ㅎㅎ )

💡 주목할 점: SWE-bench Verified 78%
SWE-bench Verified는 실제 GitHub 오픈소스 프로젝트의 이슈를 해결하는 능력을 측정하는 벤치마크다. Gemini 3 Flash(78%)가 상위 모델인 Gemini 3 Pro(76.2%)를 능가한다는 점은 코딩 작업에서 Flash 모델이 특히 최적화되어 있음을 시사한다.

 

가격 및 효율성

항목 Gemini 3 Flash 비고
입력 토큰 가격 $0.50 / 1M 토큰 백만 토큰당 약 650원 (환율 1,300원 기준)
출력 토큰 가격 $3 / 1M 토큰 백만 토큰당 약 3,900원 (환율 1,300원 기준)
vs Gemini 3 Pro 비용 ~1/4 수준 공식 발표 기준
토큰 효율성 30% 감소 일반 작업 기준, vs Gemini 2.5 Pro
속도 3배 빠름 vs Gemini 2.5 Pro
오디오 입력 가격 $1 / 1M 토큰 백만 토큰당 약 1,300원
대용량 컨텍스트 할인 1/8 가격 >200K 토큰 사용 시 (vs Pro)

출처: Google Blog - Gemini 3 Flash 발표 (2025년 12월 17일)

 

사용 가능한 플랫폼

개발자용 플랫폼

  • Gemini API (Google AI Studio) - 웹 기반 API 테스트 및 프로토타이핑
  • Google Antigravity - 2025년 11월 발표된 에이전틱 IDE 플랫폼. AI 에이전트가 자율적으로 코딩 작업을 수행할 수 있는 환경 제공
  • Gemini CLI - 터미널 기반 AI 코딩 어시스턴트
  • Android Studio - Android 개발 환경 통합
  • Vertex AI & Gemini Enterprise - 기업용 클라우드 AI 플랫폼

일반 사용자용 플랫폼

  • Gemini 앱 - 기본 모델로 설정됨 (무료 사용 가능)
  • AI Mode in Search - Google 검색의 AI 모드 (전 세계 롤아웃 중)

 

개발자를 위한 시작 가이드

Gemini CLI 설치 및 설정

// Gemini CLI 설치 (npm 사용)
npm install -g @google/gemini-cli@latest

설정 방법

  1. /settings 명령어로 설정 메뉴에 진입하자
  2. "Preview features" 옵션을 활성화하자
  3. /model 명령어로 Gemini 3 Flash를 선택하면 된다

 

접근 권한 요구사항

Google 개발자 블로그에 따르면, 다음 조건 중 하나를 충족해야 Gemini 3 Flash에 접근할 수 있다:

사용자 유형 접근 조건
Google AI Pro/Ultra 구독자 비업무용(Personal) 고객
유료 API 사용자 Google AI 또는 Vertex AI 유료 API 키 보유자
Gemini Code Assist 사용자 클라우드 관리자로부터 승인받은 사용자
무료 사용자 대기 목록(Waitlist) 등록 후 승인 필요

출처: Google Developers Blog - Gemini 3 Flash in Gemini CLI

 

Gemini 3 모델 패밀리

 Gemini 3 패밀리 완성!
Gemini 3 Flash 출시로 Gemini 3 모델 패밀리가 완성되었다: Gemini 3 Pro (최고 성능), Gemini 3 Deep Think (심층 추론), 그리고 Gemini 3 Flash (속도 + 효율성).

Google DeepMind의 현재 Gemini 모델 라인업은 세 가지 주요 모델로 구성된다:

모델 포지셔닝 최적 사용 사례
Gemini 3 Pro 최고 성능 복잡한 작업, 창의적 개념 구현, 고급 추론
Gemini 3 Flash 성능 + 속도 균형 프론티어급 지능이 필요하면서 빠른 응답이 중요한 작업
Gemini 2.5 Flash-Lite 비용 효율성 대량 처리, 비용 효율적 작업, 단순 반복 작업

🔄 자동 라우팅 기능

Gemini 3 Flash는 자동 라우팅(Auto Routing) 기능을 지원한다. 이 기능은 작업의 복잡도에 따라 적절한 모델을 자동으로 선택한다:

  • 복잡한 작업 → Gemini 3 Pro로 자동 할당
  • 일상적인 작업 → Gemini 3 Flash로 자동 할당

 

경쟁사 모델 비교 (LM Arena 기준)

LM Arena는 사용자들이 익명으로 AI 모델을 비교 평가하는 대표적인 벤치마크 플랫폼이다. 2025년 12월 기준, 주요 모델들의 순위와 가격을 비교해보자.

모델 LM Arena ELO 입력 가격 (1M 토큰) 출력 가격 (1M 토큰)
Gemini 3 Pro ~1492  $2 $12
Gemini 3 Flash  ~1490+  $0.50 $3
Grok 4.1 Thinking ~1484 🥈 $3 $15
Claude Opus 4.5 WebDev 1519  $5 $25
GPT-5.2 Preliminary  ~$1.75 ~$14
가격 대비 성능 분석
vs Claude Opus 4.5: 입력 가격 1/10 수준 ($0.50 vs $5)
vs GPT-5.2: 입력 가격 약 1/3.5 수준 ($0.50 vs ~$1.75)
vs Gemini 3 Pro: 입력 가격 1/4 수준이면서 코딩(SWE-bench)에서는 오히려 우수
• Text Arena 기준 상위권 성능을 최저 가격대로 제공

출처: LM Arena Leaderboard (2025년 12월 기준), Fello AI, Fiercefalcon Tracker
⚠️ ELO 점수는 실시간으로 변동된다. GPT-5.2는 12/11 출시로 아직 Preliminary 상태이며, Gemini 3 Flash는 현재 LM Arena에서 "Fiercefalcon"이라는 코드명으로 익명 테스트를 거치며 압도적인 성능을 증명하고 있는 것으로 알려져 있다. Claude Opus 4.5는 WebDev Arena 기준 점수이다.

 

공식 문서에서 언급된 활용 사례

Google 개발자 블로그에서는 Gemini 3 Flash의 실제 활용 사례로 다음을 언급했다:

  • 대규모 Pull Request 처리: 1,000개 이상의 댓글이 포함된 대규모 PR 분석 및 리뷰
  • 비동기 기반 로드 테스트 스크립트 생성: 복잡한 부하 테스트 코드 자동 생성
  • 3D 그래픽 애플리케이션 코드 생성: 시각적 요소가 포함된 복잡한 애플리케이션 개발

출처: Google Developers Blog

속도를 활용한 추가 활용 시나리오

  • Vibe Coding: 코드 작성 → 즉시 실행 → 수정을 빠르게 반복하는 개발 스타일. Flash의 초고속 응답 덕분에 피드백 루프가 크게 단축되어, 실시간 이터레이션 기반 개발에 최적화되어 있다.
  • 에이전트/Computer Use 작업: 화면 캡처 → 분석 → 액션 수행이 필요한 에이전트 워크플로우에서, Flash의 빠른 응답 속도는 사용자 대기 시간을 획기적으로 줄여준다.
  • 실시간 시뮬레이션 생성: 유튜브 테스트 영상에 따르면, 3D Terrain & Weather 앱 생성 시 Pro 대비 약 3배 빠른 속도(15초 vs 67초)를 보여줬다.

 

Gemini 3 출시 후 반응 및 기업 도입 사례

Google 공식 블로그에 따르면, Gemini 3 시리즈는 출시 이후 엄청난 반응을 얻고 있다:

출시 후 반응

  • 하루 1조(1T) 토큰 이상 처리 중: Gemini 3 Pro 및 Deep Think 출시 이후 API에서 매일 1조 개 이상의 토큰을 처리하고 있다
  • 다양한 활용 사례: 복잡한 주제 학습을 위한 시뮬레이션 코딩(Vibe Coding), 인터랙티브 게임 빌드 및 디자인, 다양한 멀티모달 콘텐츠 이해 등

실제 기업 도입 사례

Google은 이미 주요 기업들이 Gemini 3 Flash를 도입하여 비즈니스를 혁신하고 있다고 발표했다:

  • JetBrains: IntelliJ IDEA 등 개발 도구에 AI 기능 통합
  • Bridgewater Associates: 세계 최대 헤지펀드에서 분석 및 의사결정 지원
  • Figma: 디자인 협업 플랫폼에서 AI 기반 기능 강화

이들 기업은 Flash의 추론 속도, 효율성, 그리고 대형 모델에 버금가는 추론 능력을 높이 평가하고 있다.

 

일반 사용자를 위한 활용 사례

Gemini 3 Flash는 이제 Gemini 앱에서 기존 2.5 Flash를 대체하여 기본 모델로 설정되었다. 전 세계 모든 Gemini 사용자가 무료로 Gemini 3급 경험을 할 수 있게 된 것이다:

 

공식 데모 영상으로 보는 활용 사례

골프 스윙 분석: 짧은 비디오를 분석하고 개선 계획을 제공 - [데모 영상]

 

 

실시간 그림 맞추기: 스케치하는 동안 그림을 보고 실시간으로 추측 - [데모 영상]

 

 

오디오 학습 도우미: 오디오 녹음을 업로드하면 지식 갭을 식별하고, 맞춤형 퀴즈를 생성하며, 상세한 해설 제공 - [데모 영상]

 

음성으로 앱 만들기: 코딩 지식 없이도 음성으로 지시하면 몇 분 만에 작동하는 앱을 생성

 

 

개발자를 위한 고급 데모

인게임 AI 어시스턴트: 핸드 트래킹 기반 퍼즐 게임에서 실시간 AI 도움 제공 - [데모 영상]

 

 

실시간 A/B 테스트: 로딩 스피너 디자인을 실시간으로 빌드하고 A/B 테스트 - [데모 영상]

 

 

이미지 인터랙티브 변환: 정적 이미지를 분석하고 컨텍스트 UI 오버레이로 인터랙티브 경험으로 변환 - [데모 영상]

 

 

디자인 변형 생성: 하나의 프롬프트로 세 가지 고유한 디자인 변형을 코딩 - [데모 영상]

💡 AI Mode in Search 전 세계 롤아웃
Gemini 3 Flash는 Google 검색의 AI Mode에서도 기본 모델로 롤아웃 중이다. Gemini 3 Pro의 추론 능력을 기반으로, 질문의 뉘앙스를 더 잘 파악하고, 실시간 로컬 정보와 웹 링크를 포함한 시각적으로 정리된 응답을 검색 속도로 제공한다. 특히 복잡한 여행 계획이나 교육 개념 학습에 유용하다.

 

자주 묻는 질문 ❓

Q: Gemini 3 Flash와 Gemini 3 Pro의 가장 큰 차이점은?
A: Gemini 3 Flash는 Pro급 추론 능력을 갖추면서도 약 3배 빠른 속도와 1/4 수준의 비용을 제공한다. 특히 코딩 작업(SWE-bench)에서는 Flash가 Pro를 능가한다.
Q: Gemini 3 Flash는 무료로 사용할 수 있나?
A: Gemini 앱과 Google Search의 AI Mode에서는 무료로 사용 가능하다. API 사용은 유료이며, 입력 $0.50/1M 토큰, 출력 $3/1M 토큰이다.
Q: 어떤 플랫폼에서 Gemini 3 Flash를 사용할 수 있나?
A: Google AI Studio, Gemini CLI, Android Studio, Vertex AI, Gemini Enterprise, Google Antigravity, Gemini 앱, Google Search AI Mode 등에서 사용 가능하다.

ex) 안티 그래비티 에서도 다음과 같이 신규 모델 관련 안내가 되고 있고, 바로 사용 가능 하다. 

ex) gemini code assist
ex) gemini cli 
ex) gemini 웹
 

 

Q: 자동 라우팅 기능이란?
A: 작업의 복잡도에 따라 자동으로 적절한 모델을 선택하는 기능이다. 복잡한 작업은 Pro 모델로, 일상적인 작업은 Flash 모델로 자동 할당된다.
Q: Gemini CLI에서 Gemini 3 Flash를 사용하려면?
A: npm install -g @google/gemini-cli@latest로 설치 후, /settings에서 "Preview features"를 활성화하고 /model 명령어로 Gemini 3 Flash를 선택하면 된다.
Q: Gemini 3 Flash의 최대 컨텍스트 윈도우는?
A: 최대 입력 토큰은 약 100만(1,048,576) 토큰이고, 최대 출력 토큰은 65,536 토큰이다. 특히 200K 토큰 이상의 대용량 컨텍스트 사용 시 Pro 대비 1/8 가격으로 이용할 수 있다.
Q: Thinking 레벨 옵션이란?
A: Gemini 3 Flash는 4단계(minimal, low, medium, high) Thinking 레벨을 지원한다. 이는 Pro의 2단계보다 세분화되어 있어, 작업 복잡도에 맞는 추론 깊이를 선택할 수 있다.

참고 자료

마무리

Gemini 3 Flash의 출시로 Google의 Gemini 3 모델 패밀리가 완성되었다: Gemini 3 Pro (최고 성능), Gemini 3 Deep Think (심층 추론), 그리고 Gemini 3 Flash (속도 + 효율성).


Gemini 3 Flash는 Google이 제시하는 "성능과 효율성의 새로운 균형점"이다.
Pro급 추론 능력, Flash급 속도와 비용을 동시에 원하는 개발자와 기업에게 매력적인 선택지가 될 것으로 보인다.
특히 SWE-bench에서 Pro를 능가하는 코딩 성능은 개발자 워크플로우에서 Flash 모델의 가치를 더욱 높여준다.


JetBrains, Bridgewater Associates, Figma 같은 글로벌 기업들이 이미 Gemini 3 Flash를 도입하여 비즈니스를 혁신하고 있다. Google은 "우리는 여러분이 이 확장된 모델 패밀리로 무엇을 만들어낼지 기대하고 있다"며 개발자와 사용자들의 창의적인 활용을 기대했다.

300x250
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.

💡 AI 관련 질문이 있나요? 눌러보세요!