google

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview는 131K context window, 고충실도 멀티모달 reasoning 및 실시간 대화를 특징으로 하는 Google의 초저지연 오디오 대 오디오 모델입니다.

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time
google logogoogleGeminiMarch 26, 2026
컨텍스트
131K토큰
최대 출력
66K토큰
입력 가격
$0.75/ 1M
출력 가격
$4.50/ 1M
모달리티:TextImageAudioVideo
기능:비전도구스트리밍추론
벤치마크
GPQA
94%
GPQA: 대학원 수준 과학 Q&A. 생물학, 물리학, 화학 분야의 448개 객관식 문제로 구성된 엄격한 벤치마크. 박사 전문가도 65-74%의 정확도만 달성합니다. Gemini 3.1 Flash Live Preview이 이 벤치마크에서 94%점을 기록했습니다.
HLE
44%
HLE: 고급 전문 추론. 전문 분야에서 전문가 수준의 추론을 보여주는 모델의 능력을 테스트합니다. Gemini 3.1 Flash Live Preview이 이 벤치마크에서 44%점을 기록했습니다.
MMLU
91%
MMLU: 대규모 다중 작업 언어 이해. 57개 학술 과목에 걸쳐 16,000개의 객관식 문제로 구성된 종합 벤치마크. Gemini 3.1 Flash Live Preview이 이 벤치마크에서 91%점을 기록했습니다.
MMLU Pro
89%
MMLU Pro: MMLU 프로페셔널 에디션. 더 어려운 10지선다형 형식의 12,032개 문제를 포함하는 MMLU의 향상된 버전. Gemini 3.1 Flash Live Preview이 이 벤치마크에서 89%점을 기록했습니다.
SimpleQA
80%
SimpleQA: 사실 정확성 벤치마크. 직접적인 질문에 정확하고 사실적인 응답을 제공하는 모델의 능력을 테스트합니다. Gemini 3.1 Flash Live Preview이 이 벤치마크에서 80%점을 기록했습니다.
IFEval
88%
IFEval: 지시 따르기 평가. 모델이 특정 지시와 제약 조건을 얼마나 잘 따르는지 측정합니다. Gemini 3.1 Flash Live Preview이 이 벤치마크에서 88%점을 기록했습니다.
AIME 2025
95%
AIME 2025: 미국 초청 수학 시험. 명문 AIME 시험의 경쟁 수준 수학 문제. Gemini 3.1 Flash Live Preview이 이 벤치마크에서 95%점을 기록했습니다.
MATH
100%
MATH: 수학 문제 해결. 대수, 기하, 미적분 등의 분야를 테스트하는 종합 수학 벤치마크. Gemini 3.1 Flash Live Preview이 이 벤치마크에서 100%점을 기록했습니다.
GSM8k
99%
GSM8k: 초등학교 수학 8K. 다단계 추론이 필요한 8,500개의 초등학교 수준 수학 문장제. Gemini 3.1 Flash Live Preview이 이 벤치마크에서 99%점을 기록했습니다.
MGSM
92%
MGSM: 다국어 초등학교 수학. GSM8k 벤치마크를 10개 언어로 번역한 것. Gemini 3.1 Flash Live Preview이 이 벤치마크에서 92%점을 기록했습니다.
MathVista
72%
MathVista: 수학적 시각 추론. 차트, 그래프 등 시각적 요소가 포함된 수학 문제를 푸는 능력을 테스트합니다. Gemini 3.1 Flash Live Preview이 이 벤치마크에서 72%점을 기록했습니다.
SWE-Bench
81%
SWE-Bench: 소프트웨어 엔지니어링 벤치마크. AI 모델이 오픈소스 Python 프로젝트의 실제 GitHub 이슈를 해결하려고 시도합니다. Gemini 3.1 Flash Live Preview이 이 벤치마크에서 81%점을 기록했습니다.
HumanEval
73%
HumanEval: Python 프로그래밍 문제. 모델이 올바른 Python 함수 구현을 생성해야 하는 164개의 수작업 프로그래밍 문제. Gemini 3.1 Flash Live Preview이 이 벤치마크에서 73%점을 기록했습니다.
LiveCodeBench
80%
LiveCodeBench: 라이브 코딩 벤치마크. 지속적으로 업데이트되는 실제 프로그래밍 챌린지에서 코딩 능력을 테스트합니다. Gemini 3.1 Flash Live Preview이 이 벤치마크에서 80%점을 기록했습니다.
MMMU
69%
MMMU: 멀티모달 이해. 대학 수준 문제에서 비전-언어 모델을 테스트하는 대규모 다분야 멀티모달 이해 벤치마크. Gemini 3.1 Flash Live Preview이 이 벤치마크에서 69%점을 기록했습니다.
MMMU Pro
60%
MMMU Pro: MMMU 프로페셔널 에디션. 더 도전적인 문제와 더 엄격한 평가를 갖춘 MMMU의 향상된 버전. Gemini 3.1 Flash Live Preview이 이 벤치마크에서 60%점을 기록했습니다.
ChartQA
90%
ChartQA: 차트 질문 응답. 차트와 그래프에 제시된 정보를 이해하고 추론하는 능력을 테스트합니다. Gemini 3.1 Flash Live Preview이 이 벤치마크에서 90%점을 기록했습니다.
DocVQA
94%
DocVQA: 문서 시각 Q&A. 문서 이미지에서 정보를 추출하는 능력을 테스트하는 문서 시각 질문 응답 벤치마크. Gemini 3.1 Flash Live Preview이 이 벤치마크에서 94%점을 기록했습니다.
Terminal-Bench
69%
Terminal-Bench: 터미널/CLI 작업. 명령줄 작업을 수행하고 셸 스크립트를 작성하는 능력을 테스트합니다. Gemini 3.1 Flash Live Preview이 이 벤치마크에서 69%점을 기록했습니다.
ARC-AGI
77%
ARC-AGI: 추상화 및 추론. AGI를 위한 추상화 및 추론 코퍼스 - 새로운 패턴 인식 퍼즐로 유동 지능을 테스트합니다. Gemini 3.1 Flash Live Preview이 이 벤치마크에서 77%점을 기록했습니다.

Gemini 3.1 Flash Live Preview 소개

Gemini 3.1 Flash Live Preview의 기능, 특징 및 더 나은 결과를 얻는 방법에 대해 알아보세요.

Gemini 3.1 Flash Live Preview는 실시간 오디오 대 오디오 대화를 위해 설계된 저지연 멀티모달 모델입니다. Google의 Gemini 3 아키텍처에서 작동하며, Sparse Mixture-of-Experts(MoE) 설계를 통해 추론 비용을 낮추면서도 높은 성능을 유지합니다. 기존 모델들은 음성-텍스트 전환 후 텍스트-음성 전환을 수행하지만, 이 모델은 오디오 스트림을 네이티브 방식으로 처리합니다. 톤, 감정, 배경 소음과 같은 음향적 뉘앙스를 감지하여 자연스러운 상호 작용을 가능하게 합니다. 자세한 내용은 공식 문서를 확인하세요.

개발자들은 숫자 정밀도와 즉각적인 피드백이 필요한 음성 우선 애플리케이션에 이 모델을 사용합니다. 최소값에서 높은 수준까지 설정 가능한 reasoning 레벨을 지원하여 논리적 깊이와 latency 요구 사항 사이의 균형을 잡을 수 있습니다. 131,072-token context window와 텍스트, 이미지, 비디오 지원 기능을 갖춘 이 모델은 다재다능한 엔진 역할을 합니다. 주요 유즈케이스로는 실시간 에이전트, 자동화된 고객 지원, 협업 코딩 환경 등이 있습니다.

중단 처리 및 소음 필터링 기능 덕분에 실제 환경에 구축하기 적합합니다. 이 모델은 대화의 흐름을 유지하면서 사이렌 소리나 군중 소음을 무시합니다. 개발자는 Live API를 통해 별도의 전사 서비스 없이 모바일 및 키오스크 애플리케이션을 구축할 수 있습니다.

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview 사용 사례

Gemini 3.1 Flash Live Preview을 사용하여 훌륭한 결과를 얻는 다양한 방법을 발견하세요.

실시간 음성 에이전트

호텔, 여행 및 물류 지원을 위해 사용자 음성에 즉각적으로 반응하는 대화형 AI를 구축합니다.

라이브 멀티모달 코칭

사용자의 카메라 피드와 오디오를 동시에 분석하여 즉각적인 피트니스 또는 기술 교육을 제공합니다.

협업 코딩 어시스턴트

지속적인 음성 지시와 화면 공유를 통해 IDE가 코드를 리팩토링하고 UI 구성 요소를 업데이트하도록 유도합니다.

저지연 번역

감정적 맥락을 유지하면서 음성 대 음성(speech-to-speech)으로 통역하여 언어 간 대화를 원활하게 합니다.

소음 환경 지원

사이렌이나 군중 소음을 필터링해야 하는 유동 인구가 많은 도시 지역의 고객 서비스 키오스크를 구동합니다.

인터랙티브 NPC 게이밍

자연스러운 음성 억양으로 응답하고 플레이어의 신체 움직임에 반응하는 게임 내 NPC를 구현합니다.

강점

제한

네이티브 오디오 처리: 엄격하게 음성 대 음성으로 작동하여 텍스트 기반 모델이 놓치기 쉬운 좌절감이나 냉소와 같은 언어적 뉘앙스를 감지합니다.
동기식 도구 사용: Function calling이 순차적으로 작동하므로, 도구 응답을 기다리는 동안 모델이 완전히 말을 멈춥니다.
고속 성능: 이전 세대 대비 2.5배 더 빠른 TTFT(Time to First Token)를 제공합니다.
낮은 제로샷 논리 성능: 복잡한 PhD 수준의 작업에서는 Gemini 3.1 Pro flagship 모델보다 원시 reasoning 점수가 낮습니다.
강력한 소음 필터링: 식당이나 번화한 도로와 같이 소음이 심한 환경에서도 Big Bench Audio 기준 95.9%의 정확도를 유지합니다.
가격 구조의 복잡성: 텍스트, 오디오, 비디오에 대한 여러 요금 등급으로 인해 멀티모달 애플리케이션의 예산 예측이 어렵습니다.
구성 가능한 Reasoning: 개발자가 'thinkingLevel'을 조절하여 논리 성능과 속도 사이의 최적의 균형을 찾을 수 있습니다.
프리뷰 상태: 현재 프리뷰 단계이므로 개발자는 사용량 제한 변동과 사전 예고 없는 동작 튜닝을 경험할 수 있습니다.

API 빠른 시작

google/gemini-3.1-flash-live-preview

문서 보기
google SDK
import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

SDK를 설치하고 몇 분 안에 API 호출을 시작하세요.

Gemini 3.1 Flash Live Preview에 대한 사람들의 의견

커뮤니티가 Gemini 3.1 Flash Live Preview에 대해 어떻게 생각하는지 확인하세요

Gemini 3.1 Flash-Lite 출시... 지금까지 나온 Gemini 3 시리즈 모델 중 가장 빠르고 비용 효율적입니다.
BuildwithVignesh
reddit
2.5 Flash와 동일한 품질을 Flash-Lite 비용으로 제공합니다. 실시간 대화에 최적화된 저지연 오디오 대 오디오 모델입니다.
Google AI
twitter
3 Flash는 context가 늘어나면 성능 저하가 크지만, 실시간 응답성 면에서는 엄청난 개선입니다.
Pasto_Shouwa
reddit
Google이 3.1 Flash로 입력 token 마진을 정말 쥐어짜고 있네요. 단순한 에이전트를 위해 다른 것을 쓰기 어려워지고 있습니다.
AI_Dev_Master
hackernews
원시 음성 대 음성 아키텍처는 체인화된 전사 모델에서 발생하는 어색한 멈춤 현상을 완전히 제거합니다.
AIExplorer
youtube
새로운 Gemini 3.1 Flash Live Preview를 테스트 중입니다. 설정 가능한 reasoning 레벨은 속도와 논리 사이의 균형을 맞추는 데 매우 유용합니다.
DevGuru_X
twitter

Gemini 3.1 Flash Live Preview에 대한 동영상

Gemini 3.1 Flash Live Preview에 대한 튜토리얼, 리뷰 및 토론 시청

말하면 즉시 반응합니다. 지연이나 로딩, 이상한 멈춤이 없습니다. 실제 사람과 대화하는 것과 같습니다.

Big Bench 오디오 benchmark에서 95.9%를 기록했습니다. 오디오 reasoning 분야에서 최고 수준입니다.

명령을 내리고 기다리는 방식이 아닙니다. 실시간으로 함께 만들어가는 것입니다.

코딩하는 동안 모델이 화면을 보고 변경 사항에 대해 대화할 수 있습니다.

가격은 텍스트와 오디오로 나뉘어 있으므로 비용을 신중하게 계산해야 합니다.

당신의 톤, 속도, 기분을 포착합니다. 좌절감이나 혼란도 감지해냅니다.

Gemini 3.1 Flash Live는 가장 어려운 AI 음성 benchmark에서 세계 1위를 기록했습니다.

실제로 복잡한 주제를 이해합니다. AI의 reasoning 수준을 직접 설정할 수 있습니다.

문장 중간에 말을 끊어도 즉시 멈추고 새로운 지시사항을 듣습니다.

128K context window 덕분에 30분짜리 대화의 시작 부분을 기억합니다.

더 이상 음성을 텍스트로 바꾸고 다시 텍스트를 음성으로 바꾸지 않습니다. 그냥 바로 음성 대 음성입니다.

길가나 시끄러운 식당처럼 소음이 많은 환경에서도 에이전트가 잘 듣습니다.

말을 끊었을 때 얼마나 빨리 말을 멈추는지 정말 인상적이었습니다.

이 모델을 로컬 코드 에이전트와 결합하면 음성 명령으로 소프트웨어 개발을 할 수 있습니다.

TTFT가 이전 세대보다 대략 2.5배 빠릅니다.

단순한 프롬프트 이상

워크플로를 강화하세요 AI 자동화

Automatio는 AI 에이전트, 웹 자동화 및 스마트 통합의 힘을 결합하여 더 짧은 시간에 더 많은 것을 달성할 수 있도록 도와줍니다.

AI 에이전트
웹 자동화
스마트 워크플로

Gemini 3.1 Flash Live Preview 프로 팁

Gemini 3.1 Flash Live Preview을 최대한 활용하기 위한 전문가 팁.

Reasoning 레벨 조정

가장 빠른 음성 응답을 원하면 'thinkingLevel'을 'minimal'로 설정하고, 복잡한 다단계 논리 작업이 필요하면 'high'로 설정하세요.

증분 업데이트 사용

활성 오디오 세션 중에 'send_realtime_input'을 통해 텍스트 업데이트를 전송하여 모델에 변화하는 context를 제공하세요.

Turn Coverage 최적화

포괄적인 multimodal 이해를 위해 turn coverage를 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO'로 설정하세요.

초기 Context 시드(Seed) 설정

연속성을 높이려면 Live API 세션을 시작하기 전에 'send_client_content'를 사용하여 대화 기록을 구축하세요.

후기

사용자 후기

워크플로를 혁신한 수천 명의 만족한 사용자와 함께하세요

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

관련 AI Models

google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M

Gemini 3.1 Flash Live Preview에 대한 자주 묻는 질문

Gemini 3.1 Flash Live Preview에 대한 일반적인 질문에 대한 답변 찾기