google

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview är Googles multimodal-modell med ultralåg latency, 131K context window, avancerad reasoning och realtidsdialog.

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time
google logogoogleGemini26 mars 2026
Kontext
131Ktokens
Max utdata
66Ktokens
Inmatningspris
$0.75/ 1M
Utdatapris
$4.50/ 1M
Modalitet:TextImageAudioVideo
Kapaciteter:VisionVerktygStreamingResonemang
Benchmarks
GPQA
94%
GPQA: Vetenskapliga fragor pa forskarutbildningsniva. Ett rigorost benchmark med 448 fragor fran biologi, fysik och kemi. PhD-experter uppnar endast 65-74% noggrannhet. Gemini 3.1 Flash Live Preview fick 94% pa detta benchmark.
HLE
44%
HLE: Expertniva resonemang. Testar modellens formaga att demonstrera expertniva resonemang inom specialiserade omraden. Gemini 3.1 Flash Live Preview fick 44% pa detta benchmark.
MMLU
91%
MMLU: Massiv multitask sprakforstaelse. Ett omfattande benchmark med 16 000 fragor over 57 akademiska amnen. Gemini 3.1 Flash Live Preview fick 91% pa detta benchmark.
MMLU Pro
89%
MMLU Pro: MMLU Professionell utgava. En forbattrad version av MMLU med 12 032 fragor och ett svarare 10-alternativsformat. Gemini 3.1 Flash Live Preview fick 89% pa detta benchmark.
SimpleQA
80%
SimpleQA: Benchmark for faktisk noggrannhet. Testar modellens formaga att ge korrekta, faktabaserade svar. Gemini 3.1 Flash Live Preview fick 80% pa detta benchmark.
IFEval
88%
IFEval: Utvardering av instruktionsfoljandeformaga. Mater hur val en modell foljer specifika instruktioner och begransningar. Gemini 3.1 Flash Live Preview fick 88% pa detta benchmark.
AIME 2025
95%
AIME 2025: American Invitational Mathematics Examination. Matematikproblem pa tavlingsniva fran det prestigefyllda AIME-provet. Gemini 3.1 Flash Live Preview fick 95% pa detta benchmark.
MATH
100%
MATH: Matematisk problemlosning. Ett omfattande matematik-benchmark som testar problemlosning i algebra, geometri, kalkyl. Gemini 3.1 Flash Live Preview fick 100% pa detta benchmark.
GSM8k
99%
GSM8k: Grundskola matematik 8K. 8 500 matematiska ordproblem pa grundskoleniva. Gemini 3.1 Flash Live Preview fick 99% pa detta benchmark.
MGSM
92%
MGSM: Flersprakig grundskola matematik. GSM8k-benchmarket oversatt till 10 sprak. Gemini 3.1 Flash Live Preview fick 92% pa detta benchmark.
MathVista
72%
MathVista: Matematiskt visuellt resonemang. Testar formagan att losa matematikproblem med visuella element. Gemini 3.1 Flash Live Preview fick 72% pa detta benchmark.
SWE-Bench
81%
SWE-Bench: Benchmark for mjukvaruutveckling. AI-modeller forsoker losa verkliga GitHub-problem i Python-projekt. Gemini 3.1 Flash Live Preview fick 81% pa detta benchmark.
HumanEval
73%
HumanEval: Python-programmeringsproblem. 164 programmeringsproblem dar modeller maste generera korrekta Python-funktionsimplementationer. Gemini 3.1 Flash Live Preview fick 73% pa detta benchmark.
LiveCodeBench
80%
LiveCodeBench: Live-kodningsbenchmark. Testar kodningsformaga pa kontinuerligt uppdaterade, verkliga programmeringsutmaningar. Gemini 3.1 Flash Live Preview fick 80% pa detta benchmark.
MMMU
69%
MMMU: Multimodal forstaelse. Multimodalt forstaelsebenchmark fran 30 universitetsanknutna amnen. Gemini 3.1 Flash Live Preview fick 69% pa detta benchmark.
MMMU Pro
60%
MMMU Pro: MMMU Professionell utgava. Forbattrad version av MMMU med mer utmanande fragor. Gemini 3.1 Flash Live Preview fick 60% pa detta benchmark.
ChartQA
90%
ChartQA: Diagram fragor och svar. Testar formagan att forsta och analysera information fran diagram och grafer. Gemini 3.1 Flash Live Preview fick 90% pa detta benchmark.
DocVQA
94%
DocVQA: Visuella dokumentfragor. Testar formagan att extrahera information fran dokumentbilder. Gemini 3.1 Flash Live Preview fick 94% pa detta benchmark.
Terminal-Bench
69%
Terminal-Bench: Terminal/CLI-uppgifter. Testar formagan att utfora kommandoradsoperationer. Gemini 3.1 Flash Live Preview fick 69% pa detta benchmark.
ARC-AGI
77%
ARC-AGI: Abstraktion och resonemang. Testar flytande intelligens genom nya monsterigenkannigspussel. Gemini 3.1 Flash Live Preview fick 77% pa detta benchmark.

Om Gemini 3.1 Flash Live Preview

Lar dig om Gemini 3.1 Flash Live Previews kapacitet, funktioner och hur det kan hjalpa dig uppna battre resultat.

Gemini 3.1 Flash Live Preview är en multimodal modell med låg latency, designad för tal-till-tal-dialog i realtid. Den bygger på Googles Gemini 3-arkitektur. En Sparse Mixture-of-Experts (MoE)-design bibehåller hög prestanda samtidigt som inferenskostnaderna minskar. Traditionella modeller utför tal-till-text följt av text-till-tal. Den här modellen bearbetar ljudströmmar nativt. Den identifierar akustiska nyanser som ton, känsla och bakgrundsbrus för naturliga interaktioner. Läs mer i den officiella dokumentationen.

Utvecklare använder denna modell för röst-först-applikationer som kräver numerisk precision och omedelbar feedback. Den stöder konfigurerbara reasoning-nivåer från minimal till high. Detta gör att användare kan balansera djupet i resonemanget mot krav på latency. Med ett context window på 131 072 tokens och stöd för text, bilder och video fungerar den som en mångsidig motor. Tänkta användningsområden inkluderar realtidsagenter, automatiserad kundsupport och samarbetande kodmiljöer.

Hantering av avbrott och brusfiltrering gör den lämpad för verkliga driftsmiljöer. Modellen ignorerar sirener och sorl samtidigt som den bibehåller konversationsflödet. Utvecklare får tillgång via Live API och kan bygga mobil- och kioskapplikationer utan behov av separata transkriberingstjänster.

Gemini 3.1 Flash Live Preview

Anvandningsfall for Gemini 3.1 Flash Live Preview

Upptack de olika satten du kan anvanda Gemini 3.1 Flash Live Preview for att uppna fantastiska resultat.

Realtids-röstassistenter

Bygg konversations-AI som svarar omedelbart på användarens tal för support inom besöksnäring, resor och logistik.

Live multimodal coachning

Ger omedelbar träning eller teknisk vägledning genom att analysera användarens kameraflöde och ljud simultant.

Samarbetande kodassistenter

Styr en IDE för att refaktorera kod och uppdatera UI-komponenter genom kontinuerliga röstinstruktioner och skärmdelning.

Översättning med låg latency

Underlättar konversationer mellan olika språk genom att översätta tal-till-tal med bevarad emotionell kontext.

Stöd för bullriga miljöer

Driver kundservicekiosker i högtrafikerade stadsmiljöer där systemet måste filtrera bort bakgrundsbrus.

Interaktiva NPC-spel

Driver icke-spelbara karaktärer som svarar med naturlig vokal betoning och reagerar på spelarens fysiska rörelser.

Styrkor

Begransningar

Inbyggd ljudbearbetning: Opererar strikt tal-till-tal, vilket gör att den identifierar verbala nyanser som frustration eller sarkasm som textbaserade modeller missar.
Synkron verktygsanvändning: Function calling sker sekventiellt, vilket innebär att modellen slutar prata helt medan den väntar på verktygets svar.
Högpresterande hastighet: Har en 2,5 gånger snabbare Time to First Token (TTFT) jämfört med sina föregångare.
Lägre zero-shot logik: Råa reasoning-resultat ligger under flaggskeppet Gemini 3.1 Pro för komplexa uppgifter på avancerad akademisk nivå.
Robust brusfiltrering: Bibehåller 95,9 % precision på Big Bench Audio även i bullriga miljöer som restauranger eller trafikerade vägar.
Komplex prissättning: Flera prisnivåer för text, ljud och video gör det svårt att förutsäga budgeten för multimodala applikationer.
Konfigurerbar reasoning: Gör det möjligt för utvecklare att justera 'thinkingLevel' för att hitta den optimala balansen mellan logik och hastighet.
Preview-status: För närvarande i preview, vilket innebär att utvecklare kan påverkas av fluktuerande rate limits och oannonserade beteendeändringar.

API snabbstart

google/gemini-3.1-flash-live-preview

Visa dokumentation
google SDK
import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

Installera SDK och borja gora API-anrop pa nagra minuter.

Vad folk sager om Gemini 3.1 Flash Live Preview

Se vad communityt tycker om Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash-Lite rullas ut... den snabbaste och mest kostnadseffektiva modellen i Gemini 3-serien hittills.
BuildwithVignesh
reddit
Matchar kvaliteten hos 2.5 Flash till kostnaden av Flash-Lite. En ljud-till-ljud-modell med låg latency optimerad för dialog i realtid.
Google AI
twitter
3 Flash försämras en del när kontexten ökar, men det är en enorm förbättring för realtidsrespons.
Pasto_Shouwa
reddit
Google pressar marginalerna på input tokens rejält med 3.1 Flash. Det blir svårt att motivera användning av något annat för enkla agenter.
AI_Dev_Master
hackernews
Den rena tal-till-tal-arkitekturen eliminerar helt de klumpiga pauserna som uppstår med kedjade transkriberingsmodeller.
AIExplorer
youtube
Testar nya Gemini 3.1 Flash Live Preview. De konfigurerbara reasoning-nivåerna är otroligt användbara för att balansera hastighet kontra logiskt resonemang.
DevGuru_X
twitter

Videor om Gemini 3.1 Flash Live Preview

Se handledningar, recensioner och diskussioner om Gemini 3.1 Flash Live Preview

Du pratar, den svarar omedelbart. Ingen lagg, ingen laddning, inga konstiga pauser. Det känns som att prata med en riktig person.

Den får 95,9 % på Big Bench audio benchmark. Det är bäst i klassen för ljudbaserad reasoning.

Du ger inte instruktioner och väntar. Du bygger tillsammans med den i realtid.

Modellen kan se din skärm medan du kodar och prata med dig om ändringarna.

Prissättningen är uppdelad mellan text och ljud, så du måste beräkna dina kostnader noggrant.

Den uppfattar din ton, ditt tempo och ditt humör. Den plockar upp frustration eller förvirring.

Gemini 3.1 Flash Live rankas som nummer ett i världen på de svåraste AI-rösttesterna.

Den förstår faktiskt komplexa ämnen. Du kan lägga till reasoning till den nivå av AI du har.

Du kan avbryta den mitt i en mening och den stannar omedelbart och lyssnar på den nya instruktionen.

Ett 128K context window innebär att den kommer ihåg början av en 30-minuters konversation.

Den gör inte längre tal-till-text och sedan text-till-tal. Det är ren tal-till-tal.

Agenten kan lyssna i bullriga miljöer... som vid vägkanten eller en bullrig restaurang.

När jag avbröt den var det imponerande hur snabbt den slutade prata.

Du kan kombinera detta med lokala kodagenter för att bokstavligen röststyra din mjukvaruutveckling.

Tiden till första token är ungefär 2,5 gånger snabbare än föregående generation.

Mer an bara promptar

Superladda ditt arbetsflode med AI-automatisering

Automatio kombinerar kraften av AI-agenter, webbautomatisering och smarta integrationer for att hjalpa dig astadkomma mer pa kortare tid.

AI-agenter
Webbautomatisering
Smarta arbetsfloden

Proffs-tips for Gemini 3.1 Flash Live Preview

Experttips for att hjalpa dig fa ut det mesta av Gemini 3.1 Flash Live Preview och uppna battre resultat.

Justera reasoning-nivåer

Ställ in 'thinkingLevel' till 'minimal' för snabbaste röstsvar, eller 'high' för komplexa logiska uppgifter i flera steg.

Använd inkrementella uppdateringar

Skicka textuppdateringar via 'send_realtime_input' under aktiva ljudsessioner för att förse modellen med föränderlig kontext.

Optimera turn coverage

Ställ in turn coverage till 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' för omfattande multimodal förståelse.

Förbered initial kontext

Använd 'send_client_content' för att etablera en konversationshistorik innan en Live API-session startas för bättre kontinuitet.

Omdomen

Vad vara anvandare sager

Ga med tusentals nojda anvandare som har transformerat sitt arbetsflode

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relaterat AI Models

google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M

Vanliga fragor om Gemini 3.1 Flash Live Preview

Hitta svar pa vanliga fragor om Gemini 3.1 Flash Live Preview