google

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview je Googleov model za audio-to-audio razmjenu s ultra-niskom latencijom, koji sadrži 131K context window, multimodalni reasoning...

MultimodalAudio-to-AudioNiska latencijaVoice AIStvarno vrijeme
google logogoogleGemini26. ožujka 2026.
Kontekst
131Ktokena
Maks. izlaz
66Ktokena
Ulazna cijena
$0.75/ 1M
Izlazna cijena
$4.50/ 1M
Modalitet:TextImageAudioVideo
Mogućnosti:VidAlatiStreamingZaključivanje
Benchmarks
GPQA
94%
GPQA: Znanstvena pitanja i odgovori na razini doktorata. Rigorozan benchmark s 448 pitanja višestrukog izbora iz biologije, fizike i kemije koje su kreirali stručnjaci. Doktori znanosti postižu samo 65-74% točnosti, dok nestručnjaci postižu samo 34% čak i s neograničenim pristupom internetu (otuda naziv 'otporan na Google'). Gemini 3.1 Flash Live Preview je postigao 94% na ovom benchmarku.
HLE
44%
HLE: Rasuđivanje visoke razine stručnosti. Testira sposobnost modela da demonstrira rasuđivanje na razini stručnjaka u specijaliziranim domenama. Procjenjuje duboko razumijevanje složenih tema koje zahtijevaju znanje na profesionalnoj razini. Gemini 3.1 Flash Live Preview je postigao 44% na ovom benchmarku.
MMLU
91%
MMLU: Masovno višezadaćno jezično razumijevanje. Sveobuhvatan benchmark s 16.000 pitanja višestrukog izbora iz 57 akademskih predmeta uključujući matematiku, filozofiju, pravo i medicinu. Testira široko znanje i sposobnosti rasuđivanja. Gemini 3.1 Flash Live Preview je postigao 91% na ovom benchmarku.
MMLU Pro
89%
MMLU Pro: MMLU profesionalno izdanje. Poboljšana verzija MMLU-a s 12.032 pitanja koristeći teži format s 10 opcija. Pokriva matematiku, fiziku, kemiju, pravo, inženjerstvo, ekonomiju, zdravstvo, psihologiju, poslovanje, biologiju, filozofiju i informatiku. Gemini 3.1 Flash Live Preview je postigao 89% na ovom benchmarku.
SimpleQA
80%
SimpleQA: Benchmark činjenične točnosti. Testira sposobnost modela da pruži točne, činjenične odgovore na jednostavna pitanja. Mjeri pouzdanost i smanjuje halucinacije u zadacima dohvaćanja znanja. Gemini 3.1 Flash Live Preview je postigao 80% na ovom benchmarku.
IFEval
88%
IFEval: Evaluacija praćenja uputa. Mjeri koliko dobro model slijedi specifične upute i ograničenja. Testira sposobnost pridržavanja pravila formatiranja, ograničenja duljine i drugih eksplicitnih zahtjeva. Gemini 3.1 Flash Live Preview je postigao 88% na ovom benchmarku.
AIME 2025
95%
AIME 2025: Američki pozivni matematički ispit. Matematički problemi natjecateljske razine s prestižnog AIME ispita dizajniranog za talentirane srednjoškolce. Testira naprednu matematičku sposobnost rješavanja problema koja zahtijeva apstraktno rasuđivanje, a ne samo prepoznavanje obrazaca. Gemini 3.1 Flash Live Preview je postigao 95% na ovom benchmarku.
MATH
100%
MATH: Rješavanje matematičkih problema. Sveobuhvatan matematički benchmark koji testira rješavanje problema iz algebre, geometrije, računa i drugih matematičkih domena. Zahtijeva rasuđivanje u više koraka i formalno matematičko znanje. Gemini 3.1 Flash Live Preview je postigao 100% na ovom benchmarku.
GSM8k
99%
GSM8k: Matematika osnovne škole 8K. 8.500 matematičkih zadataka osnovnoškolske razine koji zahtijevaju rasuđivanje u više koraka. Testira osnovnu aritmetiku i logičko razmišljanje kroz scenarije iz stvarnog života poput kupovine ili izračuna vremena. Gemini 3.1 Flash Live Preview je postigao 99% na ovom benchmarku.
MGSM
92%
MGSM: Višejezična matematika osnovne škole. GSM8k benchmark preveden na 10 jezika uključujući španjolski, francuski, njemački, ruski, kineski i japanski. Testira matematičko rasuđivanje na različitim jezicima. Gemini 3.1 Flash Live Preview je postigao 92% na ovom benchmarku.
MathVista
72%
MathVista: Matematičko vizualno rasuđivanje. Testira sposobnost rješavanja matematičkih problema koji uključuju vizualne elemente poput grafikona, geometrijskih dijagrama i znanstvenih figura. Kombinira vizualno razumijevanje s matematičkim rasuđivanjem. Gemini 3.1 Flash Live Preview je postigao 72% na ovom benchmarku.
SWE-Bench
81%
SWE-Bench: Benchmark softverskog inženjerstva. AI modeli pokušavaju riješiti stvarne GitHub probleme u Python projektima otvorenog koda s ljudskom verifikacijom. Testira praktične vještine softverskog inženjerstva na produkcijskim kodnim bazama. Najbolji modeli su napredovali s 4,4% u 2023. na preko 70% u 2024. Gemini 3.1 Flash Live Preview je postigao 81% na ovom benchmarku.
HumanEval
73%
HumanEval: Python programerski problemi. 164 ručno napisana programerska problema gdje modeli moraju generirati ispravne implementacije Python funkcija. Svako rješenje se verificira jediničnim testovima. Najbolji modeli sada postižu preko 90% točnosti. Gemini 3.1 Flash Live Preview je postigao 73% na ovom benchmarku.
LiveCodeBench
80%
LiveCodeBench: Benchmark živog kodiranja. Testira sposobnosti kodiranja na kontinuirano ažuriranim izazovima programiranja iz stvarnog svijeta. Za razliku od statičnih benchmarka, koristi svježe probleme za sprečavanje kontaminacije podataka i mjerenje pravih vještina kodiranja. Gemini 3.1 Flash Live Preview je postigao 80% na ovom benchmarku.
MMMU
69%
MMMU: Multimodalno razumijevanje. Masivni višedisciplinarni multimodalni benchmark razumijevanja koji testira modele vida i jezika na problemima sveučilišne razine iz 30 predmeta koji zahtijevaju razumijevanje slika i stručno znanje. Gemini 3.1 Flash Live Preview je postigao 69% na ovom benchmarku.
MMMU Pro
60%
MMMU Pro: MMMU profesionalno izdanje. Poboljšana verzija MMMU-a s težim pitanjima i strožom evaluacijom. Testira napredno multimodalno rasuđivanje na profesionalnoj i stručnoj razini. Gemini 3.1 Flash Live Preview je postigao 60% na ovom benchmarku.
ChartQA
90%
ChartQA: Pitanja i odgovori o grafikonima. Testira sposobnost razumijevanja i rasuđivanja o informacijama prikazanim u grafikonima i dijagramima. Zahtijeva ekstrakciju podataka, usporedbu vrijednosti i izvođenje izračuna iz vizualnih prikaza podataka. Gemini 3.1 Flash Live Preview je postigao 90% na ovom benchmarku.
DocVQA
94%
DocVQA: Vizualna Q&A o dokumentima. Benchmark vizualnih pitanja i odgovora o dokumentima koji testira sposobnost ekstrakcije i rasuđivanja o informacijama iz slika dokumenata uključujući obrasce, izvješća i skenirani tekst. Gemini 3.1 Flash Live Preview je postigao 94% na ovom benchmarku.
Terminal-Bench
69%
Terminal-Bench: Terminal/CLI zadaci. Testira sposobnost izvođenja operacija naredbenog retka, pisanja shell skripti i navigacije u terminalskim okruženjima. Mjeri praktične vještine administracije sustava i razvojnih radnih tokova. Gemini 3.1 Flash Live Preview je postigao 69% na ovom benchmarku.
ARC-AGI
77%
ARC-AGI: Apstrakcija i rasuđivanje. Korpus apstrakcije i rasuđivanja za AGI - testira fluidnu inteligenciju kroz nove zagonetke prepoznavanja obrazaca. Svaki zadatak zahtijeva otkrivanje temeljnog pravila iz primjera, mjereći opću sposobnost rasuđivanja umjesto memoriranja. Gemini 3.1 Flash Live Preview je postigao 77% na ovom benchmarku.

O modelu Gemini 3.1 Flash Live Preview

Saznajte o mogućnostima, značajkama i načinima korištenja modela Gemini 3.1 Flash Live Preview.

Gemini 3.1 Flash Live Preview je multimodalni model s niskom latencijom dizajniran za audio-to-audio dijalog u stvarnom vremenu. Radi na Googleovoj Gemini 3 arhitekturi. Sparse Mixture-of-Experts (MoE) dizajn održava visoke performanse uz smanjenje troškova inferencea. Tradicionalni modeli izvode speech-to-text, a zatim text-to-speech. Ovaj model obrađuje audio streamove izvorno. Detektira akustičke nijanse poput tona, emocije i pozadinske buke za prirodne interakcije. Saznajte više u službenoj dokumentaciji.

Programeri koriste ovaj model za glasovne aplikacije koje zahtijevaju numeričku preciznost i trenutne povratne informacije. Podržava podesive razine reasoninga u rasponu od minimalne do visoke. To omogućuje korisnicima da balansiraju dubinu logike prema zahtjevima latencije. S context windowom od 131.072 tokena i podrškom za tekst, slike i video, djeluje kao svestran motor. Ciljani primjeri upotrebe uključuju agente u stvarnom vremenu, automatiziranu korisničku podršku i suradnička okruženja za kodiranje.

Upravljanje prekidima i filtriranje buke čine ga prikladnim za implementacije u stvarnom svijetu. Model ignorira buku sirena i gužve dok održava tijek razgovora. Programeri mu pristupaju putem Live API-ja, gradeći mobilne i kiosk aplikacije bez potrebe za zasebnim uslugama transkripcije.

Gemini 3.1 Flash Live Preview

Slučajevi korištenja za Gemini 3.1 Flash Live Preview

Otkrijte različite načine korištenja modela Gemini 3.1 Flash Live Preview za postizanje izvrsnih rezultata.

Glasovni agenti u stvarnom vremenu

Izgradnja konverzacijskog AI-a koji trenutno odgovara na govor korisnika za podršku u hotelijerstvu, putovanjima i logistici.

Multimodalno treniranje uživo

Pružanje trenutnog fitness ili tehničkog treninga analizom video prijenosa kamere i audija korisnika istovremeno.

Suradnički asistenti za kodiranje

Usmjeravanje IDE-a na refaktoriranje koda i ažuriranje UI komponenti putem kontinuiranih glasovnih uputa i dijeljenja ekrana.

Prevođenje s niskom latencijom

Olakšavanje međujezičnih razgovora prevođenjem govora u govor uz očuvanje emocionalnog konteksta.

Podrška u bučnim okruženjima

Pokretanje kioska za korisničku podršku u prometnim urbanim područjima gdje sustav mora filtrirati buku sirena i gužve.

Interaktivni NPC-ovi u igrama

Pokretanje ne-igrivih likova (NPC) koji odgovaraju prirodnom vokalnom intonacijom i reagiraju na fizičke pokrete igrača.

Prednosti

Ograničenja

Izvorna audio obrada: Radi isključivo speech-to-speech, detektirajući verbalne nijanse poput frustracije ili sarkazma koje modeli temeljeni na tekstu propuštaju.
Sinkrono korištenje alata: Function calling radi sekvencijalno, što znači da model potpuno prestaje govoriti dok čeka odgovor alata.
Visoke performanse brzine: Sadrži 2,5 puta brži Time to First Token (TTFT) u usporedbi s prethodnicima.
Niža logika u zero-shot scenarijima: Rezultati sirovog reasoninga su ispod Gemini 3.1 Pro flagship modela za složene zadatke na razini doktorata.
Robusno filtriranje buke: Održava 95,9% točnosti na Big Bench Audio benchmarku čak i u bučnim okruženjima poput restorana ili prometnih cesta.
Složenost cijena: Višestruke razine cijena za tekst, audio i video čine planiranje budžeta za multimodalne aplikacije teškim za predviđanje.
Podesivi reasoning: Omogućuje programerima da povećaju ili smanje 'thinkingLevel' kako bi pronašli optimalnu ravnotežu između logike i brzine.
Status pregleda: Trenutno u fazi pregleda (preview), što znači da su programeri podložni promjenama ograničenja brzine (rate limit) i nenajavljenim podešavanjima ponašanja.

API brzi početak

google/gemini-3.1-flash-live-preview

Pogledaj dokumentaciju
google SDK
import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

Instalirajte SDK i počnite s API pozivima za nekoliko minuta.

Što ljudi kažu o modelu Gemini 3.1 Flash Live Preview

Pogledajte što zajednica misli o modelu Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash-Lite izlazi... najbrži i najisplativiji model iz Gemini 3 serije do sada.
BuildwithVignesh
reddit
Odgovara kvaliteti 2.5 Flash uz cijenu Flash-Lite-a. Audio-to-audio model s niskom latencijom optimiziran za dijalog u stvarnom vremenu.
Google AI
twitter
3 Flash dosta gubi na kvaliteti kako se kontekst povećava, ali ovo je ogromno poboljšanje za brzinu odgovora u stvarnom vremenu.
Pasto_Shouwa
reddit
Google stvarno smanjuje marže na ulaznim tokenima s 3.1 Flash. Postaje teško opravdati korištenje ičeg drugog za jednostavne agente.
AI_Dev_Master
hackernews
Sirova speech-to-speech arhitektura potpuno eliminira neugodne pauze koje dobivate kod povezanih transkripcijskih modela.
AIExplorer
youtube
Testiram novi Gemini 3.1 Flash Live Preview. Podesive razine reasoninga su nevjerojatno korisne za balansiranje između brzine i logike.
DevGuru_X
twitter

Videozapisi o modelu Gemini 3.1 Flash Live Preview

Gledajte tutorijale, recenzije i diskusije o modelu Gemini 3.1 Flash Live Preview

Govorite, on odgovara trenutno. Nema kašnjenja, nema učitavanja, nema čudnih pauza. Zvuči kao razgovor sa stvarnom osobom.

Ostvaruje 95,9% na Big Bench audio benchmarku. To je najbolje u klasi za audio reasoning.

Ne dajete mu upute i čekate. S njim gradite u stvarnom vremenu.

Model može vidjeti vaš ekran dok kodirate i razgovarati s vama o promjenama.

Cijene su podijeljene između teksta i audija, pa morate pažljivo izračunati svoje troškove.

Ovo prepoznaje vaš ton, tempo i raspoloženje. Prepoznaje frustraciju ili zbunjenost.

Gemini 3.1 Flash Live je na prvom mjestu na svijetu prema najtežim AI benchmarkovima za glas.

Stvarno razumije složene teme. Možete dodati reasoning na razinu AI-a koju koristite.

Možete ga prekinuti usred rečenice i on odmah prestaje te sluša novu uputu.

128K context window znači da pamti početak 30-minutnog razgovora.

Više ne radi speech-to-text pa text-to-speech. Radi izravno speech-to-speech.

Agent koji može slušati u bučnim okruženjima... poput ceste ili bučnog restorana.

Kako brzo je prestao govoriti kad sam ga prekinuo... mislim da je to stvarno impresivno.

Možete ovo kombinirati s lokalnim kodnim agentima za doslovno glasovno upravljanje razvojem softvera.

Time to first token je otprilike 2,5 puta brži nego kod prethodne generacije.

Vise od samo promptova

Poboljšajte svoj radni tijek sa AI Automatizacijom

Automatio kombinira moc AI agenata, web automatizacije i pametnih integracija kako bi vam pomogao postici vise za manje vremena.

AI Agenti
Web Automatizacija
Pametni Tokovi

Pro Savjeti za Gemini 3.1 Flash Live Preview

Stručni savjeti za maksimalno iskorištavanje Gemini 3.1 Flash Live Preview.

Prilagodite razine reasoninga

Postavite 'thinkingLevel' na 'minimal' za najbrže glasovne odgovore ili 'high' za složene logičke zadatke u više koraka.

Koristite inkrementalna ažuriranja

Šaljite tekstualna ažuriranja putem 'send_realtime_input' tijekom aktivnih audio sesija kako biste modelu pružili kontekst koji se mijenja.

Optimizirajte pokrivenost sesije

Postavite turn coverage na 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' za sveobuhvatno multimodalno razumijevanje.

Postavite inicijalni kontekst

Koristite 'send_client_content' za uspostavljanje povijesti razgovora prije početka Live API sesije radi bolje kontinuiteta.

Svjedočanstva

Sto Kazu Nasi Korisnici

Pridruzite se tisucama zadovoljnih korisnika koji su transformirali svoj radni tijek

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Povezani AI Models

google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M

Često Postavljana Pitanja o Gemini 3.1 Flash Live Preview

Pronađite odgovore na česta pitanja o Gemini 3.1 Flash Live Preview