google

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview je model společnosti Google s extrémně nízkou latencí, který funguje jako speech-to-speech, nabízí kontextové okno 131K,...

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time
google logogoogleGemini26. března 2026
Kontext
131Ktokenu
Max vystup
66Ktokenu
Cena vstupu
$0.75/ 1M
Cena vystupu
$4.50/ 1M
Modalita:TextImageAudioVideo
Schopnosti:VideniNastrojeStreamingUvazovani
Benchmarky
GPQA
94%
GPQA: Vedecke otazky postgradualni urovne. Prisnybenchmark s 448 otazkami z biologie, fyziky a chemie. PhD experti dosahuji pouze 65-74% presnosti. Gemini 3.1 Flash Live Preview ziskal 94% v tomto benchmarku.
HLE
44%
HLE: Uvazovani na expertni urovni. Testuje schopnost modelu demonstrovat uvazovani na expertni urovni ve specializovanych oblastech. Gemini 3.1 Flash Live Preview ziskal 44% v tomto benchmarku.
MMLU
91%
MMLU: Masivni viceulohove porozumeni jazyku. Komplexni benchmark s 16 000 otazkami z 57 akademickych predmetu. Gemini 3.1 Flash Live Preview ziskal 91% v tomto benchmarku.
MMLU Pro
89%
MMLU Pro: MMLU Profesionalni edice. Vylepsena verze MMLU s 12 032 otazkami a tezsim 10-moznostnim formatem. Gemini 3.1 Flash Live Preview ziskal 89% v tomto benchmarku.
SimpleQA
80%
SimpleQA: Benchmark fakticke presnosti. Testuje schopnost modelu poskytnout presne, fakticke odpovedi. Gemini 3.1 Flash Live Preview ziskal 80% v tomto benchmarku.
IFEval
88%
IFEval: Hodnoceni dodrzovani instrukci. Meri, jak dobre model dodrzuje specificke instrukce a omezeni. Gemini 3.1 Flash Live Preview ziskal 88% v tomto benchmarku.
AIME 2025
95%
AIME 2025: Americka pozvanecka matematicka zkouska. Matematicke ulohy na soutezni urovni z prestizni zkousky AIME. Gemini 3.1 Flash Live Preview ziskal 95% v tomto benchmarku.
MATH
100%
MATH: Reseni matematickych problemu. Komplexni matematicky benchmark testujici reseni problemu v algebre, geometrii, kalkulu. Gemini 3.1 Flash Live Preview ziskal 100% v tomto benchmarku.
GSM8k
99%
GSM8k: Matematika zakladni skoly 8K. 8 500 matematickych slovnich uloh urovne zakladni skoly. Gemini 3.1 Flash Live Preview ziskal 99% v tomto benchmarku.
MGSM
92%
MGSM: Vicejazycna matematika zakladni skoly. Benchmark GSM8k prelozeny do 10 jazyku. Gemini 3.1 Flash Live Preview ziskal 92% v tomto benchmarku.
MathVista
72%
MathVista: Matematicke vizualni uvazovani. Testuje schopnost resit matematicke problemy s vizualnimi prvky. Gemini 3.1 Flash Live Preview ziskal 72% v tomto benchmarku.
SWE-Bench
81%
SWE-Bench: Benchmark softwaroveho inzenyrstvi. AI modely se pokousi resit skutecne problemy GitHub v Python projektech. Gemini 3.1 Flash Live Preview ziskal 81% v tomto benchmarku.
HumanEval
73%
HumanEval: Programovaci ulohy v Pythonu. 164 programovacich uloh, kde modely musi generovat spravne implementace Python funkci. Gemini 3.1 Flash Live Preview ziskal 73% v tomto benchmarku.
LiveCodeBench
80%
LiveCodeBench: Zive programovaci benchmark. Testuje programovaci schopnosti na neustale aktualizovanych, skutecnych programovacich vyzvan. Gemini 3.1 Flash Live Preview ziskal 80% v tomto benchmarku.
MMMU
69%
MMMU: Multimodalni porozumeni. Multimodalni benchmark porozumeni z 30 univerzitnich predmetu. Gemini 3.1 Flash Live Preview ziskal 69% v tomto benchmarku.
MMMU Pro
60%
MMMU Pro: MMMU Profesionalni edice. Vylepsena verze MMMU s narocnejsimi otazkami. Gemini 3.1 Flash Live Preview ziskal 60% v tomto benchmarku.
ChartQA
90%
ChartQA: Otazky a odpovedi o grafech. Testuje schopnost porozumet a analyzovat informace z grafu a diagramu. Gemini 3.1 Flash Live Preview ziskal 90% v tomto benchmarku.
DocVQA
94%
DocVQA: Vizualni otazky o dokumentech. Testuje schopnost extrahovat informace z obrazku dokumentu. Gemini 3.1 Flash Live Preview ziskal 94% v tomto benchmarku.
Terminal-Bench
69%
Terminal-Bench: Ulohy terminal/CLI. Testuje schopnost provadet operace prikazoveho radku. Gemini 3.1 Flash Live Preview ziskal 69% v tomto benchmarku.
ARC-AGI
77%
ARC-AGI: Abstrakce a uvazovani. Testuje fluidni inteligenci prostrednictvim novych hadanek rozpoznavani vzoru. Gemini 3.1 Flash Live Preview ziskal 77% v tomto benchmarku.

O Gemini 3.1 Flash Live Preview

Zjistete o schopnostech Gemini 3.1 Flash Live Preview, funkcich a jak vam muze pomoci dosahnout lepsich vysledku.

Gemini 3.1 Flash Live Preview je multimodální model s nízkou latencí navržený pro audio-to-audio dialog v reálném čase. Funguje na architektuře Gemini 3 od Google. Design Sparse Mixture-of-Experts (MoE) udržuje vysoký výkon a zároveň snižuje náklady na inference. Tradiční modely provádějí převod řeči na text následovaný převodem textu na řeč. Tento model zpracovává audio streamy nativně. Detekuje akustické nuance, jako jsou tón, emoce a hluk na pozadí, pro přirozené interakce. Více se dozvíte v oficiální dokumentaci.

Vývojáři tento model využívají pro hlasové aplikace vyžadující číselnou přesnost a okamžitou zpětnou vazbu. Podporuje konfigurovatelné úrovně reasoning od minimální až po vysokou. To uživatelům umožňuje vyvážit hloubku uvažování s požadavky na latenci. S kontextovým oknem o velikosti 131 072 tokenů a podporou textu, obrázků a videa funguje jako všestranný motor. Cílové případy užití zahrnují agenty v reálném čase, automatizovanou zákaznickou podporu a kolaborativní programovací prostředí.

Práce s přerušeními a filtrování hluku jej předurčují pro nasazení v reálném světě. Model ignoruje hluk sirén a davu při zachování plynulosti konverzace. Vývojáři k němu přistupují prostřednictvím Live API a mohou tak budovat mobilní aplikace i aplikace pro kiosky bez potřeby externích transkripčních služeb.

Gemini 3.1 Flash Live Preview

Pripady pouziti pro Gemini 3.1 Flash Live Preview

Objevte ruzne zpusoby, jak muzete pouzit Gemini 3.1 Flash Live Preview pro dosazeni skvelych vysledku.

Hlasoví agenti v reálném čase

Vytvářejte konverzační AI, která okamžitě reaguje na řeč uživatele pro podporu v pohostinství, cestovním ruchu a logistice.

Živý multimodální koučink

Poskytuje okamžitý fitness nebo technický trénink analýzou záběru z kamery a audia uživatele současně.

Kolaborativní asistenti pro programování

Navádí IDE k refaktorování kódu a aktualizaci UI komponent prostřednictvím průběžných hlasových instrukcí a sdílení obrazovky.

Překlad s nízkou latencí

Usnadňuje vícejazyčné konverzace překladem řeči do řeči se zachováním emočního kontextu.

Podpora v hlučném prostředí

Pohání kiosky zákaznické podpory ve vytížených městských oblastech, kde systém musí odfiltrovat hluk sirén a davu.

Interaktivní herní NPC

Ovládá nehratelné postavy, které reagují přirozenou hlasovou intonací a fyzickým pohybem hráče.

Silne stranky

Omezeni

Nativní zpracování audia: Pracuje striktně způsobem speech-to-speech a detekuje verbální nuance, jako je frustrace nebo sarkasmus, které modely založené na textu přehlížejí.
Synchronní používání nástrojů: Volání funkcí probíhá sekvenčně, což znamená, že model zcela přestane mluvit, zatímco čeká na odpovědi nástroje.
Vysokorychlostní výkon: Nabízí 2,5x rychlejší Time to First Token (TTFT) ve srovnání se svými předchůdci.
Nižší logika při zero-shot úlohách: Výsledky základního uvažování jsou u komplexních úloh na úrovni PhD nižší než u vlajkové lodi Gemini 3.1 Pro.
Robustní filtrování hluku: Udržuje 95,9% přesnost v benchmarku Big Bench Audio i v hlučném prostředí, jako jsou restaurace nebo rušné silnice.
Složitost cenotvorby: Více cenových úrovní pro text, audio a video ztěžuje odhadování nákladů pro multimodální aplikace.
Konfigurovatelné reasoning: Umožňuje vývojářům regulovat 'thinkingLevel' pro nalezení optimální rovnováhy mezi logikou a rychlostí.
Stav Preview: Momentálně ve fázi preview, což pro vývojáře znamená výkyvy v rate limitech a neohlášené změny chování modelu.

Rychly start API

google/gemini-3.1-flash-live-preview

Zobrazit dokumentaci
google SDK
import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

Nainstalujte SDK a zacnete provadet API volani behem nekolika minut.

Co lide rikaji o Gemini 3.1 Flash Live Preview

Podivejte se, co si komunita mysli o Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash-Lite je venku... zatím nejrychlejší a nejekonomičtější model z řady Gemini 3.
BuildwithVignesh
reddit
Odpovídá kvalitě 2.5 Flash za cenu Flash-Lite. Model s nízkou latencí, speech-to-speech, optimalizovaný pro dialog v reálném čase.
Google AI
twitter
3 Flash s rostoucím kontextem hodně ztrácí, ale pro odezvu v reálném čase je to masivní zlepšení.
Pasto_Shouwa
reddit
Google u 3.1 Flash opravdu tlačí na marže u vstupních tokenů. Začíná být těžké obhájit používání čehokoli jiného pro jednoduché agenty.
AI_Dev_Master
hackernews
Architektura speech-to-speech kompletně eliminuje trapné pauzy, které vznikají u řetězených transkripčních modelů.
AIExplorer
youtube
Testuji nové Gemini 3.1 Flash Live Preview. Konfigurovatelné úrovně reasoning jsou neuvěřitelně užitečné pro vyvážení rychlosti a hloubky úvah.
DevGuru_X
twitter

Videa o Gemini 3.1 Flash Live Preview

Sledujte navody, recenze a diskuse o Gemini 3.1 Flash Live Preview

Mluvíte, on okamžitě reaguje. Žádné zpoždění, žádné načítání, žádné divné pauzy. Působí to, jako byste mluvili se skutečným člověkem.

V audio benchmarku Big Bench dosahuje 95,9 %. To je špička ve své třídě pro audio reasoning.

Nedáváte mu instrukce a nečekáte. Budujete s ním v reálném čase.

Model vidí vaši obrazovku, zatímco kódujete, a mluví s vámi o změnách.

Ceny jsou rozděleny mezi text a audio, takže si musíte náklady pečlivě vypočítat.

Vnímá váš tón, tempo a náladu. Pozná frustraci nebo zmatek.

Gemini 3.1 Flash Live je na prvním místě na světě v nejobtížnějších benchmarcích pro hlasovou AI.

Skutečně rozumí komplexním tématům. Úroveň reasoning můžete u své AI nastavit.

Můžete mu skočit do řeči a on okamžitě přestane a naslouchá nové instrukci.

Kontextové okno 128K znamená, že si pamatuje začátek 30minutového rozhovoru.

Už to není speech-to-text a pak text-to-speech. Je to přímo speech-to-speech.

Schopnost agenta poslouchat v hlučném prostředí... třeba u silnice nebo v hlučné restauraci.

To, jak rychle přestal mluvit, když jsem ho přerušil... to bylo opravdu působivé.

Můžete to kombinovat s lokálními agenty pro kód a doslova hlasově ovládat vývoj softwaru.

Doba do prvního tokenu je zhruba 2,5x rychlejší než u předchozí generace.

Vice nez jen prompty

Zrychlete svuj workflow s AI automatizaci

Automatio kombinuje silu AI agentu, webove automatizace a chytrych integraci, aby vam pomohl dosahnout vice za kratsi cas.

AI agenti
Webova automatizace
Chytre workflow

Profesionalni tipy pro Gemini 3.1 Flash Live Preview

Expertni tipy, ktere vam pomohou ziskat maximum z Gemini 3.1 Flash Live Preview a dosahnout lepsich vysledku.

Úprava úrovní reasoning

Nastavte 'thinkingLevel' na 'minimal' pro nejrychlejší hlasové odpovědi nebo na 'high' pro komplexní logické úlohy o mnoha krocích.

Použití inkrementálních aktualizací

Během aktivních audio relací odesílejte textové aktualizace pomocí 'send_realtime_input', abyste modelu poskytli měnící se kontext.

Optimalizace pokrytí konverzace (turn coverage)

Nastavte turn coverage na 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' pro komplexní multimodální porozumění.

Nastavení počátečního kontextu

Před spuštěním relace Live API použijte 'send_client_content' k vytvoření historie konverzace pro lepší kontinuitu.

Reference

Co rikaji nasi uzivatele

Pridejte se k tisicum spokojenych uzivatelu, kteri transformovali svuj workflow

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Souvisejici AI Models

google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M

Casto kladene dotazy o Gemini 3.1 Flash Live Preview

Najdete odpovedi na bezne otazky o Gemini 3.1 Flash Live Preview