Jaké je kontextové okno pro Gemini 3.1 Flash Live?

Model podporuje kontextové okno o velikosti 131 072 tokenů pro vstup a 65 536 tokenů pro výstup. To mu umožňuje pamatovat si dlouhé konverzace a během živé relace zpracovávat značnou historii dokumentů.

Vstup textu stojí 0,75 $ za 1 milion tokenů a výstup 4,50 $. Audio vstup stojí přibližně 0,005 $ za minutu, zatímco audio výstup 0,018 $ za minutu.

Podporuje tento model volání funkcí?

Ano, Gemini 3.1 Flash Live podporuje synchronní volání funkcí. Model pozastaví svou audio odpověď, aby spustil nástroj, a před pokračováním vyčká na výstup z tohoto nástroje.

Jak v tomto modelu funguje „thinking“?

Gemini 3.1 Flash Live využívá konfigurovatelné úrovně reasoning (minimální, nízká, střední, vysoká) namísto fixního rozpočtu tokenů. Výchozím nastavením je minimální úroveň, aby byla zajištěna co nejnižší latency u hlasových aplikací.

Vidí moji obrazovku v reálném čase?

Ano, model dokáže přijímat souvislé snímky videa prostřednictvím Live API. To mu umožňuje analyzovat obsah obrazovky nebo záběry z kamery, zatímco mluví s uživatelem.

Je k dispozici bezplatná verze?

Ano, Google AI Studio nabízí bezplatný přístup k Gemini 3.1 Flash Live Preview pro testování a vývoj. Data z bezplatné verze mohou být použita ke zlepšování produktů Google.

Které jazyky jsou podporovány?

Model podporuje více než 70 jazyků pro text i audio. Toto široké jazykové pokrytí umožňuje globální překlad v reálném čase a lokalizovaný zákaznický servis.

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview je model společnosti Google s extrémně nízkou latencí, který funguje jako speech-to-speech, nabízí kontextové okno 131K,...

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time

googleGemini26. března 2026

Kontext

131Ktokenu

Max vystup

66Ktokenu

Cena vstupu

$0.75/ 1M

Cena vystupu

$4.50/ 1M

Modalita:TextImageAudioVideo

Schopnosti:VideniNastrojeStreamingUvazovani

Benchmarky

GPQA

94%

HLE

44%

MMLU

91%

MMLU Pro

89%

SimpleQA

80%

IFEval

88%

AIME 2025

95%

MATH

100%

GSM8k

99%

MGSM

92%

MathVista

72%

SWE-Bench

81%

HumanEval

73%

LiveCodeBench

80%

MMMU

69%

MMMU Pro

60%

ChartQA

90%

DocVQA

94%

Terminal-Bench

69%

ARC-AGI

77%

Zobrazit API dokumentaci

O Gemini 3.1 Flash Live Preview

Zjistete o schopnostech Gemini 3.1 Flash Live Preview, funkcich a jak vam muze pomoci dosahnout lepsich vysledku.

Gemini 3.1 Flash Live Preview je multimodální model s nízkou latencí navržený pro audio-to-audio dialog v reálném čase. Funguje na architektuře Gemini 3 od Google. Design Sparse Mixture-of-Experts (MoE) udržuje vysoký výkon a zároveň snižuje náklady na inference. Tradiční modely provádějí převod řeči na text následovaný převodem textu na řeč. Tento model zpracovává audio streamy nativně. Detekuje akustické nuance, jako jsou tón, emoce a hluk na pozadí, pro přirozené interakce. Více se dozvíte v oficiální dokumentaci.

Vývojáři tento model využívají pro hlasové aplikace vyžadující číselnou přesnost a okamžitou zpětnou vazbu. Podporuje konfigurovatelné úrovně reasoning od minimální až po vysokou. To uživatelům umožňuje vyvážit hloubku uvažování s požadavky na latenci. S kontextovým oknem o velikosti 131 072 tokenů a podporou textu, obrázků a videa funguje jako všestranný motor. Cílové případy užití zahrnují agenty v reálném čase, automatizovanou zákaznickou podporu a kolaborativní programovací prostředí.

Práce s přerušeními a filtrování hluku jej předurčují pro nasazení v reálném světě. Model ignoruje hluk sirén a davu při zachování plynulosti konverzace. Vývojáři k němu přistupují prostřednictvím Live API a mohou tak budovat mobilní aplikace i aplikace pro kiosky bez potřeby externích transkripčních služeb.

Pripady pouziti pro Gemini 3.1 Flash Live Preview

Objevte ruzne zpusoby, jak muzete pouzit Gemini 3.1 Flash Live Preview pro dosazeni skvelych vysledku.

Hlasoví agenti v reálném čase

Vytvářejte konverzační AI, která okamžitě reaguje na řeč uživatele pro podporu v pohostinství, cestovním ruchu a logistice.

Živý multimodální koučink

Poskytuje okamžitý fitness nebo technický trénink analýzou záběru z kamery a audia uživatele současně.

Kolaborativní asistenti pro programování

Navádí IDE k refaktorování kódu a aktualizaci UI komponent prostřednictvím průběžných hlasových instrukcí a sdílení obrazovky.

Překlad s nízkou latencí

Usnadňuje vícejazyčné konverzace překladem řeči do řeči se zachováním emočního kontextu.

Podpora v hlučném prostředí

Pohání kiosky zákaznické podpory ve vytížených městských oblastech, kde systém musí odfiltrovat hluk sirén a davu.

Interaktivní herní NPC

Ovládá nehratelné postavy, které reagují přirozenou hlasovou intonací a fyzickým pohybem hráče.

Silne stranky

Omezeni

Nativní zpracování audia: Pracuje striktně způsobem speech-to-speech a detekuje verbální nuance, jako je frustrace nebo sarkasmus, které modely založené na textu přehlížejí.

Synchronní používání nástrojů: Volání funkcí probíhá sekvenčně, což znamená, že model zcela přestane mluvit, zatímco čeká na odpovědi nástroje.

Vysokorychlostní výkon: Nabízí 2,5x rychlejší Time to First Token (TTFT) ve srovnání se svými předchůdci.

Nižší logika při zero-shot úlohách: Výsledky základního uvažování jsou u komplexních úloh na úrovni PhD nižší než u vlajkové lodi Gemini 3.1 Pro.

Robustní filtrování hluku: Udržuje 95,9% přesnost v benchmarku Big Bench Audio i v hlučném prostředí, jako jsou restaurace nebo rušné silnice.

Složitost cenotvorby: Více cenových úrovní pro text, audio a video ztěžuje odhadování nákladů pro multimodální aplikace.

Konfigurovatelné reasoning: Umožňuje vývojářům regulovat 'thinkingLevel' pro nalezení optimální rovnováhy mezi logikou a rychlostí.

Stav Preview: Momentálně ve fázi preview, což pro vývojáře znamená výkyvy v rate limitech a neohlášené změny chování modelu.

Rychly start API

google/gemini-3.1-flash-live-preview

Zobrazit dokumentaci

google SDK

import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

Nainstalujte SDK a zacnete provadet API volani behem nekolika minut.

Co lide rikaji o Gemini 3.1 Flash Live Preview

Podivejte se, co si komunita mysli o Gemini 3.1 Flash Live Preview

“Gemini 3.1 Flash-Lite je venku... zatím nejrychlejší a nejekonomičtější model z řady Gemini 3.”

— BuildwithVignesh

“Odpovídá kvalitě 2.5 Flash za cenu Flash-Lite. Model s nízkou latencí, speech-to-speech, optimalizovaný pro dialog v reálném čase.”

— Google AI

twitter

“3 Flash s rostoucím kontextem hodně ztrácí, ale pro odezvu v reálném čase je to masivní zlepšení.”

— Pasto_Shouwa

“Google u 3.1 Flash opravdu tlačí na marže u vstupních tokenů. Začíná být těžké obhájit používání čehokoli jiného pro jednoduché agenty.”

— AI_Dev_Master

hackernews

“Architektura speech-to-speech kompletně eliminuje trapné pauzy, které vznikají u řetězených transkripčních modelů.”

— AIExplorer

youtube

“Testuji nové Gemini 3.1 Flash Live Preview. Konfigurovatelné úrovně reasoning jsou neuvěřitelně užitečné pro vyvážení rychlosti a hloubky úvah.”

— DevGuru_X

twitter

Videa o Gemini 3.1 Flash Live Preview

Sledujte navody, recenze a diskuse o Gemini 3.1 Flash Live Preview

“Mluvíte, on okamžitě reaguje. Žádné zpoždění, žádné načítání, žádné divné pauzy. Působí to, jako byste mluvili se skutečným člověkem.”

“V audio benchmarku Big Bench dosahuje 95,9 %. To je špička ve své třídě pro audio reasoning.”

“Nedáváte mu instrukce a nečekáte. Budujete s ním v reálném čase.”

“Model vidí vaši obrazovku, zatímco kódujete, a mluví s vámi o změnách.”

“Ceny jsou rozděleny mezi text a audio, takže si musíte náklady pečlivě vypočítat.”

“Vnímá váš tón, tempo a náladu. Pozná frustraci nebo zmatek.”

“Gemini 3.1 Flash Live je na prvním místě na světě v nejobtížnějších benchmarcích pro hlasovou AI.”

“Skutečně rozumí komplexním tématům. Úroveň reasoning můžete u své AI nastavit.”

“Můžete mu skočit do řeči a on okamžitě přestane a naslouchá nové instrukci.”

“Kontextové okno 128K znamená, že si pamatuje začátek 30minutového rozhovoru.”

“Už to není speech-to-text a pak text-to-speech. Je to přímo speech-to-speech.”

“Schopnost agenta poslouchat v hlučném prostředí... třeba u silnice nebo v hlučné restauraci.”

“To, jak rychle přestal mluvit, když jsem ho přerušil... to bylo opravdu působivé.”

“Můžete to kombinovat s lokálními agenty pro kód a doslova hlasově ovládat vývoj softwaru.”

“Doba do prvního tokenu je zhruba 2,5x rychlejší než u předchozí generace.”

Vice nez jen prompty

Zrychlete svuj workflow s AI automatizaci

Automatio kombinuje silu AI agentu, webove automatizace a chytrych integraci, aby vam pomohl dosahnout vice za kratsi cas.

AI agenti

Webova automatizace

Chytre workflow

Zacit zdarma

Profesionalni tipy pro Gemini 3.1 Flash Live Preview

Expertni tipy, ktere vam pomohou ziskat maximum z Gemini 3.1 Flash Live Preview a dosahnout lepsich vysledku.

Úprava úrovní reasoning

Nastavte 'thinkingLevel' na 'minimal' pro nejrychlejší hlasové odpovědi nebo na 'high' pro komplexní logické úlohy o mnoha krocích.

Použití inkrementálních aktualizací

Během aktivních audio relací odesílejte textové aktualizace pomocí 'send_realtime_input', abyste modelu poskytli měnící se kontext.

Optimalizace pokrytí konverzace (turn coverage)

Nastavte turn coverage na 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' pro komplexní multimodální porozumění.

Nastavení počátečního kontextu

Před spuštěním relace Live API použijte 'send_client_content' k vytvoření historie konverzace pro lepší kontinuitu.

Reference

Co rikaji nasi uzivatele

Pridejte se k tisicum spokojenych uzivatelu, kteri transformovali svuj workflow

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Mohammed Ibrahim

CEO, qannas.pro

Ben Bressington

CTO, AiChatSolutions

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Souvisejici AI Models

Claude Opus 4.7

Anthropic

Claude Opus 4.7 is Anthropic's flagship model with a 1-million-token context, adaptive reasoning, and 3.3x vision resolution for enterprise-scale agents.

1M context

$5.00/$25.00/1M

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context

$2.00/$12.00/1M

GPT-5.5

OpenAI

GPT-5.5 is OpenAI's flagship frontier model with a 1M context window and five reasoning effort levels, optimized for autonomous agentic workflows and coding.

1M context

$5.00/$30.00/1M

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context

$3.00/$15.00/1M

Kimi K3

Moonshot

Kimi K3 is Moonshot AI's 2.8T MoE model with a 1M token context window, native multimodal vision, and frontier-tier coding performance for complex agents.

1M context

$3.00/$15.00/1M

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context

$21.00/$168.00/1M

Qwen 3.7 Max

alibaba

Qwen 3.7 Max is Alibaba’s flagship AI model for deep reasoning and autonomous agent tasks, featuring a 256k context window and top-tier coding performance.

256K context

$1.20/$6.00/1M

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context

$2.00/$12.00/1M

Casto kladene dotazy o Gemini 3.1 Flash Live Preview

Najdete odpovedi na bezne otazky o Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview

O Gemini 3.1 Flash Live Preview

Pripady pouziti pro Gemini 3.1 Flash Live Preview

Hlasoví agenti v reálném čase

Živý multimodální koučink

Kolaborativní asistenti pro programování

Překlad s nízkou latencí

Podpora v hlučném prostředí

Interaktivní herní NPC

Silne stranky

Omezeni

Rychly start API

Co lide rikaji o Gemini 3.1 Flash Live Preview

Videa o Gemini 3.1 Flash Live Preview

Zrychlete svuj workflow s AI automatizaci

Profesionalni tipy pro Gemini 3.1 Flash Live Preview

Úprava úrovní reasoning

Použití inkrementálních aktualizací

Optimalizace pokrytí konverzace (turn coverage)

Nastavení počátečního kontextu

Co rikaji nasi uzivatele

Souvisejici AI Models

Claude Opus 4.7

Gemini 3.1 Pro

GPT-5.5

Grok-3

Kimi K3

GPT-5.2 Pro

Qwen 3.7 Max

Gemini 3 Pro

Casto kladene dotazy o Gemini 3.1 Flash Live Preview

Jaké je kontextové okno pro Gemini 3.1 Flash Live?

Kolik stojí API?

Podporuje tento model volání funkcí?

Jak v tomto modelu funguje „thinking“?

Vidí moji obrazovku v reálném čase?

Je k dispozici bezplatná verze?

Které jazyky jsou podporovány?