google

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview to model audio-to-audio od Google o ultraniskiej latency, z oknem kontekstowym 131K, wysoką wiernością rozumowania multimodalnego...

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time
google logogoogleGemini26 marca 2026
Kontekst
131Ktokenow
Maks. wyjscie
66Ktokenow
Cena wejscia
$0.75/ 1M
Cena wyjscia
$4.50/ 1M
Modalnosc:TextImageAudioVideo
Mozliwosci:WizjaNarzedziaStreamingRozumowanie
Benchmarki
GPQA
94%
GPQA: Pytania naukowe poziomu doktoranckiego. Rygorystyczny benchmark z 448 pytaniami z biologii, fizyki i chemii. Eksperci PhD osiagaja tylko 65-74% dokładnosci. Gemini 3.1 Flash Live Preview uzyskal 94% w tym benchmarku.
HLE
44%
HLE: Rozumowanie eksperckie wysokiego poziomu. Testuje zdolnosc modelu do demonstrowania rozumowania na poziomie eksperta w specjalistycznych dziedzinach. Gemini 3.1 Flash Live Preview uzyskal 44% w tym benchmarku.
MMLU
91%
MMLU: Masowe wielozadaniowe rozumienie jezyka. Kompleksowy benchmark z 16 000 pytan z 57 przedmiotow akademickich. Gemini 3.1 Flash Live Preview uzyskal 91% w tym benchmarku.
MMLU Pro
89%
MMLU Pro: MMLU Edycja Profesjonalna. Ulepszona wersja MMLU z 12 032 pytaniami i trudniejszym formatem 10 opcji. Gemini 3.1 Flash Live Preview uzyskal 89% w tym benchmarku.
SimpleQA
80%
SimpleQA: Benchmark dokładnosci faktycznej. Testuje zdolnosc modelu do udzielania dokladnych, faktycznych odpowiedzi. Gemini 3.1 Flash Live Preview uzyskal 80% w tym benchmarku.
IFEval
88%
IFEval: Ocena przestrzegania instrukcji. Mierzy jak dobrze model przestrzega konkretnych instrukcji i ograniczen. Gemini 3.1 Flash Live Preview uzyskal 88% w tym benchmarku.
AIME 2025
95%
AIME 2025: Amerykanski Zaproszeniowy Egzamin Matematyczny. Zadania matematyczne poziomu konkursowego z prestizowego egzaminu AIME. Gemini 3.1 Flash Live Preview uzyskal 95% w tym benchmarku.
MATH
100%
MATH: Rozwiazywanie problemow matematycznych. Kompleksowy benchmark matematyczny testujacy rozwiazywanie problemow z algebry, geometrii, analizy. Gemini 3.1 Flash Live Preview uzyskal 100% w tym benchmarku.
GSM8k
99%
GSM8k: Matematyka szkoly podstawowej 8K. 8 500 zadan matematycznych poziomu szkoly podstawowej. Gemini 3.1 Flash Live Preview uzyskal 99% w tym benchmarku.
MGSM
92%
MGSM: Wielojezyczna matematyka szkolna. Benchmark GSM8k przetlumaczony na 10 jezykow. Gemini 3.1 Flash Live Preview uzyskal 92% w tym benchmarku.
MathVista
72%
MathVista: Matematyczne rozumowanie wizualne. Testuje zdolnosc rozwiazywania problemow matematycznych z elementami wizualnymi. Gemini 3.1 Flash Live Preview uzyskal 72% w tym benchmarku.
SWE-Bench
81%
SWE-Bench: Benchmark inzynierii oprogramowania. Modele AI probuja rozwiazac prawdziwe problemy GitHub w projektach Python. Gemini 3.1 Flash Live Preview uzyskal 81% w tym benchmarku.
HumanEval
73%
HumanEval: Zadania programistyczne Python. 164 zadania programistyczne, gdzie modele musza generowac poprawne implementacje funkcji Python. Gemini 3.1 Flash Live Preview uzyskal 73% w tym benchmarku.
LiveCodeBench
80%
LiveCodeBench: Benchmark programowania na zywo. Testuje umiejetnosci programowania na ciagle aktualizowanych, rzeczywistych wyzwaniach. Gemini 3.1 Flash Live Preview uzyskal 80% w tym benchmarku.
MMMU
69%
MMMU: Rozumienie multimodalne. Benchmark rozumienia multimodalnego z 30 przedmiotow uniwersyteckich. Gemini 3.1 Flash Live Preview uzyskal 69% w tym benchmarku.
MMMU Pro
60%
MMMU Pro: MMMU Edycja Profesjonalna. Ulepszona wersja MMMU z trudniejszymi pytaniami. Gemini 3.1 Flash Live Preview uzyskal 60% w tym benchmarku.
ChartQA
90%
ChartQA: Pytania i odpowiedzi o wykresach. Testuje zdolnosc rozumienia i analizowania informacji z wykresow i diagramow. Gemini 3.1 Flash Live Preview uzyskal 90% w tym benchmarku.
DocVQA
94%
DocVQA: Wizualne pytania o dokumentach. Testuje zdolnosc wydobywania informacji z obrazow dokumentow. Gemini 3.1 Flash Live Preview uzyskal 94% w tym benchmarku.
Terminal-Bench
69%
Terminal-Bench: Zadania terminal/CLI. Testuje zdolnosc wykonywania operacji wiersza polecen. Gemini 3.1 Flash Live Preview uzyskal 69% w tym benchmarku.
ARC-AGI
77%
ARC-AGI: Abstrakcja i rozumowanie. Testuje plynna inteligencje poprzez nowe lamiglowki rozpoznawania wzorow. Gemini 3.1 Flash Live Preview uzyskal 77% w tym benchmarku.

O Gemini 3.1 Flash Live Preview

Dowiedz sie o mozliwosciach Gemini 3.1 Flash Live Preview, funkcjach i jak moze pomoc Ci osiagnac lepsze wyniki.

Gemini 3.1 Flash Live Preview to multimodalny model o niskiej latency, zaprojektowany do dialogów audio-to-audio w czasie rzeczywistym. Działa w oparciu o architekturę Gemini 3 od Google. Projekt Sparse Mixture-of-Experts (MoE) pozwala utrzymać wysoką wydajność przy jednoczesnym obniżeniu kosztów inference. Tradycyjne modele dokonują zamiany mowy na tekst, a następnie tekstu na mowę. Ten model przetwarza strumienie audio natywnie. Wykrywa niuanse akustyczne, takie jak ton, emocje i hałas w tle, zapewniając naturalne interakcje. Dowiedz się więcej w oficjalnej dokumentacji.

Programiści używają tego modelu do aplikacji głosowych wymagających precyzji numerycznej i natychmiastowej informacji zwrotnej. Obsługuje on konfigurowalne poziomy myślenia w zakresie od minimalnego do wysokiego. Pozwala to użytkownikom zbalansować głębię rozumowania z wymaganiami dotyczącymi latency. Dzięki oknu kontekstowemu o wielkości 131 072 tokenów oraz obsłudze tekstu, obrazów i wideo, działa jak wszechstronny silnik. Docelowe zastosowania obejmują agentów działających w czasie rzeczywistym, automatyczną obsługę klienta i środowiska do wspólnego programowania.

Obsługa przerwań i filtrowanie hałasu sprawiają, że model nadaje się do wdrożeń w świecie rzeczywistym. Model ignoruje dźwięki syren i tłumu, utrzymując płynność konwersacji. Programiści uzyskują dostęp do niego poprzez Live API, tworząc aplikacje mobilne i kioski bez konieczności korzystania z oddzielnych usług transkrypcji.

Gemini 3.1 Flash Live Preview

Przypadki uzycia dla Gemini 3.1 Flash Live Preview

Odkryj rozne sposoby wykorzystania Gemini 3.1 Flash Live Preview do osiagniecia swietnych wynikow.

Głosowi agenci w czasie rzeczywistym

Tworzenie konwersacyjnego AI, które natychmiast reaguje na mowę użytkownika w sektorze hotelarskim, turystycznym i logistycznym.

Multimodalny coaching na żywo

Zapewnienie natychmiastowego wsparcia fitness lub technicznego poprzez jednoczesną analizę obrazu z kamery i dźwięku użytkownika.

Współpracujący asystenci programowania

Kierowanie IDE w celu refaktoryzacji kodu i aktualizacji komponentów UI za pomocą ciągłych instrukcji głosowych i udostępniania ekranu.

Tłumaczenia z niską latency

Ułatwianie rozmów międzyjęzykowych poprzez tłumaczenie mowy na mowę z zachowaniem kontekstu emocjonalnego.

Wsparcie w hałaśliwym otoczeniu

Obsługa kiosków obsługi klienta w miejscach o dużym natężeniu ruchu, gdzie system musi filtrować dźwięki syren czy tłumu.

Interaktywne gry NPC

Obsługa postaci niezależnych, które reagują naturalną modulacją głosu oraz odpowiedziami na fizyczne ruchy gracza.

Mocne strony

Ograniczenia

Natywne przetwarzanie audio: Działa ściśle w trybie speech-to-speech, wykrywając niuanse werbalne, takie jak frustracja czy sarkazm, które umykają modelom tekstowym.
Synchroniczne użycie narzędzi: Wywoływanie funkcji działa sekwencyjnie, co oznacza, że model całkowicie przestaje mówić, czekając na odpowiedź narzędzia.
Wysoka wydajność prędkości: Charakteryzuje się 2,5-krotnie szybszym Time to First Token (TTFT) w porównaniu do swoich poprzedników.
Niższa logika zero-shot: Wyniki surowego rozumowania są niższe niż w modelu flagship Gemini 3.1 Pro w przypadku złożonych zadań na poziomie doktoranckim.
Solidne filtrowanie hałasu: Utrzymuje 95,9% dokładności w benchmarku Big Bench Audio, nawet w hałaśliwych środowiskach, takich jak restauracje czy ruchliwe ulice.
Złożoność cennika: Wiele poziomów stawek za tekst, audio i wideo sprawia, że budżetowanie aplikacji multimodalnych jest trudne do przewidzenia.
Konfigurowalne rozumowanie: Umożliwia programistom dostosowanie 'thinkingLevel', aby znaleźć optymalną równowagę między logiką a prędkością.
Status wersji Preview: Obecnie w wersji preview, co oznacza dla programistów zmienność limitów (rate limits) i niezapowiedziane zmiany w zachowaniu modelu.

Szybki start API

google/gemini-3.1-flash-live-preview

Zobacz dokumentacje
google SDK
import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

Zainstaluj SDK i zacznij wykonywac wywolania API w kilka minut.

Co mowia ludzie o Gemini 3.1 Flash Live Preview

Zobacz, co spolecznosc mysli o Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash-Lite jest w fazie wdrażania... to najszybszy i najbardziej opłacalny model z serii Gemini 3.
BuildwithVignesh
reddit
Dorównuje jakością 2.5 Flash przy koszcie Flash-Lite. Model audio-to-audio z niską latency, zoptymalizowany pod kątem dialogu w czasie rzeczywistym.
Google AI
twitter
3 Flash mocno traci wraz ze wzrostem kontekstu, ale to ogromny krok naprzód pod względem responsywności w czasie rzeczywistym.
Pasto_Shouwa
reddit
Google naprawdę mocno tnie marże na tokenach wejściowych w 3.1 Flash. Trudno uzasadnić używanie czegokolwiek innego do prostych agentów.
AI_Dev_Master
hackernews
Surowa architektura speech-to-speech całkowicie eliminuje niezręczne pauzy, które zdarzają się w modelach z łańcuchową transkrypcją.
AIExplorer
youtube
Testuję nowy Gemini 3.1 Flash Live Preview. Konfigurowalne poziomy myślenia są niesamowicie przydatne do balansowania między prędkością a rozumowaniem.
DevGuru_X
twitter

Filmy o Gemini 3.1 Flash Live Preview

Ogladaj samouczki, recenzje i dyskusje o Gemini 3.1 Flash Live Preview

Mówisz, a on odpowiada natychmiast. Bez lagów, bez ładowania, bez dziwnych pauz. To jak rozmowa z prawdziwą osobą.

Uzyskuje 95,9% w benchmarku audio Big Bench. To najlepszy wynik w tej klasie dla rozumowania audio.

Nie wydajesz mu instrukcji i czekasz. Współtworzysz z nim w czasie rzeczywistym.

Model widzi twój ekran, gdy kodujesz, i rozmawia z tobą o wprowadzanych zmianach.

Cennik jest podzielony na tekst i audio, więc trzeba uważnie kalkulować koszty.

Wychwytuje twój ton, tempo i nastrój. Wyczuwa frustrację lub dezorientację.

Gemini 3.1 Flash Live zajmuje pierwsze miejsce na świecie w najtrudniejszych benchmarkach głosowych AI.

Naprawdę rozumie złożone tematy. Możesz dodać poziom rozumowania do posiadanego modelu AI.

Możesz przerwać mu w pół zdania, a on natychmiast przestaje mówić i słucha nowej instrukcji.

Okno kontekstowe 128K oznacza, że pamięta początek 30-minutowej rozmowy.

To już nie jest zamiana mowy na tekst, a potem tekstu na mowę. To po prostu prosta zamiana mowy na mowę.

Agent potrafiący słuchać w hałaśliwym otoczeniu... jak pobocze drogi czy głośna restauracja.

Kiedy przerwałem mu, szybkość, z jaką przestał mówić... była naprawdę imponująca.

Możesz połączyć to z lokalnymi agentami kodu, aby dosłownie sterować programowaniem głosem.

Czas do pierwszego tokenu jest mniej więcej 2,5 razy krótszy niż w poprzedniej generacji.

Wiecej niz tylko prompty

Przyspiesz swoj workflow z automatyzacja AI

Automatio laczy moc agentow AI, automatyzacji web i inteligentnych integracji, aby pomoc Ci osiagnac wiecej w krotszym czasie.

Agenci AI
Automatyzacja web
Inteligentne workflow

Porady Pro dla Gemini 3.1 Flash Live Preview

Wskazówki ekspertów, aby w pełni wykorzystać Gemini 3.1 Flash Live Preview.

Dostosuj poziomy myślenia (thinking levels)

Ustaw 'thinkingLevel' na 'minimal' dla najszybszych odpowiedzi głosowych lub na 'high' dla złożonych, wieloetapowych zadań logicznych.

Używaj przyrostowych aktualizacji

Wysyłaj aktualizacje tekstowe poprzez 'send_realtime_input' podczas aktywnych sesji audio, aby dostarczać modelowi zmieniający się kontekst.

Optymalizuj pokrycie tury (turn coverage)

Ustaw pokrycie tury na 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' dla pełnego zrozumienia multimodalnego.

Zainicjuj kontekst początkowy

Użyj 'send_client_content', aby ustalić historię konwersacji przed rozpoczęciem sesji Live API dla lepszej ciągłości.

Opinie

Co mowia nasi uzytkownicy

Dolacz do tysiecy zadowolonych uzytkownikow, ktorzy przeksztalcili swoj workflow

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Powiazane AI Models

google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M

Często Zadawane Pytania o Gemini 3.1 Flash Live Preview

Znajdź odpowiedzi na częste pytania o Gemini 3.1 Flash Live Preview