Qual è la context window di Gemini 3.1 Flash Live?

Il modello supporta una context window di input di 131.072 token e una di output di 65.536 token. Ciò gli permette di ricordare lunghe conversazioni e di elaborare un'ampia cronologia di documenti durante una sessione live.

L'input di testo costa 0,75 $ per 1 milione di token e l'output 4,50 $. L'input audio costa circa 0,005 $ al minuto, mentre l'output audio 0,018 $ al minuto.

Questo modello supporta il function calling?

Sì, Gemini 3.1 Flash Live supporta il function calling sincrono. Il modello mette in pausa la risposta audio per eseguire lo strumento e attende l'output prima di continuare.

Come funziona il thinking in questo modello?

Gemini 3.1 Flash Live utilizza livelli di reasoning configurabili (minimo, basso, medio, alto) invece di un budget fisso di token. L'impostazione predefinita è 'minimo' per garantire la latenza più bassa nelle applicazioni vocali.

Può vedere il mio schermo in tempo reale?

Sì, il modello può acquisire frame video continui tramite la Live API. Questo gli permette di analizzare il contenuto dello schermo o i feed della fotocamera mentre parla con l'utente.

È disponibile un piano gratuito?

Sì, Google AI Studio offre accesso gratuito alla Gemini 3.1 Flash Live Preview per test e sviluppo. I dati del piano gratuito potrebbero essere utilizzati per migliorare i prodotti Google.

Quali lingue sono supportate?

Il modello supporta oltre 70 lingue per testo e audio. Questa ampia copertura linguistica consente la traduzione globale in tempo reale e un servizio clienti localizzato.

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview è il modello audio-to-audio a bassissima latenza di Google, con una context window di 131K, reasoning multimodale ad alta fedeltà...

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time

googleGemini26 marzo 2026

Contesto

131Ktoken

Output max

66Ktoken

Prezzo input

$0.75/ 1M

Prezzo output

$4.50/ 1M

Modalita:TextImageAudioVideo

Capacita:VisioneStrumentiStreamingRagionamento

Benchmark

GPQA

94%

HLE

44%

MMLU

91%

MMLU Pro

89%

SimpleQA

80%

IFEval

88%

AIME 2025

95%

MATH

100%

GSM8k

99%

MGSM

92%

MathVista

72%

SWE-Bench

81%

HumanEval

73%

LiveCodeBench

80%

MMMU

69%

MMMU Pro

60%

ChartQA

90%

DocVQA

94%

Terminal-Bench

69%

ARC-AGI

77%

Visualizza documentazione API

Informazioni su Gemini 3.1 Flash Live Preview

Scopri le capacita di Gemini 3.1 Flash Live Preview, le funzionalita e come puo aiutarti a ottenere risultati migliori.

Gemini 3.1 Flash Live Preview è un modello multimodale a bassa latenza progettato per il dialogo audio-to-audio in tempo reale. Opera sull'architettura Gemini 3 di Google. Un design Sparse Mixture-of-Experts (MoE) mantiene prestazioni elevate riducendo i costi di inference. I modelli tradizionali eseguono speech-to-text seguito da text-to-speech. Questo modello elabora i flussi audio nativamente. Rileva sfumature acustiche come tono, emozione e rumore di fondo per interazioni naturali. Scopri di più nella documentazione ufficiale.

Gli sviluppatori utilizzano questo modello per applicazioni voice-first che richiedono precisione numerica e feedback immediato. Supporta livelli di reasoning configurabili che vanno da minimo ad alto. Ciò consente agli utenti di bilanciare la profondità del reasoning rispetto ai requisiti di latenza. Con una context window di 131.072 token e supporto per testo, immagini e video, funge da motore versatile. I casi d'uso target includono agenti in tempo reale, assistenza clienti automatizzata e ambienti di programmazione collaborativa.

La gestione delle interruzioni e il filtro del rumore lo rendono adatto a implementazioni nel mondo reale. Il modello ignora il rumore di sirene e folla mantenendo il flusso della conversazione. Gli sviluppatori vi accedono tramite la Live API, costruendo applicazioni mobile e chioschi senza servizi di trascrizione separati.

Casi d'uso per Gemini 3.1 Flash Live Preview

Scopri i diversi modi in cui puoi usare Gemini 3.1 Flash Live Preview per ottenere ottimi risultati.

Agenti vocali in tempo reale

Crea AI conversazionali che rispondono istantaneamente alla voce dell'utente per supporto in hotel, viaggi e logistica.

Coaching multimodale live

Fornisce formazione tecnica o di fitness immediata analizzando simultaneamente il feed della fotocamera e l'audio dell'utente.

Assistenti alla programmazione collaborativa

Dirige un IDE per rifattorizzare codice e aggiornare componenti UI tramite istruzioni vocali continue e condivisione dello schermo.

Traduzione a bassa latenza

Facilita le conversazioni multilingue traducendo parlato-su-parlato con un contesto emotivo preservato.

Supporto in ambienti rumorosi

Alimenta chioschi di servizio clienti in aree urbane ad alto traffico dove il sistema deve filtrare il rumore di sirene e folla.

Gaming interattivo con NPC

Gestisce personaggi non giocanti che rispondono con inflessioni vocali naturali e reagiscono ai movimenti fisici del giocatore.

Punti di forza

Limitazioni

Elaborazione audio nativa: Opera rigorosamente parlato-su-parlato, rilevando sfumature verbali come frustrazione o sarcasmo che i modelli basati su testo ignorano.

Uso sincrono degli strumenti: Il function calling opera in sequenza, il che significa che il modello smette completamente di parlare in attesa delle risposte dello strumento.

Prestazioni ad alta velocità: Presenta un Time to First Token (TTFT) 2,5 volte più veloce rispetto ai suoi predecessori.

Logica zero-shot inferiore: I punteggi di reasoning grezzi si collocano al di sotto del flagship Gemini 3.1 Pro per compiti complessi di livello dottorato.

Robusto filtro del rumore: Mantiene un'accuratezza del 95,9% su Big Bench Audio anche in ambienti rumorosi come ristoranti o strade trafficate.

Complessità dei prezzi: Livelli tariffari multipli per testo, audio e video rendono difficile prevedere il budget per le applicazioni multimodali.

Reasoning configurabile: Consente agli sviluppatori di regolare il 'thinkingLevel' per trovare l'equilibrio ottimale tra logica e velocità.

Stato di preview: Attualmente in preview, il che espone gli sviluppatori a fluttuazioni dei rate limit e modifiche comportamentali non annunciate.

Avvio rapido API

google/gemini-3.1-flash-live-preview

Visualizza documentazione

google SDK

import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

Installa l'SDK e inizia a fare chiamate API in pochi minuti.

Cosa dice la gente su Gemini 3.1 Flash Live Preview

Guarda cosa pensa la community di Gemini 3.1 Flash Live Preview

“Gemini 3.1 Flash-Lite è in fase di rilascio... il modello della serie Gemini 3 più veloce ed economico finora.”

— BuildwithVignesh

“Equivale alla qualità di 2.5 Flash al costo di Flash-Lite. Modello a bassa latenza, audio-to-audio, ottimizzato per dialoghi in tempo reale.”

— Google AI

twitter

“3 Flash degrada molto all'aumentare del contesto, ma è un miglioramento enorme per la reattività in tempo reale.”

— Pasto_Shouwa

“Google sta davvero stringendo i margini sui token di input con 3.1 Flash. Sta diventando difficile giustificare l'uso di altro per semplici agenti.”

— AI_Dev_Master

hackernews

“L'architettura nativa parlato-su-parlato elimina completamente le pause imbarazzanti che si ottengono con i modelli di trascrizione concatenati.”

— AIExplorer

youtube

“Sto testando la nuova Gemini 3.1 Flash Live Preview. I livelli di thinking configurabili sono incredibilmente utili per bilanciare velocità e reasoning.”

— DevGuru_X

twitter

Video su Gemini 3.1 Flash Live Preview

Guarda tutorial, recensioni e discussioni su Gemini 3.1 Flash Live Preview

“Tu parli, lui risponde all'istante. Nessun lag, nessun caricamento, nessuna pausa strana. Sembra di parlare con una persona vera.”

“Ha un punteggio del 95,9% nel benchmark audio Big Bench. È il migliore della categoria per il reasoning audio.”

“Non gli dai istruzioni aspettando. Stai costruendo insieme a lui in tempo reale.”

“Il modello può vedere il tuo schermo mentre scrivi codice e parlarti dei cambiamenti.”

“I prezzi sono suddivisi tra testo e audio, quindi devi calcolare i costi attentamente.”

“Questo coglie il tuo tono, il tuo ritmo e il tuo umore. Coglie la frustrazione o la confusione.”

“Gemini 3.1 Flash Live è al primo posto al mondo nei più difficili benchmark di AI vocale.”

“Capisce davvero argomenti complessi. Puoi aggiungere reasoning al livello di AI che hai.”

“Puoi interromperlo a metà frase e lui si ferma immediatamente per ascoltare la nuova istruzione.”

“La context window da 128K significa che ricorda l'inizio di una conversazione di 30 minuti.”

“Non fa più speech-to-text e poi text-to-speech. È direttamente parlato-su-parlato.”

“L'agente è in grado di ascoltare in ambienti rumorosi... come il bordo della strada o un ristorante affollato.”

“Quando l'ho interrotto, la velocità con cui ha smesso di parlare... penso sia davvero impressionante.”

“Puoi combinarlo con agenti di codice locali per controllare letteralmente lo sviluppo del software con la voce.”

“Il time to first token è circa 2,5 volte più veloce rispetto alla generazione precedente.”

Piu di semplici prompt

Potenzia il tuo workflow con l'automazione AI

Automatio combina la potenza degli agenti AI, dell'automazione web e delle integrazioni intelligenti per aiutarti a fare di piu in meno tempo.

Agenti AI

Automazione web

Workflow intelligenti

Inizia gratis

Consigli Pro per Gemini 3.1 Flash Live Preview

Consigli esperti per aiutarti a ottenere il massimo da Gemini 3.1 Flash Live Preview e raggiungere risultati migliori.

Regola i livelli di thinking

Imposta 'thinkingLevel' su 'minimal' per risposte vocali più rapide o su 'high' per compiti logici complessi a più passaggi.

Usa gli aggiornamenti incrementali

Invia aggiornamenti di testo tramite 'send_realtime_input' durante le sessioni audio attive per fornire al modello un contesto in evoluzione.

Ottimizza la copertura del turno

Imposta la copertura del turno su 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' per una comprensione multimodale completa.

Imposta il contesto iniziale

Usa 'send_client_content' per stabilire la cronologia di una conversazione prima di iniziare una sessione Live API per una maggiore continuità.

Testimonianze

Cosa dicono i nostri utenti

Unisciti a migliaia di utenti soddisfatti che hanno trasformato il loro workflow

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Mohammed Ibrahim

CEO, qannas.pro

Ben Bressington

CTO, AiChatSolutions

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Correlati AI Models

Claude Opus 4.7

Anthropic

Claude Opus 4.7 is Anthropic's flagship model with a 1-million-token context, adaptive reasoning, and 3.3x vision resolution for enterprise-scale agents.

1M context

$5.00/$25.00/1M

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context

$2.00/$12.00/1M

GPT-5.5

OpenAI

GPT-5.5 is OpenAI's flagship frontier model with a 1M context window and five reasoning effort levels, optimized for autonomous agentic workflows and coding.

1M context

$5.00/$30.00/1M

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context

$3.00/$15.00/1M

Kimi K3

Moonshot

Kimi K3 is Moonshot AI's 2.8T MoE model with a 1M token context window, native multimodal vision, and frontier-tier coding performance for complex agents.

1M context

$3.00/$15.00/1M

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context

$21.00/$168.00/1M

Qwen 3.7 Max

alibaba

Qwen 3.7 Max is Alibaba’s flagship AI model for deep reasoning and autonomous agent tasks, featuring a 256k context window and top-tier coding performance.

256K context

$1.20/$6.00/1M

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context

$2.00/$12.00/1M

Domande frequenti su Gemini 3.1 Flash Live Preview

Trova risposte alle domande comuni su Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview

Informazioni su Gemini 3.1 Flash Live Preview

Casi d'uso per Gemini 3.1 Flash Live Preview

Agenti vocali in tempo reale

Coaching multimodale live

Assistenti alla programmazione collaborativa

Traduzione a bassa latenza

Supporto in ambienti rumorosi

Gaming interattivo con NPC

Punti di forza

Limitazioni

Avvio rapido API

Cosa dice la gente su Gemini 3.1 Flash Live Preview

Video su Gemini 3.1 Flash Live Preview

Potenzia il tuo workflow con l'automazione AI

Consigli Pro per Gemini 3.1 Flash Live Preview

Regola i livelli di thinking

Usa gli aggiornamenti incrementali

Ottimizza la copertura del turno

Imposta il contesto iniziale

Cosa dicono i nostri utenti

Correlati AI Models

Claude Opus 4.7

Gemini 3.1 Pro

GPT-5.5

Grok-3

Kimi K3

GPT-5.2 Pro

Qwen 3.7 Max

Gemini 3 Pro

Domande frequenti su Gemini 3.1 Flash Live Preview

Qual è la context window di Gemini 3.1 Flash Live?

Quanto costa l'API?

Questo modello supporta il function calling?

Come funziona il thinking in questo modello?

Può vedere il mio schermo in tempo reale?

È disponibile un piano gratuito?

Quali lingue sono supportate?