google

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview è il modello audio-to-audio a bassissima latenza di Google, con una context window di 131K, reasoning multimodale ad alta fedeltà...

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time
google logogoogleGemini26 marzo 2026
Contesto
131Ktoken
Output max
66Ktoken
Prezzo input
$0.75/ 1M
Prezzo output
$4.50/ 1M
Modalita:TextImageAudioVideo
Capacita:VisioneStrumentiStreamingRagionamento
Benchmark
GPQA
94%
GPQA: Domande scientifiche livello laurea. Un benchmark rigoroso con 448 domande su biologia, fisica e chimica. Gli esperti PhD raggiungono solo il 65-74% di accuratezza. Gemini 3.1 Flash Live Preview ha ottenuto 94% in questo benchmark.
HLE
44%
HLE: Ragionamento esperto di alto livello. Testa la capacita di un modello di dimostrare ragionamento a livello esperto in domini specializzati. Gemini 3.1 Flash Live Preview ha ottenuto 44% in questo benchmark.
MMLU
91%
MMLU: Comprensione linguistica multitask massiva. Un benchmark completo con 16.000 domande su 57 materie accademiche. Gemini 3.1 Flash Live Preview ha ottenuto 91% in questo benchmark.
MMLU Pro
89%
MMLU Pro: MMLU Edizione Professionale. Una versione migliorata di MMLU con 12.032 domande e un formato piu difficile a 10 opzioni. Gemini 3.1 Flash Live Preview ha ottenuto 89% in questo benchmark.
SimpleQA
80%
SimpleQA: Benchmark di accuratezza fattuale. Testa la capacita di un modello di fornire risposte accurate e fattuali. Gemini 3.1 Flash Live Preview ha ottenuto 80% in questo benchmark.
IFEval
88%
IFEval: Valutazione del seguire istruzioni. Misura quanto bene un modello segue istruzioni e vincoli specifici. Gemini 3.1 Flash Live Preview ha ottenuto 88% in questo benchmark.
AIME 2025
95%
AIME 2025: Esame di matematica invitazionale americano. Problemi matematici a livello competitivo dal prestigioso esame AIME. Gemini 3.1 Flash Live Preview ha ottenuto 95% in questo benchmark.
MATH
100%
MATH: Risoluzione di problemi matematici. Un benchmark matematico completo che testa la risoluzione di problemi in algebra, geometria, calcolo. Gemini 3.1 Flash Live Preview ha ottenuto 100% in questo benchmark.
GSM8k
99%
GSM8k: Matematica scuola elementare 8K. 8.500 problemi matematici a parole di livello scuola elementare. Gemini 3.1 Flash Live Preview ha ottenuto 99% in questo benchmark.
MGSM
92%
MGSM: Matematica multilingue scuola elementare. Il benchmark GSM8k tradotto in 10 lingue. Gemini 3.1 Flash Live Preview ha ottenuto 92% in questo benchmark.
MathVista
72%
MathVista: Ragionamento visivo matematico. Testa la capacita di risolvere problemi matematici con elementi visivi. Gemini 3.1 Flash Live Preview ha ottenuto 72% in questo benchmark.
SWE-Bench
81%
SWE-Bench: Benchmark ingegneria software. I modelli AI tentano di risolvere veri problemi GitHub in progetti Python. Gemini 3.1 Flash Live Preview ha ottenuto 81% in questo benchmark.
HumanEval
73%
HumanEval: Problemi di programmazione Python. 164 problemi di programmazione dove i modelli devono generare implementazioni corrette di funzioni Python. Gemini 3.1 Flash Live Preview ha ottenuto 73% in questo benchmark.
LiveCodeBench
80%
LiveCodeBench: Benchmark di codifica live. Testa le capacita di codifica su sfide di programmazione reali continuamente aggiornate. Gemini 3.1 Flash Live Preview ha ottenuto 80% in questo benchmark.
MMMU
69%
MMMU: Comprensione multimodale. Benchmark di comprensione multimodale su 30 materie universitarie. Gemini 3.1 Flash Live Preview ha ottenuto 69% in questo benchmark.
MMMU Pro
60%
MMMU Pro: MMMU Edizione Professionale. Versione migliorata di MMMU con domande piu impegnative. Gemini 3.1 Flash Live Preview ha ottenuto 60% in questo benchmark.
ChartQA
90%
ChartQA: Domande e risposte su grafici. Testa la capacita di comprendere e analizzare informazioni da grafici e diagrammi. Gemini 3.1 Flash Live Preview ha ottenuto 90% in questo benchmark.
DocVQA
94%
DocVQA: Domande visive su documenti. Testa la capacita di estrarre informazioni da immagini di documenti. Gemini 3.1 Flash Live Preview ha ottenuto 94% in questo benchmark.
Terminal-Bench
69%
Terminal-Bench: Attivita terminale/CLI. Testa la capacita di eseguire operazioni da linea di comando. Gemini 3.1 Flash Live Preview ha ottenuto 69% in questo benchmark.
ARC-AGI
77%
ARC-AGI: Astrazione e ragionamento. Testa l'intelligenza fluida attraverso nuovi puzzle di riconoscimento di pattern. Gemini 3.1 Flash Live Preview ha ottenuto 77% in questo benchmark.

Informazioni su Gemini 3.1 Flash Live Preview

Scopri le capacita di Gemini 3.1 Flash Live Preview, le funzionalita e come puo aiutarti a ottenere risultati migliori.

Gemini 3.1 Flash Live Preview è un modello multimodale a bassa latenza progettato per il dialogo audio-to-audio in tempo reale. Opera sull'architettura Gemini 3 di Google. Un design Sparse Mixture-of-Experts (MoE) mantiene prestazioni elevate riducendo i costi di inference. I modelli tradizionali eseguono speech-to-text seguito da text-to-speech. Questo modello elabora i flussi audio nativamente. Rileva sfumature acustiche come tono, emozione e rumore di fondo per interazioni naturali. Scopri di più nella documentazione ufficiale.

Gli sviluppatori utilizzano questo modello per applicazioni voice-first che richiedono precisione numerica e feedback immediato. Supporta livelli di reasoning configurabili che vanno da minimo ad alto. Ciò consente agli utenti di bilanciare la profondità del reasoning rispetto ai requisiti di latenza. Con una context window di 131.072 token e supporto per testo, immagini e video, funge da motore versatile. I casi d'uso target includono agenti in tempo reale, assistenza clienti automatizzata e ambienti di programmazione collaborativa.

La gestione delle interruzioni e il filtro del rumore lo rendono adatto a implementazioni nel mondo reale. Il modello ignora il rumore di sirene e folla mantenendo il flusso della conversazione. Gli sviluppatori vi accedono tramite la Live API, costruendo applicazioni mobile e chioschi senza servizi di trascrizione separati.

Gemini 3.1 Flash Live Preview

Casi d'uso per Gemini 3.1 Flash Live Preview

Scopri i diversi modi in cui puoi usare Gemini 3.1 Flash Live Preview per ottenere ottimi risultati.

Agenti vocali in tempo reale

Crea AI conversazionali che rispondono istantaneamente alla voce dell'utente per supporto in hotel, viaggi e logistica.

Coaching multimodale live

Fornisce formazione tecnica o di fitness immediata analizzando simultaneamente il feed della fotocamera e l'audio dell'utente.

Assistenti alla programmazione collaborativa

Dirige un IDE per rifattorizzare codice e aggiornare componenti UI tramite istruzioni vocali continue e condivisione dello schermo.

Traduzione a bassa latenza

Facilita le conversazioni multilingue traducendo parlato-su-parlato con un contesto emotivo preservato.

Supporto in ambienti rumorosi

Alimenta chioschi di servizio clienti in aree urbane ad alto traffico dove il sistema deve filtrare il rumore di sirene e folla.

Gaming interattivo con NPC

Gestisce personaggi non giocanti che rispondono con inflessioni vocali naturali e reagiscono ai movimenti fisici del giocatore.

Punti di forza

Limitazioni

Elaborazione audio nativa: Opera rigorosamente parlato-su-parlato, rilevando sfumature verbali come frustrazione o sarcasmo che i modelli basati su testo ignorano.
Uso sincrono degli strumenti: Il function calling opera in sequenza, il che significa che il modello smette completamente di parlare in attesa delle risposte dello strumento.
Prestazioni ad alta velocità: Presenta un Time to First Token (TTFT) 2,5 volte più veloce rispetto ai suoi predecessori.
Logica zero-shot inferiore: I punteggi di reasoning grezzi si collocano al di sotto del flagship Gemini 3.1 Pro per compiti complessi di livello dottorato.
Robusto filtro del rumore: Mantiene un'accuratezza del 95,9% su Big Bench Audio anche in ambienti rumorosi come ristoranti o strade trafficate.
Complessità dei prezzi: Livelli tariffari multipli per testo, audio e video rendono difficile prevedere il budget per le applicazioni multimodali.
Reasoning configurabile: Consente agli sviluppatori di regolare il 'thinkingLevel' per trovare l'equilibrio ottimale tra logica e velocità.
Stato di preview: Attualmente in preview, il che espone gli sviluppatori a fluttuazioni dei rate limit e modifiche comportamentali non annunciate.

Avvio rapido API

google/gemini-3.1-flash-live-preview

Visualizza documentazione
google SDK
import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

Installa l'SDK e inizia a fare chiamate API in pochi minuti.

Cosa dice la gente su Gemini 3.1 Flash Live Preview

Guarda cosa pensa la community di Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash-Lite è in fase di rilascio... il modello della serie Gemini 3 più veloce ed economico finora.
BuildwithVignesh
reddit
Equivale alla qualità di 2.5 Flash al costo di Flash-Lite. Modello a bassa latenza, audio-to-audio, ottimizzato per dialoghi in tempo reale.
Google AI
twitter
3 Flash degrada molto all'aumentare del contesto, ma è un miglioramento enorme per la reattività in tempo reale.
Pasto_Shouwa
reddit
Google sta davvero stringendo i margini sui token di input con 3.1 Flash. Sta diventando difficile giustificare l'uso di altro per semplici agenti.
AI_Dev_Master
hackernews
L'architettura nativa parlato-su-parlato elimina completamente le pause imbarazzanti che si ottengono con i modelli di trascrizione concatenati.
AIExplorer
youtube
Sto testando la nuova Gemini 3.1 Flash Live Preview. I livelli di thinking configurabili sono incredibilmente utili per bilanciare velocità e reasoning.
DevGuru_X
twitter

Video su Gemini 3.1 Flash Live Preview

Guarda tutorial, recensioni e discussioni su Gemini 3.1 Flash Live Preview

Tu parli, lui risponde all'istante. Nessun lag, nessun caricamento, nessuna pausa strana. Sembra di parlare con una persona vera.

Ha un punteggio del 95,9% nel benchmark audio Big Bench. È il migliore della categoria per il reasoning audio.

Non gli dai istruzioni aspettando. Stai costruendo insieme a lui in tempo reale.

Il modello può vedere il tuo schermo mentre scrivi codice e parlarti dei cambiamenti.

I prezzi sono suddivisi tra testo e audio, quindi devi calcolare i costi attentamente.

Questo coglie il tuo tono, il tuo ritmo e il tuo umore. Coglie la frustrazione o la confusione.

Gemini 3.1 Flash Live è al primo posto al mondo nei più difficili benchmark di AI vocale.

Capisce davvero argomenti complessi. Puoi aggiungere reasoning al livello di AI che hai.

Puoi interromperlo a metà frase e lui si ferma immediatamente per ascoltare la nuova istruzione.

La context window da 128K significa che ricorda l'inizio di una conversazione di 30 minuti.

Non fa più speech-to-text e poi text-to-speech. È direttamente parlato-su-parlato.

L'agente è in grado di ascoltare in ambienti rumorosi... come il bordo della strada o un ristorante affollato.

Quando l'ho interrotto, la velocità con cui ha smesso di parlare... penso sia davvero impressionante.

Puoi combinarlo con agenti di codice locali per controllare letteralmente lo sviluppo del software con la voce.

Il time to first token è circa 2,5 volte più veloce rispetto alla generazione precedente.

Piu di semplici prompt

Potenzia il tuo workflow con l'automazione AI

Automatio combina la potenza degli agenti AI, dell'automazione web e delle integrazioni intelligenti per aiutarti a fare di piu in meno tempo.

Agenti AI
Automazione web
Workflow intelligenti

Consigli Pro per Gemini 3.1 Flash Live Preview

Consigli esperti per aiutarti a ottenere il massimo da Gemini 3.1 Flash Live Preview e raggiungere risultati migliori.

Regola i livelli di thinking

Imposta 'thinkingLevel' su 'minimal' per risposte vocali più rapide o su 'high' per compiti logici complessi a più passaggi.

Usa gli aggiornamenti incrementali

Invia aggiornamenti di testo tramite 'send_realtime_input' durante le sessioni audio attive per fornire al modello un contesto in evoluzione.

Ottimizza la copertura del turno

Imposta la copertura del turno su 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' per una comprensione multimodale completa.

Imposta il contesto iniziale

Usa 'send_client_content' per stabilire la cronologia di una conversazione prima di iniziare una sessione Live API per una maggiore continuità.

Testimonianze

Cosa dicono i nostri utenti

Unisciti a migliaia di utenti soddisfatti che hanno trasformato il loro workflow

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Correlati AI Models

google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M

Domande frequenti su Gemini 3.1 Flash Live Preview

Trova risposte alle domande comuni su Gemini 3.1 Flash Live Preview