Quelle est la context window de Gemini 3.1 Flash Live ?

Le modèle prend en charge une context window de 131 072 tokens en entrée et une fenêtre de 65 536 tokens en sortie. Cela lui permet de se souvenir de longues conversations et de traiter un historique documentaire important au cours d'une session en direct.

Combien coûte l'API ?

L'entrée texte coûte 0,75 $ par million de tokens et la sortie 4,50 $. L'entrée audio coûte environ 0,005 $ par minute, tandis que la sortie audio coûte 0,018 $ par minute.

Ce modèle prend-il en charge le function calling ?

Oui, Gemini 3.1 Flash Live prend en charge le function calling synchrone. Le modèle suspend sa réponse audio pour exécuter l'outil et attend le résultat avant de poursuivre.

Comment fonctionne le raisonnement (thinking) dans ce modèle ?

Gemini 3.1 Flash Live utilise des niveaux de reasoning configurables (minimal, faible, moyen, élevé) au lieu d'un budget de tokens fixe. Le niveau minimal est le réglage par défaut pour garantir la latence la plus faible dans les applications vocales.

Peut-il voir mon écran en temps réel ?

Oui, le modèle peut ingérer des flux vidéo en continu via la Live API. Cela lui permet d'analyser le contenu de l'écran ou les flux de caméra tout en discutant avec l'utilisateur.

Existe-t-il une offre gratuite ?

Oui, Google AI Studio offre un accès gratuit à la version Preview de Gemini 3.1 Flash Live pour les tests et le développement. Les données du niveau gratuit peuvent être utilisées pour améliorer les produits Google.

Quelles langues sont prises en charge ?

Le modèle prend en charge plus de 70 langues pour le texte et l'audio. Cette large couverture linguistique permet une traduction mondiale en temps réel et un service client localisé.

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview est le modèle audio-to-audio à ultra-faible latence de Google, doté d'une context window de 131K, d'un raisonnement multimodal...

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time

googleGemini26 mars 2026

Contexte

131Ktokens

Sortie max.

66Ktokens

Prix entrée

$0.75/ 1M

Prix sortie

$4.50/ 1M

Modalité:TextImageAudioVideo

Capacités:VisionOutilsStreamingRaisonnement

Benchmarks

GPQA

94%

HLE

44%

MMLU

91%

MMLU Pro

89%

SimpleQA

80%

IFEval

88%

AIME 2025

95%

MATH

100%

GSM8k

99%

MGSM

92%

MathVista

72%

SWE-Bench

81%

HumanEval

73%

LiveCodeBench

80%

MMMU

69%

MMMU Pro

60%

ChartQA

90%

DocVQA

94%

Terminal-Bench

69%

ARC-AGI

77%

Voir la documentation API

À propos de Gemini 3.1 Flash Live Preview

Découvrez les capacités, fonctionnalités et façons d'utiliser Gemini 3.1 Flash Live Preview.

Gemini 3.1 Flash Live Preview est un modèle multimodal à faible latence conçu pour le dialogue audio-to-audio en temps réel. Il fonctionne sur l'architecture Gemini 3 de Google. Une conception Sparse Mixture-of-Experts (MoE) maintient des performances élevées tout en réduisant les coûts d'inference. Les modèles traditionnels effectuent une transcription parole-texte suivie d'une synthèse texte-parole. Ce modèle traite les flux audio nativement. Il détecte les nuances acoustiques telles que le ton, l'émotion et le bruit de fond pour des interactions naturelles. En savoir plus dans la documentation officielle.

Les développeurs utilisent ce modèle pour les applications privilégiant la voix qui nécessitent une précision numérique et un feedback immédiat. Il prend en charge des niveaux de raisonnement configurables allant de minimal à élevé. Cela permet aux utilisateurs d'équilibrer la profondeur de raisonnement par rapport aux exigences de latence. Avec une context window de 131 072 tokens et la prise en charge du texte, des images et de la vidéo, il agit comme un moteur polyvalent. Les cas d'utilisation cibles incluent les agents en temps réel, le support client automatisé et les environnements de codage collaboratif.

La gestion des interruptions et le filtrage du bruit le rendent adapté aux déploiements dans le monde réel. Le modèle ignore les bruits de sirènes et de foule tout en maintenant le flux de la conversation. Les développeurs y accèdent via la Live API, construisant des applications mobiles et des bornes sans services de transcription séparés.

Cas d'utilisation de Gemini 3.1 Flash Live Preview

Découvrez les différentes façons d'utiliser Gemini 3.1 Flash Live Preview pour obtenir d'excellents résultats.

Agents vocaux en temps réel

Créez une IA conversationnelle qui répond instantanément à la voix de l'utilisateur pour le support dans l'hôtellerie, les voyages et la logistique.

Coaching multimodal en direct

Fournit un entraînement physique ou technique immédiat en analysant simultanément le flux de la caméra et l'audio de l'utilisateur.

Assistants de codage collaboratifs

Guide un IDE pour refactoriser du code et mettre à jour des composants UI via des instructions vocales et le partage d'écran.

Traduction à faible latence

Facilite les conversations interlinguistiques en traduisant de la parole à la parole tout en préservant le contexte émotionnel.

Support en environnement bruyant

Alimente les bornes de service client dans les zones urbaines à fort trafic où le système doit filtrer les bruits ambiants (sirènes, foule).

PNJ interactifs dans les jeux

Anime des personnages non-joueurs qui répondent avec une intonation naturelle et réagissent aux mouvements physiques du joueur.

Points forts

Limitations

Traitement audio natif: Fonctionne strictement de la parole à la parole, détectant les nuances verbales telles que la frustration ou le sarcasme, souvent manquées par les modèles basés sur le texte.

Utilisation synchrone des outils: Le function calling opère de manière séquentielle, ce qui signifie que le modèle cesse totalement de parler en attendant la réponse de l'outil.

Performance haute vitesse: Bénéficie d'un TTFT (Time to First Token) 2,5 fois plus rapide que ses prédécesseurs.

Logique zero-shot plus faible: Les scores de raisonnement brut sont inférieurs au flagship Gemini 3.1 Pro pour les tâches complexes de niveau doctorat.

Filtrage robuste du bruit: Maintient une précision de 95,9 % sur le Big Bench Audio, même dans des environnements bruyants comme les restaurants ou les routes très fréquentées.

Complexité tarifaire: La multiplicité des tarifs pour le texte, l'audio et la vidéo rend la budgétisation des applications multimodales difficile à prévoir.

Raisonnement configurable: Permet aux développeurs d'ajuster le 'thinkingLevel' pour trouver l'équilibre optimal entre logique et vitesse.

Statut de Preview: Actuellement en version Preview, ce qui expose les développeurs à des fluctuations de limites de débit et à des ajustements de comportement imprévus.

Démarrage rapide API

google/gemini-3.1-flash-live-preview

Voir la documentation

google SDK

import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

Installez le SDK et commencez à faire des appels API en quelques minutes.

Ce que les gens disent de Gemini 3.1 Flash Live Preview

Voyez ce que la communauté pense de Gemini 3.1 Flash Live Preview

“Gemini 3.1 Flash-Lite est en cours de déploiement... le modèle de la série Gemini 3 le plus rapide et le plus rentable à ce jour.”

— BuildwithVignesh

“Égale la qualité de 2.5 Flash au coût de Flash-Lite. Modèle audio-to-audio à faible latence optimisé pour le dialogue en temps réel.”

— Google AI

twitter

“3 Flash se dégrade beaucoup à mesure que le contexte augmente, mais c'est une amélioration massive de la réactivité en temps réel.”

— Pasto_Shouwa

“Google réduit vraiment les marges sur les tokens d'entrée avec 3.1 Flash. Il devient difficile de justifier l'utilisation d'autre chose pour des agents simples.”

— AI_Dev_Master

hackernews

“L'architecture native speech-to-speech élimine complètement les pauses gênantes que l'on obtient avec les modèles de transcription enchaînés.”

— AIExplorer

youtube

“Test de la nouvelle version Preview de Gemini 3.1 Flash Live. Les niveaux de raisonnement configurables sont incroyablement utiles pour équilibrer vitesse et logique.”

— DevGuru_X

twitter

Vidéos sur Gemini 3.1 Flash Live Preview

Regardez des tutoriels, critiques et discussions sur Gemini 3.1 Flash Live Preview

“Vous parlez, il répond instantanément. Pas de décalage, pas de chargement, pas de pauses étranges. On dirait que vous parlez à une vraie personne.”

“Il obtient 95,9 % au benchmark audio Big Bench. C'est le meilleur de sa catégorie pour le raisonnement audio.”

“Vous ne lui donnez pas d'instructions pour attendre ensuite. Vous co-construisez avec lui en temps réel.”

“Le modèle peut voir votre écran pendant que vous codez et discuter des changements avec vous.”

“La tarification est divisée entre texte et audio, il faut donc calculer ses coûts avec soin.”

“Il détecte votre ton, votre rythme et votre humeur. Il perçoit la frustration ou la confusion.”

“Gemini 3.1 Flash Live est numéro un mondial sur les benchmarks de voix IA les plus difficiles.”

“Il comprend réellement les sujets complexes. Vous pouvez ajouter du raisonnement au niveau d'IA souhaité.”

“Vous pouvez l'interrompre en milieu de phrase et il s'arrête immédiatement pour écouter la nouvelle instruction.”

“La context window de 128K signifie qu'il se souvient du début d'une conversation de 30 minutes.”

“Il ne fait plus de speech-to-text puis de text-to-speech. Il fait directement du speech-to-speech.”

“L'agent capable d'écouter dans des environnements bruyants... comme au bord de la route ou dans un restaurant animé.”

“La rapidité avec laquelle il s'est arrêté de parler quand je l'ai interrompu était impressionnante.”

“Vous pouvez combiner cela avec des agents de code locaux pour commander votre développement logiciel à la voix.”

“Le temps de premier token est environ 2,5 fois plus rapide que la génération précédente.”

Plus que de simples prompts

Optimisez votre flux de travail avec l'Automatisation IA

Automatio combine la puissance des agents IA, de l'automatisation web et des integrations intelligentes pour vous aider a accomplir plus en moins de temps.

Agents IA

Automatisation Web

Flux Intelligents

Commencer Gratuitement

Conseils Pro pour Gemini 3.1 Flash Live Preview

Conseils d'experts pour tirer le meilleur parti de Gemini 3.1 Flash Live Preview.

Ajuster les niveaux de reasoning

Réglez le 'thinkingLevel' sur 'minimal' pour des réponses vocales ultra-rapides ou sur 'high' pour des tâches logiques complexes en plusieurs étapes.

Utiliser les mises à jour incrémentales

Envoyez des mises à jour textuelles via 'send_realtime_input' pendant les sessions audio actives pour fournir au modèle un contexte évolutif.

Optimiser la couverture des tours de parole

Réglez la couverture des tours sur 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' pour une compréhension multimodale complète.

Initialiser le contexte

Utilisez 'send_client_content' pour établir l'historique d'une conversation avant de démarrer une session Live API afin d'assurer une meilleure continuité.

Témoignages

Ce Que Disent Nos Utilisateurs

Rejoignez des milliers d'utilisateurs satisfaits qui ont transforme leur flux de travail

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Mohammed Ibrahim

CEO, qannas.pro

Ben Bressington

CTO, AiChatSolutions

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Associés AI Models

Claude Opus 4.7

Anthropic

Claude Opus 4.7 is Anthropic's flagship model with a 1-million-token context, adaptive reasoning, and 3.3x vision resolution for enterprise-scale agents.

1M context

$5.00/$25.00/1M

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context

$2.00/$12.00/1M

GPT-5.5

OpenAI

GPT-5.5 is OpenAI's flagship frontier model with a 1M context window and five reasoning effort levels, optimized for autonomous agentic workflows and coding.

1M context

$5.00/$30.00/1M

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context

$3.00/$15.00/1M

Kimi K3

Moonshot

Kimi K3 is Moonshot AI's 2.8T MoE model with a 1M token context window, native multimodal vision, and frontier-tier coding performance for complex agents.

1M context

$3.00/$15.00/1M

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context

$21.00/$168.00/1M

Qwen 3.7 Max

alibaba

Qwen 3.7 Max is Alibaba’s flagship AI model for deep reasoning and autonomous agent tasks, featuring a 256k context window and top-tier coding performance.

256K context

$1.20/$6.00/1M

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context

$2.00/$12.00/1M

Questions Fréquentes sur Gemini 3.1 Flash Live Preview

Trouvez des réponses aux questions courantes sur Gemini 3.1 Flash Live Preview