¿Cuál es la context window de Gemini 3.1 Flash Live?

El model admite una context window de 131 072 tokens de entrada y una ventana de salida de 65 536 tokens. Esto le permite recordar conversaciones largas y procesar un historial sustancial de documentos durante una sesión en vivo.

¿Cuánto cuesta la API?

La entrada de texto cuesta $0.75 por cada millón de tokens y la salida $4.50. La entrada de audio cuesta aproximadamente $0.005 por minuto, mientras que la salida de audio cuesta $0.018 por minuto.

¿Este model admite function calling?

Sí, Gemini 3.1 Flash Live admite function calling síncrono. El model pausa su respuesta de audio para ejecutar la herramienta y espera el resultado de la misma antes de continuar.

¿Cómo funciona el thinking en este model?

Gemini 3.1 Flash Live utiliza niveles de reasoning configurables (mínimo, bajo, medio, alto) en lugar de un presupuesto de tokens fijo. El ajuste mínimo es el valor predeterminado para garantizar la latencia más baja en aplicaciones de voz.

¿Puede ver mi pantalla en tiempo real?

Sí, el model puede ingerir fotogramas de video continuos a través de la Live API. Esto le permite analizar el contenido de la pantalla o las transmisiones de la cámara mientras habla con el usuario.

¿Hay un nivel gratuito disponible?

Sí, Google AI Studio ofrece acceso gratuito a Gemini 3.1 Flash Live Preview para pruebas y desarrollo. Los datos del nivel gratuito pueden utilizarse para mejorar los productos de Google.

¿Qué idiomas son compatibles?

El model admite más de 70 idiomas para texto y audio. Esta amplia cobertura lingüística permite la traducción global en tiempo real y un servicio al cliente localizado.

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview es el model de audio a audio de latencia ultra baja de Google, que cuenta con una context window de 131K, reasoning multimodal de...

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time

googleGemini26 de marzo de 2026

Contexto

131Ktokens

Salida máx.

66Ktokens

Precio entrada

$0.75/ 1M

Precio salida

$4.50/ 1M

Modalidad:TextImageAudioVideo

Capacidades:VisiónHerramientasStreamingRazonamiento

Benchmarks

GPQA

94%

HLE

44%

MMLU

91%

MMLU Pro

89%

SimpleQA

80%

IFEval

88%

AIME 2025

95%

MATH

100%

GSM8k

99%

MGSM

92%

MathVista

72%

SWE-Bench

81%

HumanEval

73%

LiveCodeBench

80%

MMMU

69%

MMMU Pro

60%

ChartQA

90%

DocVQA

94%

Terminal-Bench

69%

ARC-AGI

77%

Ver documentación API

Acerca de Gemini 3.1 Flash Live Preview

Conoce las capacidades, características y formas de uso de Gemini 3.1 Flash Live Preview.

Gemini 3.1 Flash Live Preview es un model multimodal de baja latencia diseñado para diálogos de audio a audio en tiempo real. Opera bajo la arquitectura Gemini 3 de Google. Su diseño de Mixture-of-Experts (MoE) disperso mantiene un alto rendimiento mientras reduce los costos de inference. Los models tradicionales realizan voz a texto seguido de texto a voz. Este model procesa flujos de audio de forma nativa. Detecta matices acústicos como tono, emoción y ruido de fondo para interacciones naturales. Obtenga más información en la documentación oficial.

Los desarrolladores utilizan este model para aplicaciones que priorizan la voz y requieren precisión numérica y retroalimentación inmediata. Admite niveles de reasoning configurables que van desde mínimo hasta alto, lo que permite a los usuarios equilibrar la profundidad del razonamiento con los requisitos de latencia. Con una context window de 131 072 tokens y soporte para texto, imágenes y video, funciona como un motor versátil. Los casos de uso objetivo incluyen agentes en tiempo real, atención al cliente automatizada y entornos de programación colaborativa.

El manejo de interrupciones y el filtrado de ruido lo hacen adecuado para despliegues en el mundo real. El model ignora el ruido de sirenas y multitudes mientras mantiene el flujo de la conversación. Los desarrolladores acceden a él a través de la Live API, creando aplicaciones móviles y para quioscos sin necesidad de servicios de transcripción adicionales.

Casos de uso de Gemini 3.1 Flash Live Preview

Descubre las diferentes formas de usar Gemini 3.1 Flash Live Preview para lograr excelentes resultados.

Agentes de voz en tiempo real

Cree IA conversacional que responda al instante a la voz del usuario para soporte en hostelería, viajes y logística.

Coaching multimodal en vivo

Proporciona entrenamiento técnico o físico inmediato mediante el análisis simultáneo de la cámara y el audio del usuario.

Asistentes de programación colaborativa

Dirige un IDE para refactorizar código y actualizar componentes de UI mediante instrucciones de voz continuas y uso compartido de pantalla.

Traducción de baja latencia

Facilita conversaciones interlingüísticas traduciendo voz a voz manteniendo el contexto emocional.

Soporte en entornos ruidosos

Potencia quioscos de servicio al cliente en áreas urbanas de alto tráfico donde el sistema debe filtrar el ruido de sirenas y multitudes.

Videojuegos con NPC interactivos

Impulsa personajes no jugables que responden con inflexiones vocales naturales y reaccionan a los movimientos físicos del jugador.

Fortalezas

Limitaciones

Procesamiento de audio nativo: Opera estrictamente de voz a voz, detectando matices verbales como la frustración o el sarcasmo que los models basados en texto pasan por alto.

Uso de herramientas síncrono: El function calling opera de forma secuencial, lo que significa que el model deja de hablar por completo mientras espera las respuestas de la herramienta.

Alto rendimiento y velocidad: Presenta un Time to First Token (TTFT) 2.5 veces más rápido en comparación con sus predecesores.

Lógica zero-shot inferior: Las puntuaciones de reasoning bruto se sitúan por debajo del flagship Gemini 3.1 Pro para tareas complejas de nivel de doctorado.

Filtrado de ruido robusto: Mantiene un 95.9% de precisión en Big Bench Audio incluso en entornos ruidosos como restaurantes o carreteras transitadas.

Complejidad de precios: Los múltiples niveles de tarifas para texto, audio y video dificultan la predicción del presupuesto para aplicaciones multimodales.

Reasoning configurable: Permite a los desarrolladores ajustar el 'thinkingLevel' para encontrar el equilibrio óptimo entre lógica y velocidad.

Estado de vista previa (Preview): Actualmente en fase de vista previa, lo que somete a los desarrolladores a fluctuaciones en los límites de velocidad y ajustes de comportamiento sin previo aviso.

Inicio rápido de API

google/gemini-3.1-flash-live-preview

Ver documentación

google SDK

import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre Gemini 3.1 Flash Live Preview

Mira lo que la comunidad piensa sobre Gemini 3.1 Flash Live Preview

“Gemini 3.1 Flash-Lite se está lanzando... el model de la serie Gemini 3 más rápido y rentable hasta la fecha.”

— BuildwithVignesh

“Iguala la calidad de 2.5 Flash al costo de Flash-Lite. Un model de baja latencia de audio a audio optimizado para diálogos en tiempo real.”

— Google AI

twitter

“3 Flash se degrada mucho a medida que aumenta el contexto, pero es una mejora masiva para la capacidad de respuesta en tiempo real.”

— Pasto_Shouwa

“Google realmente está ajustando los márgenes en los tokens de entrada con 3.1 Flash. Se está volviendo difícil justificar el uso de cualquier otra cosa para agentes simples.”

— AI_Dev_Master

hackernews

“La arquitectura pura de voz a voz elimina por completo las pausas incómodas que obtienes con los models de transcripción encadenados.”

— AIExplorer

youtube

“Probando el nuevo Gemini 3.1 Flash Live Preview. Los niveles de reasoning configurables son increíblemente útiles para equilibrar la velocidad y el razonamiento.”

— DevGuru_X

twitter

Videos sobre Gemini 3.1 Flash Live Preview

Mira tutoriales, reseñas y discusiones sobre Gemini 3.1 Flash Live Preview

“Tú hablas, él responde al instante. Sin retrasos, sin cargas, sin pausas extrañas. Se siente como hablar con una persona real.”

“Obtiene un 95.9% en el benchmark de audio Big Bench. Eso es el mejor de su clase en reasoning de audio.”

“No le estás dando instrucciones y esperando. Estás co-creando con él en tiempo real.”

“El model puede ver tu pantalla mientras programas y hablar contigo sobre los cambios.”

“El precio se divide entre texto y audio, así que tienes que calcular tus costos con cuidado.”

“Esto detecta tu tono, tu ritmo y tu estado de ánimo. Capta la frustración o la confusión.”

“Gemini 3.1 Flash Live obtiene el puesto número uno mundial en los benchmarks de voz de IA más difíciles.”

“Realmente entiende temas complejos. Puedes añadir razonamiento al nivel de IA que tengas.”

“Puedes interrumpirlo a mitad de frase y se detiene inmediatamente para escuchar la nueva instrucción.”

“La context window de 128K significa que recuerda el principio de una conversación de 30 minutos.”

“Ya no está haciendo voz a texto y luego texto a voz. Es directamente voz a voz.”

“El agente es capaz de escuchar en entornos ruidosos... como al lado de la carretera o en un restaurante concurrido.”

“Cuando lo interrumpí, la rapidez con la que dejó de hablar... creo que fue realmente impresionante.”

“Puedes combinar esto con agentes de código locales para controlar literalmente tu desarrollo de software mediante comandos de voz.”

“El time to first token es aproximadamente 2.5 veces más rápido que la generación anterior.”

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA

Automatización Web

Flujos Inteligentes

Comenzar Gratis

Consejos Pro para Gemini 3.1 Flash Live Preview

Consejos de expertos para ayudarte a sacar el máximo provecho de Gemini 3.1 Flash Live Preview.

Ajuste los niveles de reasoning

Configure 'thinkingLevel' en 'minimal' para obtener respuestas de voz más rápidas o en 'high' para tareas lógicas complejas de varios pasos.

Utilice actualizaciones incrementales

Envíe actualizaciones de texto mediante 'send_realtime_input' durante sesiones de audio activas para proporcionar al model un contexto cambiante.

Optimice la cobertura de turnos

Establezca la cobertura de turnos en 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' para una comprensión multimodal integral.

Establezca un contexto inicial

Utilice 'send_client_content' para establecer el historial de una conversación antes de iniciar una sesión de Live API para una mejor continuidad.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Mohammed Ibrahim

CEO, qannas.pro

Ben Bressington

CTO, AiChatSolutions

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

Claude Opus 4.7

Anthropic

Claude Opus 4.7 is Anthropic's flagship model with a 1-million-token context, adaptive reasoning, and 3.3x vision resolution for enterprise-scale agents.

1M context

$5.00/$25.00/1M

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context

$2.00/$12.00/1M

GPT-5.5

OpenAI

GPT-5.5 is OpenAI's flagship frontier model with a 1M context window and five reasoning effort levels, optimized for autonomous agentic workflows and coding.

1M context

$5.00/$30.00/1M

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context

$3.00/$15.00/1M

Kimi K3

Moonshot

Kimi K3 is Moonshot AI's 2.8T MoE model with a 1M token context window, native multimodal vision, and frontier-tier coding performance for complex agents.

1M context

$3.00/$15.00/1M

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context

$21.00/$168.00/1M

Qwen 3.7 Max

alibaba

Qwen 3.7 Max is Alibaba’s flagship AI model for deep reasoning and autonomous agent tasks, featuring a 256k context window and top-tier coding performance.

256K context

$1.20/$6.00/1M

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context

$2.00/$12.00/1M

Preguntas Frecuentes Sobre Gemini 3.1 Flash Live Preview

Encuentra respuestas a preguntas comunes sobre Gemini 3.1 Flash Live Preview