google

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview es el model de audio a audio de latencia ultra baja de Google, que cuenta con una context window de 131K, reasoning multimodal de...

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time
google logogoogleGemini26 de marzo de 2026
Contexto
131Ktokens
Salida máx.
66Ktokens
Precio entrada
$0.75/ 1M
Precio salida
$4.50/ 1M
Modalidad:TextImageAudioVideo
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
94%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). Gemini 3.1 Flash Live Preview obtuvo 94% en este benchmark.
HLE
44%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. Gemini 3.1 Flash Live Preview obtuvo 44% en este benchmark.
MMLU
91%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. Gemini 3.1 Flash Live Preview obtuvo 91% en este benchmark.
MMLU Pro
89%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. Gemini 3.1 Flash Live Preview obtuvo 89% en este benchmark.
SimpleQA
80%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. Gemini 3.1 Flash Live Preview obtuvo 80% en este benchmark.
IFEval
88%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. Gemini 3.1 Flash Live Preview obtuvo 88% en este benchmark.
AIME 2025
95%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. Gemini 3.1 Flash Live Preview obtuvo 95% en este benchmark.
MATH
100%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. Gemini 3.1 Flash Live Preview obtuvo 100% en este benchmark.
GSM8k
99%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. Gemini 3.1 Flash Live Preview obtuvo 99% en este benchmark.
MGSM
92%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. Gemini 3.1 Flash Live Preview obtuvo 92% en este benchmark.
MathVista
72%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. Gemini 3.1 Flash Live Preview obtuvo 72% en este benchmark.
SWE-Bench
81%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). Gemini 3.1 Flash Live Preview obtuvo 81% en este benchmark.
HumanEval
73%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. Gemini 3.1 Flash Live Preview obtuvo 73% en este benchmark.
LiveCodeBench
80%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. Gemini 3.1 Flash Live Preview obtuvo 80% en este benchmark.
MMMU
69%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. Gemini 3.1 Flash Live Preview obtuvo 69% en este benchmark.
MMMU Pro
60%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. Gemini 3.1 Flash Live Preview obtuvo 60% en este benchmark.
ChartQA
90%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. Gemini 3.1 Flash Live Preview obtuvo 90% en este benchmark.
DocVQA
94%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. Gemini 3.1 Flash Live Preview obtuvo 94% en este benchmark.
Terminal-Bench
69%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. Gemini 3.1 Flash Live Preview obtuvo 69% en este benchmark.
ARC-AGI
77%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. Gemini 3.1 Flash Live Preview obtuvo 77% en este benchmark.

Acerca de Gemini 3.1 Flash Live Preview

Conoce las capacidades, características y formas de uso de Gemini 3.1 Flash Live Preview.

Gemini 3.1 Flash Live Preview es un model multimodal de baja latencia diseñado para diálogos de audio a audio en tiempo real. Opera bajo la arquitectura Gemini 3 de Google. Su diseño de Mixture-of-Experts (MoE) disperso mantiene un alto rendimiento mientras reduce los costos de inference. Los models tradicionales realizan voz a texto seguido de texto a voz. Este model procesa flujos de audio de forma nativa. Detecta matices acústicos como tono, emoción y ruido de fondo para interacciones naturales. Obtenga más información en la documentación oficial.

Los desarrolladores utilizan este model para aplicaciones que priorizan la voz y requieren precisión numérica y retroalimentación inmediata. Admite niveles de reasoning configurables que van desde mínimo hasta alto, lo que permite a los usuarios equilibrar la profundidad del razonamiento con los requisitos de latencia. Con una context window de 131 072 tokens y soporte para texto, imágenes y video, funciona como un motor versátil. Los casos de uso objetivo incluyen agentes en tiempo real, atención al cliente automatizada y entornos de programación colaborativa.

El manejo de interrupciones y el filtrado de ruido lo hacen adecuado para despliegues en el mundo real. El model ignora el ruido de sirenas y multitudes mientras mantiene el flujo de la conversación. Los desarrolladores acceden a él a través de la Live API, creando aplicaciones móviles y para quioscos sin necesidad de servicios de transcripción adicionales.

Gemini 3.1 Flash Live Preview

Casos de uso de Gemini 3.1 Flash Live Preview

Descubre las diferentes formas de usar Gemini 3.1 Flash Live Preview para lograr excelentes resultados.

Agentes de voz en tiempo real

Cree IA conversacional que responda al instante a la voz del usuario para soporte en hostelería, viajes y logística.

Coaching multimodal en vivo

Proporciona entrenamiento técnico o físico inmediato mediante el análisis simultáneo de la cámara y el audio del usuario.

Asistentes de programación colaborativa

Dirige un IDE para refactorizar código y actualizar componentes de UI mediante instrucciones de voz continuas y uso compartido de pantalla.

Traducción de baja latencia

Facilita conversaciones interlingüísticas traduciendo voz a voz manteniendo el contexto emocional.

Soporte en entornos ruidosos

Potencia quioscos de servicio al cliente en áreas urbanas de alto tráfico donde el sistema debe filtrar el ruido de sirenas y multitudes.

Videojuegos con NPC interactivos

Impulsa personajes no jugables que responden con inflexiones vocales naturales y reaccionan a los movimientos físicos del jugador.

Fortalezas

Limitaciones

Procesamiento de audio nativo: Opera estrictamente de voz a voz, detectando matices verbales como la frustración o el sarcasmo que los models basados en texto pasan por alto.
Uso de herramientas síncrono: El function calling opera de forma secuencial, lo que significa que el model deja de hablar por completo mientras espera las respuestas de la herramienta.
Alto rendimiento y velocidad: Presenta un Time to First Token (TTFT) 2.5 veces más rápido en comparación con sus predecesores.
Lógica zero-shot inferior: Las puntuaciones de reasoning bruto se sitúan por debajo del flagship Gemini 3.1 Pro para tareas complejas de nivel de doctorado.
Filtrado de ruido robusto: Mantiene un 95.9% de precisión en Big Bench Audio incluso en entornos ruidosos como restaurantes o carreteras transitadas.
Complejidad de precios: Los múltiples niveles de tarifas para texto, audio y video dificultan la predicción del presupuesto para aplicaciones multimodales.
Reasoning configurable: Permite a los desarrolladores ajustar el 'thinkingLevel' para encontrar el equilibrio óptimo entre lógica y velocidad.
Estado de vista previa (Preview): Actualmente en fase de vista previa, lo que somete a los desarrolladores a fluctuaciones en los límites de velocidad y ajustes de comportamiento sin previo aviso.

Inicio rápido de API

google/gemini-3.1-flash-live-preview

Ver documentación
google SDK
import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre Gemini 3.1 Flash Live Preview

Mira lo que la comunidad piensa sobre Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash-Lite se está lanzando... el model de la serie Gemini 3 más rápido y rentable hasta la fecha.
BuildwithVignesh
reddit
Iguala la calidad de 2.5 Flash al costo de Flash-Lite. Un model de baja latencia de audio a audio optimizado para diálogos en tiempo real.
Google AI
twitter
3 Flash se degrada mucho a medida que aumenta el contexto, pero es una mejora masiva para la capacidad de respuesta en tiempo real.
Pasto_Shouwa
reddit
Google realmente está ajustando los márgenes en los tokens de entrada con 3.1 Flash. Se está volviendo difícil justificar el uso de cualquier otra cosa para agentes simples.
AI_Dev_Master
hackernews
La arquitectura pura de voz a voz elimina por completo las pausas incómodas que obtienes con los models de transcripción encadenados.
AIExplorer
youtube
Probando el nuevo Gemini 3.1 Flash Live Preview. Los niveles de reasoning configurables son increíblemente útiles para equilibrar la velocidad y el razonamiento.
DevGuru_X
twitter

Videos sobre Gemini 3.1 Flash Live Preview

Mira tutoriales, reseñas y discusiones sobre Gemini 3.1 Flash Live Preview

Tú hablas, él responde al instante. Sin retrasos, sin cargas, sin pausas extrañas. Se siente como hablar con una persona real.

Obtiene un 95.9% en el benchmark de audio Big Bench. Eso es el mejor de su clase en reasoning de audio.

No le estás dando instrucciones y esperando. Estás co-creando con él en tiempo real.

El model puede ver tu pantalla mientras programas y hablar contigo sobre los cambios.

El precio se divide entre texto y audio, así que tienes que calcular tus costos con cuidado.

Esto detecta tu tono, tu ritmo y tu estado de ánimo. Capta la frustración o la confusión.

Gemini 3.1 Flash Live obtiene el puesto número uno mundial en los benchmarks de voz de IA más difíciles.

Realmente entiende temas complejos. Puedes añadir razonamiento al nivel de IA que tengas.

Puedes interrumpirlo a mitad de frase y se detiene inmediatamente para escuchar la nueva instrucción.

La context window de 128K significa que recuerda el principio de una conversación de 30 minutos.

Ya no está haciendo voz a texto y luego texto a voz. Es directamente voz a voz.

El agente es capaz de escuchar en entornos ruidosos... como al lado de la carretera o en un restaurante concurrido.

Cuando lo interrumpí, la rapidez con la que dejó de hablar... creo que fue realmente impresionante.

Puedes combinar esto con agentes de código locales para controlar literalmente tu desarrollo de software mediante comandos de voz.

El time to first token es aproximadamente 2.5 veces más rápido que la generación anterior.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes

Consejos Pro para Gemini 3.1 Flash Live Preview

Consejos de expertos para ayudarte a sacar el máximo provecho de Gemini 3.1 Flash Live Preview.

Ajuste los niveles de reasoning

Configure 'thinkingLevel' en 'minimal' para obtener respuestas de voz más rápidas o en 'high' para tareas lógicas complejas de varios pasos.

Utilice actualizaciones incrementales

Envíe actualizaciones de texto mediante 'send_realtime_input' durante sesiones de audio activas para proporcionar al model un contexto cambiante.

Optimice la cobertura de turnos

Establezca la cobertura de turnos en 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' para una comprensión multimodal integral.

Establezca un contexto inicial

Utilice 'send_client_content' para establecer el historial de una conversación antes de iniciar una sesión de Live API para una mejor continuidad.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M

Preguntas Frecuentes Sobre Gemini 3.1 Flash Live Preview

Encuentra respuestas a preguntas comunes sobre Gemini 3.1 Flash Live Preview