google

Gemini 3.1 Flash Live Preview

O Gemini 3.1 Flash Live Preview é o modelo de áudio speech-to-speech de ultra baixa latency do Google, com uma context window de 131K, reasoning multimodal de...

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time
google logogoogleGemini26 de março de 2026
Contexto
131Ktokens
Saida Max
66Ktokens
Preco Entrada
$0.75/ 1M
Preco Saida
$4.50/ 1M
Modalidade:TextImageAudioVideo
Capacidades:VisaoFerramentasStreamingRaciocinio
Benchmarks
GPQA
94%
GPQA: Q&A de Ciencias Avancadas. Um benchmark rigoroso com 448 questoes de multipla escolha em biologia, fisica e quimica criadas por especialistas. Especialistas com PhD alcancam apenas 65-74% de precisao. Gemini 3.1 Flash Live Preview pontuou 94% neste benchmark.
HLE
44%
HLE: Raciocinio de Alto Nivel. Testa a capacidade de um modelo de demonstrar raciocinio de nivel especialista em dominios especializados. Gemini 3.1 Flash Live Preview pontuou 44% neste benchmark.
MMLU
91%
MMLU: Compreensao de Linguagem Multitarefa. Um benchmark abrangente com 16.000 questoes de multipla escolha em 57 disciplinas academicas. Gemini 3.1 Flash Live Preview pontuou 91% neste benchmark.
MMLU Pro
89%
MMLU Pro: MMLU Edicao Profissional. Uma versao aprimorada do MMLU com 12.032 questoes usando um formato mais dificil de multipla escolha com 10 opcoes. Gemini 3.1 Flash Live Preview pontuou 89% neste benchmark.
SimpleQA
80%
SimpleQA: Benchmark de Precisao Factual. Testa a capacidade de um modelo de fornecer respostas precisas e factuais a perguntas diretas. Gemini 3.1 Flash Live Preview pontuou 80% neste benchmark.
IFEval
88%
IFEval: Avaliacao de Seguimento de Instrucoes. Mede quao bem um modelo segue instrucoes e restricoes especificas. Gemini 3.1 Flash Live Preview pontuou 88% neste benchmark.
AIME 2025
95%
AIME 2025: Exame de Matematica Invitacional Americano. Problemas de matematica de nivel competitivo do prestigiado exame AIME. Gemini 3.1 Flash Live Preview pontuou 95% neste benchmark.
MATH
100%
MATH: Resolucao de Problemas Matematicos. Um benchmark abrangente de matematica testando resolucao de problemas em algebra, geometria, calculo e outros dominios. Gemini 3.1 Flash Live Preview pontuou 100% neste benchmark.
GSM8k
99%
GSM8k: Matematica do Ensino Fundamental 8K. 8.500 problemas de matematica de nivel escolar fundamental que requerem raciocinio em multiplas etapas. Gemini 3.1 Flash Live Preview pontuou 99% neste benchmark.
MGSM
92%
MGSM: Matematica Escolar Multilingue. O benchmark GSM8k traduzido para 10 idiomas. Gemini 3.1 Flash Live Preview pontuou 92% neste benchmark.
MathVista
72%
MathVista: Raciocinio Visual Matematico. Testa a capacidade de resolver problemas de matematica que envolvem elementos visuais como graficos e diagramas. Gemini 3.1 Flash Live Preview pontuou 72% neste benchmark.
SWE-Bench
81%
SWE-Bench: Benchmark de Engenharia de Software. Modelos de IA tentam resolver issues reais do GitHub em projetos Python de codigo aberto. Gemini 3.1 Flash Live Preview pontuou 81% neste benchmark.
HumanEval
73%
HumanEval: Problemas de Programacao Python. 164 problemas de programacao escritos a mao onde modelos devem gerar implementacoes corretas de funcoes Python. Gemini 3.1 Flash Live Preview pontuou 73% neste benchmark.
LiveCodeBench
80%
LiveCodeBench: Benchmark de Codificacao Ao Vivo. Testa habilidades de codificacao em desafios de programacao do mundo real continuamente atualizados. Gemini 3.1 Flash Live Preview pontuou 80% neste benchmark.
MMMU
69%
MMMU: Compreensao Multimodal. Benchmark de Compreensao Multimodal Multidisciplinar testando modelos de visao-linguagem em problemas de nivel universitario. Gemini 3.1 Flash Live Preview pontuou 69% neste benchmark.
MMMU Pro
60%
MMMU Pro: MMMU Edicao Profissional. Versao aprimorada do MMMU com questoes mais desafiadoras e avaliacao mais rigorosa. Gemini 3.1 Flash Live Preview pontuou 60% neste benchmark.
ChartQA
90%
ChartQA: Resposta a Perguntas sobre Graficos. Testa a capacidade de entender e raciocinar sobre informacoes apresentadas em graficos. Gemini 3.1 Flash Live Preview pontuou 90% neste benchmark.
DocVQA
94%
DocVQA: Q&A Visual de Documentos. Benchmark de Resposta a Perguntas Visuais de Documentos testando a capacidade de extrair informacoes de imagens de documentos. Gemini 3.1 Flash Live Preview pontuou 94% neste benchmark.
Terminal-Bench
69%
Terminal-Bench: Tarefas de Terminal/CLI. Testa a capacidade de realizar operacoes de linha de comando e escrever scripts de shell. Gemini 3.1 Flash Live Preview pontuou 69% neste benchmark.
ARC-AGI
77%
ARC-AGI: Abstracao e Raciocinio. Corpus de Abstracao e Raciocinio para AGI - testa inteligencia fluida atraves de quebra-cabecas de reconhecimento de padroes. Gemini 3.1 Flash Live Preview pontuou 77% neste benchmark.

Sobre Gemini 3.1 Flash Live Preview

Aprenda sobre as capacidades do Gemini 3.1 Flash Live Preview, recursos e como ele pode ajuda-lo a obter melhores resultados.

O Gemini 3.1 Flash Live Preview é um modelo multimodal de baixa latency projetado para diálogo de áudio em tempo real (speech-to-speech). Ele opera na arquitetura Gemini 3 do Google. Um design Sparse Mixture-of-Experts (MoE) mantém alto desempenho enquanto reduz custos de inference. Modelos tradicionais realizam speech-to-text seguido de text-to-speech. Este modelo processa fluxos de áudio nativamente. Ele detecta nuances acústicas como tom, emoção e ruído de fundo para interações naturais. Saiba mais na documentação oficial.

Desenvolvedores usam este modelo para aplicações de voz que exigem precisão numérica e feedback imediato. Ele suporta níveis de reasoning configuráveis, variando de mínimo a alto. Isso permite aos usuários equilibrar a profundidade do raciocínio com os requisitos de latency. Com uma context window de 131.072 tokens e suporte para texto, imagens e vídeo, ele atua como um motor versátil. Casos de uso alvo incluem agentes em tempo real, suporte ao cliente automatizado e ambientes de codificação colaborativa.

O tratamento de interrupções e a filtragem de ruído tornam-no adequado para implementações no mundo real. O modelo ignora ruídos de sirenes e multidões enquanto mantém o fluxo da conversa. Desenvolvedores o acessam através da Live API, criando aplicações móveis e de quiosque sem serviços de transcrição separados.

Gemini 3.1 Flash Live Preview

Casos de Uso para Gemini 3.1 Flash Live Preview

Descubra as diferentes maneiras de usar Gemini 3.1 Flash Live Preview para obter otimos resultados.

Agentes de voz em tempo real

Cria IA conversacional que responde instantaneamente à fala do usuário para suporte em hospitalidade, viagens e logística.

Coaching multimodal ao vivo

Fornece treinamento físico ou técnico imediato analisando o feed de câmera e o áudio do usuário simultaneamente.

Assistentes de codificação colaborativa

Orienta uma IDE a refatorar código e atualizar componentes da interface através de instruções de voz contínuas e compartilhamento de tela.

Tradução de baixa latency

Facilita conversas entre idiomas traduzindo fala-para-fala (speech-to-speech) com contexto emocional preservado.

Suporte em ambientes ruidosos

Potencializa quiosques de atendimento ao cliente em áreas urbanas de alto tráfego onde o sistema precisa filtrar ruídos de sirenes e multidões.

Jogos com NPCs interativos

Controla personagens não-jogáveis que respondem com inflexão vocal natural e reagem aos movimentos físicos do jogador.

Pontos Fortes

Limitacoes

Processamento de áudio nativo: Opera estritamente speech-to-speech, detectando nuances verbais como frustração ou sarcasmo que modelos baseados em texto deixam passar.
Uso síncrono de ferramentas: O function calling opera de forma sequencial, o que significa que o modelo para de falar completamente enquanto aguarda as respostas das ferramentas.
Performance de alta velocidade: Apresenta um Time to First Token (TTFT) 2,5x mais rápido em comparação com seus antecessores.
Lógica zero-shot inferior: As pontuações de reasoning bruto ficam abaixo do modelo flagship Gemini 3.1 Pro para tarefas complexas de nível de doutorado.
Filtragem de ruído robusta: Mantém 95,9% de precisão no Big Bench Audio mesmo em ambientes ruidosos, como restaurantes ou estradas movimentadas.
Complexidade de precificação: Múltiplos níveis de taxas para texto, áudio e vídeo tornam a previsão de orçamento para aplicações multimodais difícil.
Reasoning configurável: Permite que desenvolvedores ajustem o 'thinkingLevel' para encontrar o equilíbrio ideal entre lógica e velocidade.
Status de preview: Atualmente em preview, o que sujeita os desenvolvedores a flutuações de limites de taxa (rate limits) e ajustes de comportamento não anunciados.

Inicio Rapido da API

google/gemini-3.1-flash-live-preview

Ver Documentacao
google SDK
import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

Instale o SDK e comece a fazer chamadas de API em minutos.

O Que as Pessoas Estao Dizendo Sobre Gemini 3.1 Flash Live Preview

Veja o que a comunidade pensa sobre Gemini 3.1 Flash Live Preview

O Gemini 3.1 Flash-Lite está sendo lançado... o modelo da série Gemini 3 mais rápido e econômico até agora.
BuildwithVignesh
reddit
Iguala a qualidade do 2.5 Flash com o custo do Flash-Lite. Modelo de baixa latency e speech-to-speech otimizado para diálogo em tempo real.
Google AI
twitter
O 3 Flash degrada bastante à medida que o contexto aumenta, mas é uma melhoria maciça para a responsividade em tempo real.
Pasto_Shouwa
reddit
O Google está realmente apertando as margens nos tokens de entrada com o 3.1 Flash. Está se tornando difícil justificar o uso de qualquer outra coisa para agentes simples.
AI_Dev_Master
hackernews
A arquitetura de speech-to-speech nativa elimina completamente as pausas estranhas que você obtém com modelos de transcrição encadeados.
AIExplorer
youtube
Testando o novo Gemini 3.1 Flash Live Preview. Os níveis de reasoning configuráveis são incrivelmente úteis para equilibrar velocidade versus reasoning.
DevGuru_X
twitter

Videos Sobre Gemini 3.1 Flash Live Preview

Assista tutoriais, analises e discussoes sobre Gemini 3.1 Flash Live Preview

Você fala, ele responde instantaneamente. Sem atraso, sem carregamento, sem pausas estranhas. Parece conversar com uma pessoa real.

Ele pontua 95,9% no benchmark de áudio Big Bench. Isso é o melhor da categoria em reasoning de áudio.

Você não dá instruções e espera. Você está co-construindo com ele em tempo real.

O modelo pode ver sua tela enquanto você codifica e conversar com você sobre as mudanças.

A precificação é dividida entre texto e áudio, então você precisa calcular seus custos cuidadosamente.

Ele percebe seu tom, seu ritmo e seu humor. Ele percebe frustração ou confusão.

O Gemini 3.1 Flash Live é o número um do mundo nos benchmarks de voz de IA mais difíceis.

Ele realmente entende tópicos complexos. Você pode adicionar reasoning ao nível de IA que você possui.

Você pode interrompê-lo no meio da frase e ele para imediatamente e ouve a nova instrução.

A context window de 128K significa que ele se lembra do início de uma conversa de 30 minutos.

Ele não está mais fazendo speech-to-text e depois text-to-speech. É direto speech-to-speech.

O agente sendo capaz de ouvir em ambientes ruidosos... como na beira da estrada ou em um restaurante barulhento.

Quando eu o interrompi, a rapidez com que ele parou de falar... achei realmente impressionante.

Você pode combinar isso com agentes de código locais para comandar literalmente seu desenvolvimento de software por voz.

O time to first token é cerca de 2,5 vezes mais rápido que a geração anterior.

Mais do que apenas prompts

Potencialize seu fluxo de trabalho com Automacao de IA

Automatio combina o poder de agentes de IA, automacao web e integracoes inteligentes para ajuda-lo a realizar mais em menos tempo.

Agentes de IA
Automacao Web
Fluxos Inteligentes

Dicas Profissionais para Gemini 3.1 Flash Live Preview

Dicas de especialistas para ajuda-lo a aproveitar ao maximo Gemini 3.1 Flash Live Preview e obter melhores resultados.

Ajuste os níveis de 'thinking'

Defina o 'thinkingLevel' como 'minimal' para respostas de voz mais rápidas ou 'high' para tarefas lógicas complexas de várias etapas.

Use atualizações incrementais

Envie atualizações de texto via 'send_realtime_input' durante sessões de áudio ativas para fornecer contexto variável ao modelo.

Otimize a cobertura de turnos

Defina a cobertura de turnos como 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' para uma compreensão multimodal abrangente.

Estabeleça contexto inicial

Use 'send_client_content' para definir o histórico de uma conversa antes de iniciar uma sessão da Live API para melhor continuidade.

Depoimentos

O Que Nossos Usuarios Dizem

Junte-se a milhares de usuarios satisfeitos que transformaram seu fluxo de trabalho

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M

Perguntas Frequentes Sobre Gemini 3.1 Flash Live Preview

Encontre respostas para perguntas comuns sobre Gemini 3.1 Flash Live Preview