google

Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite é o model mais rápido e eficiente em termos de custo do Google. Possui 1M de context, multimodality nativa e 363 tokens/seg.

MultimodalAlta VelocidadeEficiente em CustoGoogle Gemini
google logogoogleGemini 3.13 de março de 2026
Contexto
1.0Mtokens
Saida Max
66Ktokens
Preco Entrada
$0.25/ 1M
Preco Saida
$1.50/ 1M
Modalidade:TextImageAudioVideo
Capacidades:VisaoFerramentasStreaming
Benchmarks
GPQA
86.9%
GPQA: Q&A de Ciencias Avancadas. Um benchmark rigoroso com 448 questoes de multipla escolha em biologia, fisica e quimica criadas por especialistas. Especialistas com PhD alcancam apenas 65-74% de precisao. Gemini 3.1 Flash-Lite pontuou 86.9% neste benchmark.
HLE
16%
HLE: Raciocinio de Alto Nivel. Testa a capacidade de um modelo de demonstrar raciocinio de nivel especialista em dominios especializados. Gemini 3.1 Flash-Lite pontuou 16% neste benchmark.
MMLU
88.9%
MMLU: Compreensao de Linguagem Multitarefa. Um benchmark abrangente com 16.000 questoes de multipla escolha em 57 disciplinas academicas. Gemini 3.1 Flash-Lite pontuou 88.9% neste benchmark.
MMLU Pro
80%
MMLU Pro: MMLU Edicao Profissional. Uma versao aprimorada do MMLU com 12.032 questoes usando um formato mais dificil de multipla escolha com 10 opcoes. Gemini 3.1 Flash-Lite pontuou 80% neste benchmark.
SimpleQA
43.3%
SimpleQA: Benchmark de Precisao Factual. Testa a capacidade de um modelo de fornecer respostas precisas e factuais a perguntas diretas. Gemini 3.1 Flash-Lite pontuou 43.3% neste benchmark.
IFEval
85%
IFEval: Avaliacao de Seguimento de Instrucoes. Mede quao bem um modelo segue instrucoes e restricoes especificas. Gemini 3.1 Flash-Lite pontuou 85% neste benchmark.
AIME 2025
25%
AIME 2025: Exame de Matematica Invitacional Americano. Problemas de matematica de nivel competitivo do prestigiado exame AIME. Gemini 3.1 Flash-Lite pontuou 25% neste benchmark.
MATH
78%
MATH: Resolucao de Problemas Matematicos. Um benchmark abrangente de matematica testando resolucao de problemas em algebra, geometria, calculo e outros dominios. Gemini 3.1 Flash-Lite pontuou 78% neste benchmark.
GSM8k
95%
GSM8k: Matematica do Ensino Fundamental 8K. 8.500 problemas de matematica de nivel escolar fundamental que requerem raciocinio em multiplas etapas. Gemini 3.1 Flash-Lite pontuou 95% neste benchmark.
MGSM
92%
MGSM: Matematica Escolar Multilingue. O benchmark GSM8k traduzido para 10 idiomas. Gemini 3.1 Flash-Lite pontuou 92% neste benchmark.
MathVista
75%
MathVista: Raciocinio Visual Matematico. Testa a capacidade de resolver problemas de matematica que envolvem elementos visuais como graficos e diagramas. Gemini 3.1 Flash-Lite pontuou 75% neste benchmark.
SWE-Bench
35%
SWE-Bench: Benchmark de Engenharia de Software. Modelos de IA tentam resolver issues reais do GitHub em projetos Python de codigo aberto. Gemini 3.1 Flash-Lite pontuou 35% neste benchmark.
HumanEval
88%
HumanEval: Problemas de Programacao Python. 164 problemas de programacao escritos a mao onde modelos devem gerar implementacoes corretas de funcoes Python. Gemini 3.1 Flash-Lite pontuou 88% neste benchmark.
LiveCodeBench
72%
LiveCodeBench: Benchmark de Codificacao Ao Vivo. Testa habilidades de codificacao em desafios de programacao do mundo real continuamente atualizados. Gemini 3.1 Flash-Lite pontuou 72% neste benchmark.
MMMU
76.8%
MMMU: Compreensao Multimodal. Benchmark de Compreensao Multimodal Multidisciplinar testando modelos de visao-linguagem em problemas de nivel universitario. Gemini 3.1 Flash-Lite pontuou 76.8% neste benchmark.
MMMU Pro
76.8%
MMMU Pro: MMMU Edicao Profissional. Versao aprimorada do MMMU com questoes mais desafiadoras e avaliacao mais rigorosa. Gemini 3.1 Flash-Lite pontuou 76.8% neste benchmark.
ChartQA
91%
ChartQA: Resposta a Perguntas sobre Graficos. Testa a capacidade de entender e raciocinar sobre informacoes apresentadas em graficos. Gemini 3.1 Flash-Lite pontuou 91% neste benchmark.
DocVQA
92%
DocVQA: Q&A Visual de Documentos. Benchmark de Resposta a Perguntas Visuais de Documentos testando a capacidade de extrair informacoes de imagens de documentos. Gemini 3.1 Flash-Lite pontuou 92% neste benchmark.
Terminal-Bench
55%
Terminal-Bench: Tarefas de Terminal/CLI. Testa a capacidade de realizar operacoes de linha de comando e escrever scripts de shell. Gemini 3.1 Flash-Lite pontuou 55% neste benchmark.
ARC-AGI
12%
ARC-AGI: Abstracao e Raciocinio. Corpus de Abstracao e Raciocinio para AGI - testa inteligencia fluida atraves de quebra-cabecas de reconhecimento de padroes. Gemini 3.1 Flash-Lite pontuou 12% neste benchmark.

Sobre Gemini 3.1 Flash-Lite

Aprenda sobre as capacidades do Gemini 3.1 Flash-Lite, recursos e como ele pode ajuda-lo a obter melhores resultados.

O Gemini 3.1 Flash-Lite foi projetado para aplicações de IA de alto volume, onde a velocidade de processamento é o requisito técnico principal. Diferente dos models Pro maiores, o Flash-Lite usa uma arquitetura simplificada que prioriza o throughput, atingindo 363 tokens por segundo. Ele serve como uma ferramenta especializada para desenvolvedores que constroem agentes de voz em tempo real, sistemas automatizados de moderação de conteúdo e pipelines de extração de dados em larga escala que precisam permanecer rentáveis sob tráfego intenso.

Apesar da designação 'lite', o model mantém uma context window de 1 milhão de tokens. Ele pode ingerir arquivos de áudio brutos, vídeos de uma hora e centenas de páginas de PDFs em uma única requisição. Ao introduzir os Thinking Levels, o Google permite que os usuários escolham entre respostas quase instantâneas para tarefas simples e uma fase de reasoning mais profunda para lógica complexa. Isso oferece múltiplos perfis de desempenho dentro de um único endpoint de API para equilibrar custo e precisão.

O model é nativamente multimodal, o que elimina a necessidade de ferramentas externas para transcrever áudio ou descrever imagens antes do processamento. Essa capacidade nativa melhora o desempenho em tarefas visuais como respostas a perguntas sobre documentos e análise de gráficos. Os desenvolvedores podem usar o parâmetro thinking_level para ajustar o tempo de reasoning interno, escalando efetivamente o esforço do model com base na complexidade específica de cada consulta.

Gemini 3.1 Flash-Lite

Casos de Uso para Gemini 3.1 Flash-Lite

Descubra as diferentes maneiras de usar Gemini 3.1 Flash-Lite para obter otimos resultados.

Tradução de Alto Volume

Processamento de milhares de mensagens de chat ou tickets de suporte multilíngues em tempo real com latency inferior a um segundo.

Roteamento Inteligente de Models

Atuando como um classificador rápido para determinar se as consultas recebidas precisam ser escaladas para models mais caros.

Moderação de Conteúdo Multimodal

Análise de grandes lotes de imagens e vídeos gerados por usuários para conformidade de segurança a baixo custo.

Prototipagem de UI em Tempo Real

Geração de componentes funcionais em React ou Tailwind a partir de wireframes desenhados à mão ou descrições verbais.

Resumo de Documentos Longos

Condensação de arquivos jurídicos massivos ou manuais técnicos sem perder o contexto na context window de 1M de tokens.

Transcrição de Áudio ao Vivo

Conversão de horas de reuniões ou gravações de aulas em resumos estruturados e planos de ação em uma única passagem.

Pontos Fortes

Limitacoes

Desempenho Impressionante: Com 363 tokens por segundo, é um dos models mais rápidos da indústria para resposta em tempo real.
Baixa Recuperação Factual: Uma pontuação de 43,3% no SimpleQA indica um alto risco de alucinações para conhecimento geral sem grounding.
Reasoning Avançado: Atingindo 86,9% no GPQA Diamond, ele oferece lógica científica de nível de PhD em uma categoria leve.
Aumento de Preço: É significativamente mais caro que o antecessor Gemini 2.5 Flash-Lite que substitui na linha.
Controle de Custo Dinâmico: O parâmetro Thinking Levels permite um controle granular sobre o gasto computacional por requisição.
Maior Latency no Thinking alto: O uso do nível de thinking alto adiciona cerca de 7 a 10 segundos de pré-computação antes do início da geração.
Multimodality Unificada: A ingestão nativa de áudio, vídeo e PDFs elimina a necessidade de pipelines complexos de orquestração com múltiplos models.
Recusas de Segurança: Testes internos mostram uma queda de 21,7% na consistência de segurança de imagem para texto durante exercícios de red-teaming.

Inicio Rapido da API

google/gemini-3.1-flash-lite-preview

Ver Documentacao
google SDK
import { GoogleGenAI } from "@google/generative-ai";

const genAI = new GoogleGenAI(process.env.API_KEY);
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-lite-preview",
  generationConfig: {
    thinkingConfig: { thinking_level: "high" }
  }
});

const result = await model.generateContent("Crie uma UI de dashboard de clima.");
console.log(result.response.text());

Instale o SDK e comece a fazer chamadas de API em minutos.

O Que as Pessoas Estao Dizendo Sobre Gemini 3.1 Flash-Lite

Veja o que a comunidade pensa sobre Gemini 3.1 Flash-Lite

A capacidade de codificação do 3.1 Flash-Lite é surpreendentemente boa para desenvolvimento front-end; ele codificou um visualizador de 360 graus perfeitamente.
WorldofAI
youtube
O Gemini 3.1 Flash-Lite é o model para construir AI Agents multimodais sempre ativos. Ele lê, conecta e consolida tudo.
Shubham Saboo
twitter
O preço é um choque enorme. Um salto de 3,75x nos output tokens vai doer se você estiver com um orçamento de nuvem apertado.
Binary Verse AI
youtube
Isso transfere o ônus da complexidade da arquitetura da sua equipe de engenharia diretamente para a infraestrutura do Google.
Julian Goldie
youtube
Outra queda de preço pela inteligência. Alta velocidade, baixo custo, alta inteligência. Um ótimo model para roteamento agentic.
ctgtplb
twitter
O context de 1M ainda é o recurso matador aqui. Posso despejar pastas inteiras de repositórios e ele simplesmente funciona com TTFT de menos de um segundo.
DevFlow_26
reddit

Videos Sobre Gemini 3.1 Flash-Lite

Assista tutoriais, analises e discussoes sobre Gemini 3.1 Flash-Lite

Parece que conseguiram colocar muita inteligência neste model de alguma forma.

Eu o usaria para workloads de alto throughput que são muito bem definidos.

A capacidade de front-end do Flash-Lite é ainda melhor do que a maioria dos models com os quais já trabalhei.

Ele literalmente criou um visualizador totalmente funcional de uma só vez.

Este model é ideal para quem precisa de velocidade sem sacrificar toda a lógica.

Este model é o que chamaríamos de um cavalo de batalha... projetado especificamente para tarefas de alto throughput.

Se você executá-lo com um orçamento de thinking mínimo, ele basicamente funciona como um model sem reasoning e é extremamente rápido.

Ele fez um trabalho notavelmente bom no site que tivemos como saída.

A relação velocidade-custo é a verdadeira razão pela qual você moveria suas aplicações de produção para cá.

Ele lida com inputs multimodais nativamente, o que é uma grande vantagem sobre os concorrentes.

Alcançar quase 87% no GPQA Diamond com um model rotulado como 'lite' perturba todo o nosso sistema de categorização.

Não use este model como um oráculo factual... você tem que trazer os fatos para ele.

Com o 3.1 Flash-Lite, você evita disparar outros três microsserviços... essa simplicidade vale dinheiro real.

O aumento de 45% na velocidade de saída é sentido imediatamente na resposta de streaming.

Você está recebendo 1M de context por centavos, o que ainda parece mágica em produção.

Mais do que apenas prompts

Potencialize seu fluxo de trabalho com Automacao de IA

Automatio combina o poder de agentes de IA, automacao web e integracoes inteligentes para ajuda-lo a realizar mais em menos tempo.

Agentes de IA
Automacao Web
Fluxos Inteligentes

Dicas Profissionais para Gemini 3.1 Flash-Lite

Dicas de especialistas para ajuda-lo a aproveitar ao maximo Gemini 3.1 Flash-Lite e obter melhores resultados.

Configure os Thinking Levels

Use thinking mínimo para tarefas de classificação para reduzir custos, mas alterne para alto em tarefas complexas de programação.

Ative o Grounding

Use sempre o grounding do Google Search para tarefas que exijam recuperação de fatos, já que a precisão factual base é menor.

Envie arquivos brutos

Evite pré-processar áudio ou vídeo em texto; em vez disso, envie os arquivos brutos para aproveitar a multimodality nativa.

Use System Instructions

Force estritamente esquemas JSON usando o parâmetro system_instruction para minimizar tokens de correção de saída.

Depoimentos

O Que Nossos Usuarios Dizem

Junte-se a milhares de usuarios satisfeitos que transformaram seu fluxo de trabalho

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M

Perguntas Frequentes Sobre Gemini 3.1 Flash-Lite

Encontre respostas para perguntas comuns sobre Gemini 3.1 Flash-Lite