Quanto custa o Gemini 3.1 Flash-Lite?

O preço é de $0,25 por 1 milhão de input tokens e $1,50 por 1 milhão de output tokens.

Existe um plano gratuito para desenvolvedores?

Sim, está disponível gratuitamente em preview através do Google AI Studio para testes e experimentação.

Qual é a context window máxima?

O model suporta até 1.048.576 tokens, permitindo a ingestão de aproximadamente 700.000 palavras.

Posso processar arquivos de vídeo com este model?

Sim, ele pode processar nativamente arquivos de vídeo de até 1 hora de duração ou 1,5 GB de tamanho.

O que são Thinking Levels?

Este parâmetro permite controlar o tempo de reasoning interno que o model gasta em um problema antes de gerar a saída.

Como ele se compara ao Claude 4.5 Haiku?

O Gemini 3.1 Flash-Lite é cerca de 4x mais barato em output tokens e supera o Haiku em benchmarks de reasoning GPQA.

Ele suporta function calling?

Sim, ele tem suporte total para tool use e function calling para a criação de fluxos de trabalho de agentes autônomos (agentic workflows).

Qual é a velocidade de saída do model?

O model atinge velocidades de 363 tokens por segundo, sendo ideal para aplicações sensíveis à latency.

Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite é o model mais rápido e eficiente em termos de custo do Google. Possui 1M de context, multimodality nativa e 363 tokens/seg.

MultimodalAlta VelocidadeEficiente em CustoGoogle Gemini

googleGemini 3.13 de março de 2026

Contexto

1.0Mtokens

Saida Max

66Ktokens

Preco Entrada

$0.25/ 1M

Preco Saida

$1.50/ 1M

Modalidade:TextImageAudioVideo

Capacidades:VisaoFerramentasStreaming

Benchmarks

GPQA

86.9%

HLE

16%

MMLU

88.9%

MMLU Pro

80%

SimpleQA

43.3%

IFEval

85%

AIME 2025

25%

MATH

78%

GSM8k

95%

MGSM

92%

MathVista

75%

SWE-Bench

35%

HumanEval

88%

LiveCodeBench

72%

MMMU

76.8%

MMMU Pro

76.8%

ChartQA

91%

DocVQA

92%

Terminal-Bench

55%

ARC-AGI

12%

Ver Documentacao da API

Sobre Gemini 3.1 Flash-Lite

Aprenda sobre as capacidades do Gemini 3.1 Flash-Lite, recursos e como ele pode ajuda-lo a obter melhores resultados.

O Gemini 3.1 Flash-Lite foi projetado para aplicações de IA de alto volume, onde a velocidade de processamento é o requisito técnico principal. Diferente dos models Pro maiores, o Flash-Lite usa uma arquitetura simplificada que prioriza o throughput, atingindo 363 tokens por segundo. Ele serve como uma ferramenta especializada para desenvolvedores que constroem agentes de voz em tempo real, sistemas automatizados de moderação de conteúdo e pipelines de extração de dados em larga escala que precisam permanecer rentáveis sob tráfego intenso.

Apesar da designação 'lite', o model mantém uma context window de 1 milhão de tokens. Ele pode ingerir arquivos de áudio brutos, vídeos de uma hora e centenas de páginas de PDFs em uma única requisição. Ao introduzir os Thinking Levels, o Google permite que os usuários escolham entre respostas quase instantâneas para tarefas simples e uma fase de reasoning mais profunda para lógica complexa. Isso oferece múltiplos perfis de desempenho dentro de um único endpoint de API para equilibrar custo e precisão.

O model é nativamente multimodal, o que elimina a necessidade de ferramentas externas para transcrever áudio ou descrever imagens antes do processamento. Essa capacidade nativa melhora o desempenho em tarefas visuais como respostas a perguntas sobre documentos e análise de gráficos. Os desenvolvedores podem usar o parâmetro thinking_level para ajustar o tempo de reasoning interno, escalando efetivamente o esforço do model com base na complexidade específica de cada consulta.

Casos de Uso para Gemini 3.1 Flash-Lite

Descubra as diferentes maneiras de usar Gemini 3.1 Flash-Lite para obter otimos resultados.

Tradução de Alto Volume

Processamento de milhares de mensagens de chat ou tickets de suporte multilíngues em tempo real com latency inferior a um segundo.

Roteamento Inteligente de Models

Atuando como um classificador rápido para determinar se as consultas recebidas precisam ser escaladas para models mais caros.

Moderação de Conteúdo Multimodal

Análise de grandes lotes de imagens e vídeos gerados por usuários para conformidade de segurança a baixo custo.

Prototipagem de UI em Tempo Real

Geração de componentes funcionais em React ou Tailwind a partir de wireframes desenhados à mão ou descrições verbais.

Resumo de Documentos Longos

Condensação de arquivos jurídicos massivos ou manuais técnicos sem perder o contexto na context window de 1M de tokens.

Transcrição de Áudio ao Vivo

Conversão de horas de reuniões ou gravações de aulas em resumos estruturados e planos de ação em uma única passagem.

Pontos Fortes

Limitacoes

Desempenho Impressionante: Com 363 tokens por segundo, é um dos models mais rápidos da indústria para resposta em tempo real.

Baixa Recuperação Factual: Uma pontuação de 43,3% no SimpleQA indica um alto risco de alucinações para conhecimento geral sem grounding.

Reasoning Avançado: Atingindo 86,9% no GPQA Diamond, ele oferece lógica científica de nível de PhD em uma categoria leve.

Aumento de Preço: É significativamente mais caro que o antecessor Gemini 2.5 Flash-Lite que substitui na linha.

Controle de Custo Dinâmico: O parâmetro Thinking Levels permite um controle granular sobre o gasto computacional por requisição.

Maior Latency no Thinking alto: O uso do nível de thinking alto adiciona cerca de 7 a 10 segundos de pré-computação antes do início da geração.

Multimodality Unificada: A ingestão nativa de áudio, vídeo e PDFs elimina a necessidade de pipelines complexos de orquestração com múltiplos models.

Recusas de Segurança: Testes internos mostram uma queda de 21,7% na consistência de segurança de imagem para texto durante exercícios de red-teaming.

Inicio Rapido da API

google/gemini-3.1-flash-lite-preview

Ver Documentacao

google SDK

import { GoogleGenAI } from "@google/generative-ai";

const genAI = new GoogleGenAI(process.env.API_KEY);
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-lite-preview",
  generationConfig: {
    thinkingConfig: { thinking_level: "high" }
  }
});

const result = await model.generateContent("Crie uma UI de dashboard de clima.");
console.log(result.response.text());

Instale o SDK e comece a fazer chamadas de API em minutos.

O Que as Pessoas Estao Dizendo Sobre Gemini 3.1 Flash-Lite

Veja o que a comunidade pensa sobre Gemini 3.1 Flash-Lite

“A capacidade de codificação do 3.1 Flash-Lite é surpreendentemente boa para desenvolvimento front-end; ele codificou um visualizador de 360 graus perfeitamente.”

— WorldofAI

youtube

“O Gemini 3.1 Flash-Lite é o model para construir AI Agents multimodais sempre ativos. Ele lê, conecta e consolida tudo.”

— Shubham Saboo

twitter

“O preço é um choque enorme. Um salto de 3,75x nos output tokens vai doer se você estiver com um orçamento de nuvem apertado.”

— Binary Verse AI

youtube

“Isso transfere o ônus da complexidade da arquitetura da sua equipe de engenharia diretamente para a infraestrutura do Google.”

— Julian Goldie

youtube

“Outra queda de preço pela inteligência. Alta velocidade, baixo custo, alta inteligência. Um ótimo model para roteamento agentic.”

— ctgtplb

twitter

“O context de 1M ainda é o recurso matador aqui. Posso despejar pastas inteiras de repositórios e ele simplesmente funciona com TTFT de menos de um segundo.”

— DevFlow_26

Videos Sobre Gemini 3.1 Flash-Lite

Assista tutoriais, analises e discussoes sobre Gemini 3.1 Flash-Lite

“Parece que conseguiram colocar muita inteligência neste model de alguma forma.”

“Eu o usaria para workloads de alto throughput que são muito bem definidos.”

“A capacidade de front-end do Flash-Lite é ainda melhor do que a maioria dos models com os quais já trabalhei.”

“Ele literalmente criou um visualizador totalmente funcional de uma só vez.”

“Este model é ideal para quem precisa de velocidade sem sacrificar toda a lógica.”

“Este model é o que chamaríamos de um cavalo de batalha... projetado especificamente para tarefas de alto throughput.”

“Se você executá-lo com um orçamento de thinking mínimo, ele basicamente funciona como um model sem reasoning e é extremamente rápido.”

“Ele fez um trabalho notavelmente bom no site que tivemos como saída.”

“A relação velocidade-custo é a verdadeira razão pela qual você moveria suas aplicações de produção para cá.”

“Ele lida com inputs multimodais nativamente, o que é uma grande vantagem sobre os concorrentes.”

“Alcançar quase 87% no GPQA Diamond com um model rotulado como 'lite' perturba todo o nosso sistema de categorização.”

“Não use este model como um oráculo factual... você tem que trazer os fatos para ele.”

“Com o 3.1 Flash-Lite, você evita disparar outros três microsserviços... essa simplicidade vale dinheiro real.”

“O aumento de 45% na velocidade de saída é sentido imediatamente na resposta de streaming.”

“Você está recebendo 1M de context por centavos, o que ainda parece mágica em produção.”

Mais do que apenas prompts

Potencialize seu fluxo de trabalho com Automacao de IA

Automatio combina o poder de agentes de IA, automacao web e integracoes inteligentes para ajuda-lo a realizar mais em menos tempo.

Agentes de IA

Automacao Web

Fluxos Inteligentes

Comece Gratis

Dicas Profissionais para Gemini 3.1 Flash-Lite

Dicas de especialistas para ajuda-lo a aproveitar ao maximo Gemini 3.1 Flash-Lite e obter melhores resultados.

Configure os Thinking Levels

Use thinking mínimo para tarefas de classificação para reduzir custos, mas alterne para alto em tarefas complexas de programação.

Ative o Grounding

Use sempre o grounding do Google Search para tarefas que exijam recuperação de fatos, já que a precisão factual base é menor.

Envie arquivos brutos

Evite pré-processar áudio ou vídeo em texto; em vez disso, envie os arquivos brutos para aproveitar a multimodality nativa.

Use System Instructions

Force estritamente esquemas JSON usando o parâmetro system_instruction para minimizar tokens de correção de saída.

Depoimentos

O Que Nossos Usuarios Dizem

Junte-se a milhares de usuarios satisfeitos que transformaram seu fluxo de trabalho

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Mohammed Ibrahim

CEO, qannas.pro

Ben Bressington

CTO, AiChatSolutions

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context

$5.00/$25.00/1M

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context

$3.00/$15.00/1M

GLM-5.1

Zhipu (GLM)

GLM-5.1 is Zhipu AI's flagship reasoning model, featuring a 202K context window and an autonomous 8-hour execution loop for complex agentic engineering.

203K context

$1.40/$4.40/1M

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context

$0.60/$3.00/1M

Qwen3.6-Max-Preview

alibaba

Qwen3.6-Max-Preview is Alibaba's flagship MoE model featuring 1M context, a native thinking mode, and SOTA scores in agentic coding and reasoning.

1M context

$1.25/$10.00/1M

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context

$1.00/$3.20/1M

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context

$1.25/$10.00/1M

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context

$1.75/$14.00/1M

Perguntas Frequentes Sobre Gemini 3.1 Flash-Lite

Encontre respostas para perguntas comuns sobre Gemini 3.1 Flash-Lite