Was kostet Gemini 3.1 Flash-Lite?

Der Preis liegt bei $0,25 pro 1 Million input tokens und $1,50 pro 1 Million output tokens.

Gibt es ein kostenloses Kontingent für Entwickler?

Ja, es ist als kostenlose Preview-Version über Google AI Studio zu Test- und Experimentierzwecken verfügbar.

Wie groß ist die maximale context window?

Das model unterstützt bis zu 1.048.576 tokens, was das Verarbeiten von ca. 700.000 Wörtern ermöglicht.

Kann ich mit diesem model Videodateien verarbeiten?

Ja, es kann nativ Videodateien mit einer Länge von bis zu einer Stunde oder einer Größe von 1,5 GB verarbeiten.

Was sind Thinking Levels?

Dieser parameter steuert die interne Zeit, die das model für die reasoning-Phase auf ein Problem verwendet, bevor die Antwort generiert wird.

Wie schneidet es im Vergleich zu Claude 4.5 Haiku ab?

Gemini 3.1 Flash-Lite ist bei den output tokens etwa 4x günstiger und übertrifft dabei Claude 4.5 Haiku in GPQA reasoning benchmarks.

Unterstützt es function calling?

Ja, es bietet volle Unterstützung für Tool-Use und function calling zur Erstellung autonomer agentic Workflows.

Wie hoch ist die output-Geschwindigkeit des models?

Das model erreicht Geschwindigkeiten von 363 tokens pro Sekunde und ist damit ideal für Anwendungen mit hohen Anforderungen an die latency.

Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite ist Googles schnellstes und kosteneffizientestes model. Mit 1M context, nativer Multimodalität und 363 tokens/Sek. Geschwindigkeit für...

MultimodalHohe GeschwindigkeitKosteneffizientGoogle Gemini

googleGemini 3.13. März 2026

Kontext

1.0MToken

Max. Ausgabe

66KToken

Eingabepreis

$0.25/ 1M

Ausgabepreis

$1.50/ 1M

Modalität:TextImageAudioVideo

Fähigkeiten:VisionToolsStreaming

Benchmarks

GPQA

86.9%

HLE

16%

MMLU

88.9%

MMLU Pro

80%

SimpleQA

43.3%

IFEval

85%

AIME 2025

25%

MATH

78%

GSM8k

95%

MGSM

92%

MathVista

75%

SWE-Bench

35%

HumanEval

88%

LiveCodeBench

72%

MMMU

76.8%

MMMU Pro

76.8%

ChartQA

91%

DocVQA

92%

Terminal-Bench

55%

ARC-AGI

12%

API-Dokumentation anzeigen

Über Gemini 3.1 Flash-Lite

Erfahren Sie mehr über die Fähigkeiten, Funktionen und Einsatzmöglichkeiten von Gemini 3.1 Flash-Lite.

Gemini 3.1 Flash-Lite ist für KI-Anwendungen mit hohem Volumen konzipiert, bei denen die Verarbeitungsgeschwindigkeit die primäre technische Anforderung darstellt. Im Gegensatz zu größeren Pro-models verwendet Flash-Lite eine optimierte Architektur, die den Durchsatz priorisiert und 363 tokens pro Sekunde erreicht. Es dient als spezialisiertes Werkzeug für Entwickler, die Echtzeit-Sprach-Agents, automatisierte Content-Moderationssysteme und große Datenextraktions-Pipelines bauen, die bei hohem Traffic kosteneffizient bleiben müssen.

Trotz der 'Lite'-Bezeichnung behält das model ein context window von 1 Million tokens bei. Es kann Roh-Audiodateien, einstündige Videos und Hunderte von PDF-Seiten in einer einzigen Anfrage verarbeiten. Durch die Einführung von Thinking Levels ermöglicht Google den Nutzern, zwischen fast sofortigen Antworten für einfache Aufgaben und einer tieferen Reasoning-Phase für komplexe Logik zu wählen. Dies bietet mehrere Leistungsprofile innerhalb eines einzigen API-Endpunkts, um Kosten und Genauigkeit auszubalancieren.

Das model ist nativ multimodal, wodurch externe Werkzeuge zur Transkription von Audio oder zur Beschreibung von Bildern vor der Verarbeitung überflüssig werden. Diese native Fähigkeit verbessert die Leistung bei visuellen Aufgaben wie der Beantwortung von Dokumentenfragen und der Analyse von Diagrammen. Entwickler können den thinking_level parameter nutzen, um die interne reasoning-Zeit anzupassen und so den Aufwand des models basierend auf der spezifischen Komplexität jeder Anfrage effektiv zu skalieren.

Anwendungsfälle für Gemini 3.1 Flash-Lite

Entdecken Sie die verschiedenen Möglichkeiten, Gemini 3.1 Flash-Lite für großartige Ergebnisse zu nutzen.

Hochvolumige Übersetzung

Verarbeitung Tausender mehrsprachiger Chat-Nachrichten oder Support-Tickets in Echtzeit mit einer latency unter einer Sekunde.

Intelligentes Model-Routing

Dient als schneller Klassifikator, um zu bestimmen, ob eingehende Anfragen an teurere models weitergeleitet werden müssen.

Multimodale Inhaltsmoderation

Kostengünstiges Scannen großer Mengen nutzergenerierter Bilder und Videos auf Sicherheitskonformität.

Echtzeit-UI-Prototyping

Generierung funktionaler React- oder Tailwind-Komponenten aus handgezeichneten Wireframes oder verbalen Beschreibungen.

Zusammenfassung langer Dokumente

Kompression umfangreicher juristischer Archive oder technischer Handbücher, ohne den Kontext über das 1M-token-Fenster hinweg zu verlieren.

Live-Audio-Transkription

Umwandlung stundenlanger Meetings oder Vorlesungsaufzeichnungen in strukturierte Zusammenfassungen und Action-Items in einem Durchgang.

Stärken

Einschränkungen

Überragende Performance: Mit 363 tokens pro Sekunde ist es eines der schnellsten models der Branche für Echtzeit-Reaktionsfähigkeit.

Geringe Fakten-Genauigkeit: Ein SimpleQA-Wert von 43,3 % deutet auf ein hohes Halluzinationsrisiko bei allgemeinem Wissen ohne Grounding hin.

Fortgeschrittenes Reasoning: Mit 86,9 % bei GPQA Diamond bietet es wissenschaftliche Logik auf PhD-Niveau in einer leichtgewichtigen Tier.

Preiserhöhung: Es ist deutlich teurer als der Vorgänger Gemini 2.5 Flash-Lite, den es in der Reihe ersetzt.

Dynamische Kostenkontrolle: Der Thinking Levels parameter ermöglicht eine granulare Steuerung der Compute-Kosten pro Anfrage.

Höhere latency bei hohem Thinking-Level: Die Nutzung des hohen Thinking-Levels fügt etwa 7 bis 10 Sekunden Vorberechnungszeit vor Beginn der Generierung hinzu.

Vereinte Multimodalität: Die native Aufnahme von Audio, Video und PDFs macht komplexe Multi-model-Orchestrierungs-Pipelines überflüssig.

Sicherheits-Refusals: Interne Tests zeigen einen Rückgang der Konsistenz bei der Bild-zu-Text-Sicherheit um 21,7 % während Red-Teaming-Übungen.

API-Schnellstart

google/gemini-3.1-flash-lite-preview

Dokumentation anzeigen

google SDK

import { GoogleGenAI } from "@google/generative-ai";

const genAI = new GoogleGenAI(process.env.API_KEY);
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-lite-preview",
  generationConfig: {
    thinkingConfig: { thinking_level: "high" }
  }
});

const result = await model.generateContent("Create a weather dashboard UI.");
console.log(result.response.text());

Installieren Sie das SDK und beginnen Sie in wenigen Minuten mit API-Aufrufen.

Was die Leute über Gemini 3.1 Flash-Lite sagen

Sehen Sie, was die Community über Gemini 3.1 Flash-Lite denkt

“Die Coding-Fähigkeiten von 3.1 Flash-Lite sind für die Front-End-Entwicklung überraschend gut; es hat einen 360-Grad-Viewer perfekt codiert.”

— WorldofAI

youtube

“Gemini 3.1 Flash-Lite ist das model, um KI-Agents zu bauen, die immer aktiv sind. Es liest, verbindet und fasst alles zusammen.”

— Shubham Saboo

twitter

“Die Preisgestaltung ist ein riesiger Schock. Ein 3,75-facher Anstieg bei den output tokens wird schmerzen, wenn man ein knappes Cloud-Budget hat.”

— Binary Verse AI

youtube

“Es verlagert die Last der Komplexität von der Architektur Ihres Engineering-Teams direkt auf die Infrastruktur von Google.”

— Julian Goldie

youtube

“Ein weiterer Preissturz für Intelligenz. Hohe Geschwindigkeit, niedrige Kosten, hohe Intelligenz. Ein großartiges model für agentic Routing.”

— ctgtplb

twitter

“Das 1M context-Fenster bleibt hier das Killer-Feature. Ich kann ganze Repo-Ordner hineinwerfen und es funktioniert einfach mit einer TTFT unter einer Sekunde.”

— DevFlow_26

Videos über Gemini 3.1 Flash-Lite

Schauen Sie Tutorials, Rezensionen und Diskussionen über Gemini 3.1 Flash-Lite

“Es scheint, als hätten sie irgendwie eine Menge Intelligenz in dieses model hineingepackt.”

“Ich würde es für Workloads mit hohem Durchsatz verwenden, die sehr genau definiert sind.”

“Die Front-End-Fähigkeiten des Flash-Lite sind sogar besser als die der meisten models, mit denen ich bisher gearbeitet habe.”

“Es hat buchstäblich einen voll funktionsfähigen Viewer in einem einzigen Anlauf erstellt.”

“Dieses model ist ideal für alle, die Geschwindigkeit brauchen, ohne auf Logik zu verzichten.”

“Dieses model ist das, was man ein Arbeitstier-model nennt... speziell für Aufgaben mit hohem Durchsatz entwickelt.”

“Wenn man es mit minimalem Thinking-Budget laufen lässt, funktioniert es im Grunde wie ein Modell ohne Reasoning und ist extrem schnell.”

“Es hat bei der Website, die wir als output erhalten haben, erstaunlich gute Arbeit geleistet.”

“Das Verhältnis von Geschwindigkeit zu Kosten ist der wahre Grund, warum man seine Produktions-Apps hierher verlagern sollte.”

“Es verarbeitet multimodale inputs nativ, was ein riesiger Vorteil gegenüber der Konkurrenz ist.”

“Fast 87 % bei GPQA Diamond mit einem als 'Lite' bezeichneten model zu erreichen, bringt unser gesamtes Kategorisierungssystem durcheinander.”

“Verwenden Sie dieses model nicht als Fakten-Orakel... Sie müssen die Fakten selbst liefern.”

“Mit 3.1 Flash-Lite vermeiden Sie es, drei andere Microservices zu starten... diese Einfachheit ist bares Geld wert.”

“Die 45-prozentige Steigerung der output-Geschwindigkeit ist bei der Streaming-Antwort sofort spürbar.”

“Sie erhalten 1M context für einen Bruchteil der Kosten, was sich in der Produktion immer noch wie Magie anfühlt.”

Mehr als nur Prompts

Optimieren Sie Ihren Workflow mit KI-Automatisierung

Automatio kombiniert die Kraft von KI-Agenten, Web-Automatisierung und intelligenten Integrationen, um Ihnen zu helfen, mehr in weniger Zeit zu erreichen.

KI-Agenten

Web-Automatisierung

Intelligente Workflows

Kostenlos Starten

Pro-Tipps für Gemini 3.1 Flash-Lite

Expertentipps, um das Beste aus Gemini 3.1 Flash-Lite herauszuholen.

Thinking Levels festlegen

Nutzen Sie für Klassifizierungen minimale Thinking Levels, um Kosten zu senken, und schalten Sie bei komplexen Coding-Aufgaben auf hoch.

Grounding aktivieren

Verwenden Sie für Aufgaben, die faktische Genauigkeit erfordern, immer Google Search Grounding, da die grundlegende Fakten-Genauigkeit geringer ist.

Rohdaten hochladen

Vermeiden Sie das Vorverarbeiten von Audio oder Video in Text; laden Sie stattdessen Rohdateien hoch, um die native Multimodalität zu nutzen.

System Instructions verwenden

Erzwingen Sie JSON-Schemas strikt über den system_instruction parameter, um output-Korrektur-tokens zu minimieren.

Erfahrungsberichte

Was Unsere Nutzer Sagen

Schliessen Sie sich Tausenden zufriedener Nutzer an, die ihren Workflow transformiert haben

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Mohammed Ibrahim

CEO, qannas.pro

Ben Bressington

CTO, AiChatSolutions

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Häufig gestellte Fragen zu Gemini 3.1 Flash-Lite

Finden Sie Antworten auf häufige Fragen zu Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite

Über Gemini 3.1 Flash-Lite

Anwendungsfälle für Gemini 3.1 Flash-Lite

Hochvolumige Übersetzung

Intelligentes Model-Routing

Multimodale Inhaltsmoderation

Echtzeit-UI-Prototyping

Zusammenfassung langer Dokumente

Live-Audio-Transkription

Stärken

Einschränkungen

API-Schnellstart

Was die Leute über Gemini 3.1 Flash-Lite sagen

Videos über Gemini 3.1 Flash-Lite

Optimieren Sie Ihren Workflow mit KI-Automatisierung

Pro-Tipps für Gemini 3.1 Flash-Lite

Thinking Levels festlegen

Grounding aktivieren

Rohdaten hochladen

System Instructions verwenden

Was Unsere Nutzer Sagen

Verwandte AI Models

Claude Opus 4.5

Grok-4

GLM-5.1

Kimi K2.5

Qwen3.6-Max-Preview

GLM-5

GPT-5.1

GPT-5.2

Häufig gestellte Fragen zu Gemini 3.1 Flash-Lite

Was kostet Gemini 3.1 Flash-Lite?

Gibt es ein kostenloses Kontingent für Entwickler?

Wie groß ist die maximale context window?

Kann ich mit diesem model Videodateien verarbeiten?

Was sind Thinking Levels?

Wie schneidet es im Vergleich zu Claude 4.5 Haiku ab?

Unterstützt es function calling?

Wie hoch ist die output-Geschwindigkeit des models?