Ποιο είναι το context window για το Gemini 3.1 Flash Live;

Το μοντέλο υποστηρίζει context window 131.072 token για την είσοδο και 65.536 token για την έξοδο. Αυτό του επιτρέπει να διατηρεί τη μνήμη μακροσκελών συνομιλιών και να επεξεργάζεται σημαντικό ιστορικό εγγράφων κατά τη διάρκεια μιας ζωντανής συνεδρίας.

Πόσο κοστίζει το API;

Η είσοδος κειμένου κοστίζει $0,75 ανά 1 εκατομμύριο token και η έξοδος $4,50. Η είσοδος ήχου κοστίζει περίπου $0,005 ανά λεπτό, ενώ η έξοδος ήχου $0,018 ανά λεπτό.

Υποστηρίζει αυτό το μοντέλο function calling;

Ναι, το Gemini 3.1 Flash Live υποστηρίζει σύγχρονο function calling. Το μοντέλο διακόπτει την απόκριση ήχου για να εκτελέσει το εργαλείο και περιμένει το αποτέλεσμα του εργαλείου πριν συνεχίσει.

Πώς λειτουργεί το thinking σε αυτό το μοντέλο;

Το Gemini 3.1 Flash Live χρησιμοποιεί διαμορφώσιμα επίπεδα reasoning (minimal, low, medium, high) αντί για σταθερό budget σε token. Το 'minimal' είναι η προεπιλεγμένη ρύθμιση για τη διασφάλιση της χαμηλότερης δυνατής latency σε εφαρμογές φωνής.

Μπορεί να δει την οθόνη μου σε πραγματικό χρόνο;

Ναι, το μοντέλο μπορεί να επεξεργαστεί συνεχή καρέ βίντεο μέσω του Live API. Αυτό του επιτρέπει να αναλύει περιεχόμενο οθόνης ή feeds κάμερας ενώ συνομιλεί με τον χρήστη.

Υπάρχει διαθέσιμο δωρεάν επίπεδο;

Ναι, το Google AI Studio προσφέρει δωρεάν πρόσβαση στο Gemini 3.1 Flash Live Preview για δοκιμές και ανάπτυξη. Τα δεδομένα του δωρεάν επιπέδου ενδέχεται να χρησιμοποιηθούν για τη βελτίωση των προϊόντων της Google.

Ποιες γλώσσες υποστηρίζονται;

Το μοντέλο υποστηρίζει πάνω από 70 γλώσσες για κείμενο και ήχο. Αυτή η ευρεία γλωσσική κάλυψη υποστηρίζει παγκόσμια μετάφραση σε πραγματικό χρόνο και τοπική εξυπηρέτηση πελατών.

Gemini 3.1 Flash Live Preview

Το Gemini 3.1 Flash Live Preview είναι το ultra-low-latency, audio-to-audio μοντέλο της Google, με context window 131K, multimodal reasoning υψηλής πιστότητας...

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time

googleGemini26 Μαρτίου 2026

Περιβάλλον

131Ktokens

Μέγιστη έξοδος

66Ktokens

Τιμή εισόδου

$0.75/ 1M

Τιμή εξόδου

$4.50/ 1M

Τρόπος λειτουργίας:TextImageAudioVideo

Δυνατότητες:ΌρασηΕργαλείαStreamingΣυλλογιστική

Benchmarks

GPQA

94%

HLE

44%

MMLU

91%

MMLU Pro

89%

SimpleQA

80%

IFEval

88%

AIME 2025

95%

MATH

100%

GSM8k

99%

MGSM

92%

MathVista

72%

SWE-Bench

81%

HumanEval

73%

LiveCodeBench

80%

MMMU

69%

MMMU Pro

60%

ChartQA

90%

DocVQA

94%

Terminal-Bench

69%

ARC-AGI

77%

Προβολή τεκμηρίωσης API

Σχετικά με το Gemini 3.1 Flash Live Preview

Μάθετε για τις δυνατότητες, τα χαρακτηριστικά του Gemini 3.1 Flash Live Preview και πώς μπορεί να σας βοηθήσει να επιτύχετε καλύτερα αποτελέσματα.

Το Gemini 3.1 Flash Live Preview είναι ένα multimodal μοντέλο χαμηλής latency, σχεδιασμένο για διάλογο από ομιλία σε ομιλία σε πραγματικό χρόνο. Λειτουργεί με την αρχιτεκτονική Gemini 3 της Google. Ένας σχεδιασμός Sparse Mixture-of-Experts (MoE) διατηρεί υψηλές επιδόσεις μειώνοντας παράλληλα το κόστος inference. Τα παραδοσιακά μοντέλα εκτελούν speech-to-text και στη συνέχεια text-to-speech. Αυτό το μοντέλο επεξεργάζεται stream ήχου εγγενώς (natively). Ανιχνεύει ακουστικές αποχρώσεις όπως τόνο, συναίσθημα και θόρυβο υποβάθρου για φυσικές αλληλεπιδράσεις. Μάθετε περισσότερα στην επίσημη τεκμηρίωση.

Οι προγραμματιστές χρησιμοποιούν αυτό το μοντέλο για εφαρμογές φωνής που απαιτούν αριθμητική ακρίβεια και άμεση ανατροφοδότηση. Υποστηρίζει διαμορφώσιμα επίπεδα thinking που κυμαίνονται από minimal έως high. Αυτό επιτρέπει στους χρήστες να ισορροπούν το βάθος του reasoning με τις απαιτήσεις latency. Με context window 131.072 token και υποστήριξη για κείμενο, εικόνες και βίντεο, λειτουργεί ως μια ευέλικτη μηχανή. Οι στοχευμένες περιπτώσεις χρήσης περιλαμβάνουν agents πραγματικού χρόνου, αυτοματοποιημένη υποστήριξη πελατών και συνεργατικά περιβάλλοντα κώδικα.

Ο χειρισμός διακοπών και το φιλτράρισμα θορύβου το καθιστούν κατάλληλο για αναπτύξεις στον πραγματικό κόσμο. Το μοντέλο αγνοεί τον θόρυβο από σειρήνες και πλήθη ενώ διατηρεί τη ροή της συνομιλίας. Οι προγραμματιστές έχουν πρόσβαση μέσω του Live API, δημιουργώντας εφαρμογές για κινητά και περίπτερα χωρίς την ανάγκη ξεχωριστών υπηρεσιών μεταγραφής.

Περιπτώσεις χρήσης για Gemini 3.1 Flash Live Preview

Ανακαλύψτε τους διαφορετικούς τρόπους που μπορείτε να χρησιμοποιήσετε το Gemini 3.1 Flash Live Preview για εξαιρετικά αποτελέσματα.

Voice Agents σε πραγματικό χρόνο

Δημιουργήστε conversational AI που αποκρίνεται άμεσα στην ομιλία του χρήστη για υποστήριξη στον κλάδο της φιλοξενίας, των ταξιδιών και των logistics.

Live Multimodal Coaching

Παρέχει άμεση προπόνηση ή τεχνική καθοδήγηση αναλύοντας ταυτόχρονα το feed της κάμερας και τον ήχο του χρήστη.

Συνεργατικοί βοηθοί προγραμματισμού

Κατευθύνει ένα IDE για refactoring κώδικα και ενημέρωση στοιχείων UI μέσω συνεχών φωνητικών οδηγιών και διαμοιρασμού οθόνης.

Μετάφραση χαμηλής latency

Διευκολύνει τις διαγλωσσικές συνομιλίες μεταφράζοντας από ομιλία σε ομιλία με διατήρηση του συναισθηματικού context.

Υποστήριξη σε θορυβώδες περιβάλλον

Τροφοδοτεί περίπτερα εξυπηρέτησης πελατών σε περιοχές με μεγάλη κίνηση όπου το σύστημα πρέπει να φιλτράρει θορύβους από σειρήνες και πλήθη.

Διαδραστικό Gaming με NPC

Καθοδηγεί χαρακτήρες (non-player characters) που αποκρίνονται με φυσική φωνητική χροιά και αντιδρούν στις φυσικές κινήσεις του παίκτη.

Δυνατά σημεία

Περιορισμοί

Native επεξεργασία ήχου: Λειτουργεί αυστηρά από ομιλία σε ομιλία, ανιχνεύοντας λεκτικές αποχρώσεις όπως απογοήτευση ή σαρκασμό που διαφεύγουν από τα μοντέλα βασισμένα σε κείμενο.

Σύγχρονη χρήση εργαλείων: Το function calling λειτουργεί διαδοχικά, που σημαίνει ότι το μοντέλο σταματά εντελώς να μιλάει ενώ περιμένει αποκρίσεις από τα εργαλεία.

Επιδόσεις υψηλής ταχύτητας: Διαθέτει 2,5 φορές ταχύτερο Time to First Token (TTFT) σε σύγκριση με τους προκατόχους του.

Χαμηλότερη zero-shot λογική: Τα raw scores reasoning βρίσκονται κάτω από το flagship Gemini 3.1 Pro για σύνθετες εργασίες επιπέδου διδακτορικού.

Αποτελεσματικό φιλτράρισμα θορύβου: Διατηρεί ακρίβεια 95,9% στο Big Bench Audio ακόμα και σε θορυβώδη περιβάλλοντα όπως εστιατόρια ή πολυσύχναστοι δρόμοι.

Πολυπλοκότητα τιμολόγησης: Τα πολλαπλά επίπεδα τιμών για κείμενο, ήχο και βίντεο καθιστούν δύσκολη την πρόβλεψη του προϋπολογισμού για multimodal εφαρμογές.

Διαμορφώσιμο reasoning: Επιτρέπει στους προγραμματιστές να αυξομειώνουν το 'thinkingLevel' για να βρουν την ιδανική ισορροπία μεταξύ λογικής και ταχύτητας.

Κατάσταση Preview: Επί του παρόντος βρίσκεται σε έκδοση preview, γεγονός που υποβάλλει τους προγραμματιστές σε διακυμάνσεις των rate limits και μη ανακοινωμένες ρυθμίσεις συμπεριφοράς.

Γρήγορη εκκίνηση API

google/gemini-3.1-flash-live-preview

Προβολή τεκμηρίωσης

google SDK

import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

Εγκαταστήστε το SDK και αρχίστε να κάνετε κλήσεις API σε λίγα λεπτά.

Τι λένε οι άνθρωποι για το Gemini 3.1 Flash Live Preview

Δείτε τι πιστεύει η κοινότητα για το Gemini 3.1 Flash Live Preview

“Το Gemini 3.1 Flash-Lite κυκλοφορεί... το ταχύτερο και πιο οικονομικό μοντέλο της σειράς Gemini 3 μέχρι σήμερα.”

— BuildwithVignesh

“Αντιστοιχεί στην ποιότητα του 2.5 Flash με το κόστος του Flash-Lite. Μοντέλο low-latency, audio-to-audio, βελτιστοποιημένο για διάλογο σε πραγματικό χρόνο.”

— Google AI

twitter

“Το 3 Flash υποβαθμίζεται αρκετά καθώς αυξάνεται το context, αλλά αποτελεί τεράστια βελτίωση για την απόκριση σε πραγματικό χρόνο.”

— Pasto_Shouwa

“Η Google πραγματικά συμπιέζει τα περιθώρια στα input tokens με το 3.1 Flash. Γίνεται δύσκολο να δικαιολογηθεί η χρήση οτιδήποτε άλλου για απλούς agents.”

— AI_Dev_Master

hackernews

“Η native αρχιτεκτονική speech-to-speech εξαλείφει πλήρως τις άβολες παύσεις που έχεις με τα διαδοχικά μοντέλα μεταγραφής.”

— AIExplorer

youtube

“Δοκιμάζοντας το νέο Gemini 3.1 Flash Live Preview. Τα διαμορφώσιμα επίπεδα thinking είναι απίστευτα χρήσιμα για την ισορροπία μεταξύ ταχύτητας και reasoning.”

— DevGuru_X

twitter

Βίντεο για το Gemini 3.1 Flash Live Preview

Δείτε οδηγούς, κριτικές και συζητήσεις για το Gemini 3.1 Flash Live Preview

“Μιλάς, απαντάει αμέσως. Καμία καθυστέρηση, καμία φόρτωση, καμία περίεργη παύση. Είναι σαν να μιλάς σε πραγματικό άνθρωπο.”

“Σκοράρει 95,9% στο benchmark ήχου Big Bench. Είναι ό,τι καλύτερο υπάρχει στο reasoning ήχου.”

“Δεν του δίνεις οδηγίες και περιμένεις. Συν-δημιουργείς μαζί του σε πραγματικό χρόνο.”

“Το μοντέλο μπορεί να βλέπει την οθόνη σου καθώς γράφεις κώδικα και να συζητάει μαζί σου για τις αλλαγές.”

“Η τιμολόγηση χωρίζεται σε κείμενο και ήχο, οπότε πρέπει να υπολογίζεις προσεκτικά το κόστος σου.”

“Αντιλαμβάνεται τον τόνο, τον ρυθμό και τη διάθεσή σου. Αντιλαμβάνεται την απογοήτευση ή τη σύγχυση.”

“Το Gemini 3.1 Flash Live κατέχει την πρώτη θέση στον κόσμο στα πιο δύσκολα AI voice benchmarks.”

“Κατανοεί πραγματικά σύνθετα θέματα. Μπορείς να προσθέσεις reasoning στο επίπεδο του AI που διαθέτεις.”

“Μπορείς να το διακόψεις στη μέση της πρότασης και αμέσως σταματά και ακούει τη νέα οδηγία.”

“Το 128K context window σημαίνει ότι θυμάται την αρχή μιας συνομιλίας 30 λεπτών.”

“Δεν κάνει πλέον speech to text και μετά text to speech. Πηγαίνει κατευθείαν από ομιλία σε ομιλία.”

“Το πλεονέκτημα του agent να μπορεί να ακούει σε θορυβώδη περιβάλλοντα... όπως στην άκρη του δρόμου ή σε ένα θορυβώδες εστιατόριο.”

“Όταν το διέκοψα, η ταχύτητα με την οποία σταμάτησε να μιλάει... ήταν πραγματικά εντυπωσιακή.”

“Μπορείς να το συνδυάσεις με τοπικούς κώδικες-agents για να δίνεις φωνητικές εντολές κυριολεκτικά στον προγραμματισμό λογισμικού.”

“Το time to first token είναι περίπου 2,5 φορές ταχύτερο από την προηγούμενη γενιά.”

Περισσότερα από απλά prompts

Ενισχύστε τη ροή εργασίας σας με Αυτοματισμό AI

Το Automatio συνδυάζει τη δύναμη των AI agents, του web automation και των έξυπνων ενσωματώσεων για να σας βοηθήσει να επιτύχετε περισσότερα σε λιγότερο χρόνο.

AI Agents

Web Automation

Έξυπνες ροές εργασίας

Ξεκινήστε δωρεάν

Επαγγελματικές συμβουλές για Gemini 3.1 Flash Live Preview

Εξειδικευμένες συμβουλές για να αξιοποιήσετε στο έπακρο το Gemini 3.1 Flash Live Preview και να επιτύχετε καλύτερα αποτελέσματα.

Προσαρμογή επιπέδων thinking

Ορίστε το 'thinkingLevel' σε 'minimal' για τις πιο γρήγορες φωνητικές αποκρίσεις ή σε 'high' για σύνθετες λογικές εργασίες πολλαπλών βημάτων.

Χρήση σταδιακών ενημερώσεων

Στείλτε ενημερώσεις κειμένου μέσω του 'send_realtime_input' κατά τη διάρκεια ενεργών συνεδριών ήχου για να παρέχετε στο μοντέλο μεταβαλλόμενο context.

Βελτιστοποίηση κάλυψης turn

Ορίστε την κάλυψη turn σε 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' για πλήρη multimodal κατανόηση.

Αρχική τροφοδότηση context

Χρησιμοποιήστε το 'send_client_content' για να καθορίσετε το ιστορικό μιας συνομιλίας πριν ξεκινήσετε μια συνεδρία Live API για καλύτερη συνέχεια.

Μαρτυρίες

Τι λένε οι χρήστες μας

Ενταχθείτε στις χιλιάδες ικανοποιημένων χρηστών που έχουν μεταμορφώσει τη ροή εργασίας τους

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Mohammed Ibrahim

CEO, qannas.pro

Ben Bressington

CTO, AiChatSolutions

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Σχετικά AI Models

Claude Opus 4.7

Anthropic

Claude Opus 4.7 is Anthropic's flagship model with a 1-million-token context, adaptive reasoning, and 3.3x vision resolution for enterprise-scale agents.

1M context

$5.00/$25.00/1M

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context

$2.00/$12.00/1M

GPT-5.5

OpenAI

GPT-5.5 is OpenAI's flagship frontier model with a 1M context window and five reasoning effort levels, optimized for autonomous agentic workflows and coding.

1M context

$5.00/$30.00/1M

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context

$3.00/$15.00/1M

Kimi K3

Moonshot

Kimi K3 is Moonshot AI's 2.8T MoE model with a 1M token context window, native multimodal vision, and frontier-tier coding performance for complex agents.

1M context

$3.00/$15.00/1M

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context

$21.00/$168.00/1M

Qwen 3.7 Max

alibaba

Qwen 3.7 Max is Alibaba’s flagship AI model for deep reasoning and autonomous agent tasks, featuring a 256k context window and top-tier coding performance.

256K context

$1.20/$6.00/1M

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context

$2.00/$12.00/1M

Συχνές ερωτήσεις για Gemini 3.1 Flash Live Preview

Βρείτε απαντήσεις σε συνηθισμένες ερωτήσεις σχετικά με το Gemini 3.1 Flash Live Preview