Який розмір контекстного вікна у Gemini 3.1 Flash Live?

Модель підтримує контекстне вікно на 131 072 tokens для вводу та 65 536 tokens для виводу. Це дозволяє їй «запам'ятовувати» тривалі розмови та опрацьовувати значні обсяги історії документів під час активної сесії.

Скільки коштує API?

Ввід тексту коштує $0.75 за 1 мільйон tokens, а вивід, $4.50. Ввід аудіо коштує приблизно $0.005 за хвилину, а вивід аудіо, $0.018 за хвилину.

Чи підтримує ця модель function calling?

Так, Gemini 3.1 Flash Live підтримує синхронний function calling. Модель призупиняє свою аудіовідповідь для виконання функції та очікує на її результат перед продовженням.

Як працює механізм «мислення» (thinking) у цій моделі?

Gemini 3.1 Flash Live використовує настроювані рівні reasoning (мінімальний, низький, середній, високий) замість фіксованого ліміту tokens. Налаштування за замовчуванням, мінімальне, що забезпечує найменшу latency у голосових програмах.

Чи може вона бачити мій екран у режимі реального часу?

Так, модель може приймати безперервні кадри відео через Live API. Це дозволяє їй аналізувати вміст екрана або відеопотік з камери під час спілкування з користувачем.

Чи є безкоштовний рівень доступу?

Так, Google AI Studio пропонує безкоштовний доступ до Gemini 3.1 Flash Live Preview для тестування та розробки. Дані з безкоштовного рівня можуть використовуватися для покращення продуктів Google.

Які мови підтримуються?

Модель підтримує понад 70 мов для тексту та аудіо. Таке широке мовне охоплення підтримує глобальний переклад у реальному часі та локалізовану підтримку клієнтів.

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview — це модель Google з ультранизькою latency, що працює в режимі аудіо-в-аудіо, з контекстним вікном 131K, високоякісним...

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time

googleGemini26 березня 2026 р.

Контекст

131Kтокенів

Макс. вивід

66Kтокенів

Ціна вводу

$0.75/ 1M

Ціна виводу

$4.50/ 1M

Модальність:TextImageAudioVideo

Можливості:ЗірІнструментиПотокова передачаМіркування

Бенчмарки

GPQA

94%

HLE

44%

MMLU

91%

MMLU Pro

89%

SimpleQA

80%

IFEval

88%

AIME 2025

95%

MATH

100%

GSM8k

99%

MGSM

92%

MathVista

72%

SWE-Bench

81%

HumanEval

73%

LiveCodeBench

80%

MMMU

69%

MMMU Pro

60%

ChartQA

90%

DocVQA

94%

Terminal-Bench

69%

ARC-AGI

77%

Переглянути документацію API

Про Gemini 3.1 Flash Live Preview

Дізнайтеся про можливості Gemini 3.1 Flash Live Preview, функції та як це може допомогти вам досягти кращих результатів.

Gemini 3.1 Flash Live Preview, це мультимодальна модель з низькою latency, розроблена для діалогів аудіо-в-аудіо у реальному часі. Вона працює на архітектурі Gemini 3 від Google. Конструкція Sparse Mixture-of-Experts (MoE) дозволяє підтримувати високу продуктивність при зниженні витрат на inference. Традиційні моделі виконують перетворення мови в текст, а потім тексту в мову. Ця модель обробляє аудіопотоки нативно. Вона виявляє акустичні нюанси, такі як тон, емоції та фоновий шум для природної взаємодії. Дізнайтеся більше в офіційній документації.

Розробники використовують цю модель для голосових програм, що вимагають чисельної точності та миттєвого відгуку. Вона підтримує настроювані рівні мислення (thinking levels), від мінімального до високого. Це дозволяє користувачам збалансувати глибину reasoning відповідно до вимог щодо latency. Завдяки контекстному вікну на 131 072 tokens та підтримці тексту, зображень і відео, вона слугує універсальним двигуном. Основні сценарії використання включають агентів реального часу, автоматизовану підтримку клієнтів та середовища для спільного написання коду.

Обробка переривань та фільтрація шумів роблять її придатною для розгортання в реальних умовах. Модель ігнорує шуми сирен та натовпу, зберігаючи потік розмови. Розробники отримують доступ через Live API, створюючи мобільні додатки та кіоски без використання окремих сервісів транскрипції.

Випадки використання для Gemini 3.1 Flash Live Preview

Відкрийте різні способи використання Gemini 3.1 Flash Live Preview для досягнення чудових результатів.

Голосові агенти реального часу

Створення conversational AI, що миттєво реагує на мову користувача для підтримки у сферах гостинності, туризму та логістики.

Мультимодальний коучинг

Забезпечення негайного фітнес- або технічного тренінгу шляхом одночасного аналізу відеопотоку з камери та аудіо користувача.

Асистенти для спільного програмування

Керування IDE для рефакторингу коду та оновлення UI-компонентів через постійні голосові інструкції та демонстрацію екрана.

Переклад з низькою latency

Сприяння міжмовним розмовам шляхом перекладу мови в мову зі збереженням емоційного контексту.

Підтримка у шумному середовищі

Робота кіосків підтримки клієнтів у людних місцях, де система повинна відфільтровувати шуми сирен та натовпу.

Інтерактивні ігрові NPC

Керування ігровими персонажами, які відповідають з природною вокальною інтонацією та реагують на фізичні рухи гравця.

Сильні сторони

Обмеження

Нативна обробка аудіо: Працює безпосередньо у режимі мова-в-мову, розпізнаючи вербальні нюанси, такі як розчарування чи сарказм, які пропускають текстові моделі.

Синхронне використання інструментів: Function calling працює послідовно: модель повністю припиняє говорити, поки очікує на відповідь від інструмента.

Висока швидкість роботи: Забезпечує у 2.5 раза швидший Time to First Token (TTFT) порівняно з попередніми версіями.

Нижчий рівень zero-shot логіки: Показники логічного мислення нижчі, ніж у flagship моделі Gemini 3.1 Pro для складних завдань рівня PhD.

Надійна фільтрація шумів: Підтримує 95.9% точності на Big Bench Audio навіть у шумних місцях, таких як ресторани чи жваві дороги.

Складність ціноутворення: Наявність різних тарифів для тексту, аудіо та відео ускладнює прогнозування бюджету для мультимодальних додатків.

Настроюване reasoning: Дозволяє розробникам регулювати 'thinkingLevel' для досягнення оптимального балансу між логікою та швидкістю.

Статус Preview: Наразі модель знаходиться на стадії попереднього перегляду, що означає можливість зміни лімітів та неочікувані коригування поведінки моделі.

Швидкий старт API

google/gemini-3.1-flash-live-preview

Переглянути документацію

google SDK

import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

Встановіть SDK і почніть робити API-виклики за лічені хвилини.

Що кажуть люди про Gemini 3.1 Flash Live Preview

Подивіться, що думає спільнота про Gemini 3.1 Flash Live Preview

“Gemini 3.1 Flash-Lite виходить у світ... найшвидша та найефективніша за вартістю модель серії Gemini 3.”

— BuildwithVignesh

“Відповідає якості 2.5 Flash за ціною Flash-Lite. Модель з низькою latency для аудіо-в-аудіо, оптимізована для діалогів у реальному часі.”

— Google AI

twitter

“3 Flash значно втрачає якість при збільшенні контексту, але це величезний крок уперед для чуйності в реальному часі.”

— Pasto_Shouwa

“Google дійсно скорочує маржу на вхідних tokens з 3.1 Flash. Стає важко виправдати використання чогось іншого для простих агентів.”

— AI_Dev_Master

hackernews

“Архітектура мова-в-мову повністю усуває незручні паузи, які виникають із каскадними моделями транскрипції.”

— AIExplorer

youtube

“Тестую новий Gemini 3.1 Flash Live Preview. Настроювані рівні мислення надзвичайно корисні для балансу між швидкістю та reasoning.”

— DevGuru_X

twitter

Відео про Gemini 3.1 Flash Live Preview

Дивіться навчальні матеріали, огляди та обговорення про Gemini 3.1 Flash Live Preview

“«Ви говорите, він відповідає миттєво. Жодних затримок, жодних завантажень, жодних дивних пауз. Це схоже на розмову з реальною людиною.»”

“«Він набирає 95.9% на бенчмарку Big Bench audio. Це найкращий результат у класі для аудіо reasoning.»”

“«Ви не просто даєте інструкції та чекаєте. Ви спільно створюєте разом з ним у реальному часі.»”

“«Модель може бачити ваш екран, поки ви програмуєте, і спілкуватися з вами щодо змін.»”

“«Ціноутворення розділене між текстом та аудіо, тому потрібно ретельно рахувати витрати.»”

“«Він вловлює ваш тон, ваш темп і ваш настрій. Він помічає розчарування чи розгубленість.»”

“«Gemini 3.1 Flash Live займає перше місце у світі за найскладнішими бенчмарками голосового AI.»”

“«Він справді розуміє складні теми. Ви можете додавати reasoning до рівня AI, який у вас є.»”

“«Ви можете перебити його посеред речення, і він негайно зупиниться та вислухає нову інструкцію.»”

“«Контекстне вікно на 128K означає, що він пам'ятає початок 30-хвилинної розмови.»”

“«Це вже не просто перетворення мови в текст, а потім тексту в мову. Це чистий процес мова-в-мову.»”

“«Здатність агента слухати в шумному середовищі... як-от на узбіччі дороги чи в шумному ресторані.»”

“«Те, як швидко він припинив говорити, коли я його перебив... це було справді вражаюче.»”

“«Ви можете поєднати це з локальними агентами коду, щоб буквально керувати розробкою програмного забезпечення голосом.»”

“«Час до першого token приблизно у 2.5 раза швидший, ніж у попередньому поколінні.»”

Більше ніж просто промпти

Прискорте вашу роботу з AI-автоматизацією

Automatio поєднує силу AI-агентів, веб-автоматизації та розумних інтеграцій, щоб допомогти вам досягти більшого за менший час.

AI-агенти

Веб-автоматизація

Розумні робочі процеси

Почати безкоштовно

Професійні поради для Gemini 3.1 Flash Live Preview

Експертні поради, які допоможуть вам отримати максимум від Gemini 3.1 Flash Live Preview та досягти кращих результатів.

Налаштування рівнів мислення (Thinking Levels)

Встановіть 'thinkingLevel' на 'minimal' для максимально швидких голосових відповідей або на 'high' для складних багатоетапних логічних завдань.

Використання інкрементальних оновлень

Надсилайте текстові оновлення через 'send_realtime_input' під час активних аудіосесій, щоб надавати моделі контекст, що постійно змінюється.

Оптимізація покриття черги (Turn Coverage)

Встановіть параметр turn coverage на 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' для повного мультимодального розуміння.

Встановлення початкового контексту

Використовуйте 'send_client_content' для встановлення історії розмови перед запуском сесії Live API для кращої послідовності.

Відгуки

Що кажуть наші користувачі

Приєднуйтесь до тисяч задоволених користувачів, які трансформували свою роботу

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Mohammed Ibrahim

CEO, qannas.pro

Ben Bressington

CTO, AiChatSolutions

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Пов'язані AI Models

Claude Opus 4.7

Anthropic

Claude Opus 4.7 is Anthropic's flagship model with a 1-million-token context, adaptive reasoning, and 3.3x vision resolution for enterprise-scale agents.

1M context

$5.00/$25.00/1M

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context

$2.00/$12.00/1M

GPT-5.5

OpenAI

GPT-5.5 is OpenAI's flagship frontier model with a 1M context window and five reasoning effort levels, optimized for autonomous agentic workflows and coding.

1M context

$5.00/$30.00/1M

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context

$3.00/$15.00/1M

Kimi K3

Moonshot

Kimi K3 is Moonshot AI's 2.8T MoE model with a 1M token context window, native multimodal vision, and frontier-tier coding performance for complex agents.

1M context

$3.00/$15.00/1M

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context

$21.00/$168.00/1M

Qwen 3.7 Max

alibaba

Qwen 3.7 Max is Alibaba’s flagship AI model for deep reasoning and autonomous agent tasks, featuring a 256k context window and top-tier coding performance.

256K context

$1.20/$6.00/1M

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context

$2.00/$12.00/1M

Часті запитання про Gemini 3.1 Flash Live Preview

Знайдіть відповіді на поширені запитання про Gemini 3.1 Flash Live Preview