google

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview — це модель Google з ультранизькою latency, що працює в режимі аудіо-в-аудіо, з контекстним вікном 131K, високоякісним...

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time
google logogoogleGemini26 березня 2026 р.
Контекст
131Kтокенів
Макс. вивід
66Kтокенів
Ціна вводу
$0.75/ 1M
Ціна виводу
$4.50/ 1M
Модальність:TextImageAudioVideo
Можливості:ЗірІнструментиПотокова передачаМіркування
Бенчмарки
GPQA
94%
GPQA: Наукові питання рівня аспірантури. Строгий бенчмарк з 448 питаннями з біології, фізики та хімії. Експерти PhD досягають лише 65-74% точності. Gemini 3.1 Flash Live Preview набрав 94% у цьому бенчмарку.
HLE
44%
HLE: Експертне міркування високого рівня. Тестує здатність моделі демонструвати міркування експертного рівня в спеціалізованих областях. Gemini 3.1 Flash Live Preview набрав 44% у цьому бенчмарку.
MMLU
91%
MMLU: Масове багатозадачне розуміння мови. Комплексний бенчмарк з 16 000 питань з 57 академічних предметів. Gemini 3.1 Flash Live Preview набрав 91% у цьому бенчмарку.
MMLU Pro
89%
MMLU Pro: MMLU Професійна версія. Покращена версія MMLU з 12 032 питаннями та складнішим форматом з 10 варіантами відповідей. Gemini 3.1 Flash Live Preview набрав 89% у цьому бенчмарку.
SimpleQA
80%
SimpleQA: Бенчмарк фактичної точності. Тестує здатність моделі надавати точні, фактичні відповіді. Gemini 3.1 Flash Live Preview набрав 80% у цьому бенчмарку.
IFEval
88%
IFEval: Оцінка виконання інструкцій. Вимірює, наскільки добре модель виконує конкретні інструкції та обмеження. Gemini 3.1 Flash Live Preview набрав 88% у цьому бенчмарку.
AIME 2025
95%
AIME 2025: Американський запрошувальний математичний іспит. Математичні задачі змагального рівня з престижного іспиту AIME. Gemini 3.1 Flash Live Preview набрав 95% у цьому бенчмарку.
MATH
100%
MATH: Математичне розв'язування задач. Комплексний математичний бенчмарк, що тестує розв'язування задач з алгебри, геометрії, аналізу. Gemini 3.1 Flash Live Preview набрав 100% у цьому бенчмарку.
GSM8k
99%
GSM8k: Математика початкової школи 8K. 8 500 математичних текстових задач рівня початкової школи. Gemini 3.1 Flash Live Preview набрав 99% у цьому бенчмарку.
MGSM
92%
MGSM: Багатомовна математика початкової школи. Бенчмарк GSM8k, перекладений 10 мовами. Gemini 3.1 Flash Live Preview набрав 92% у цьому бенчмарку.
MathVista
72%
MathVista: Математичне візуальне міркування. Тестує здатність розв'язувати математичні задачі з візуальними елементами. Gemini 3.1 Flash Live Preview набрав 72% у цьому бенчмарку.
SWE-Bench
81%
SWE-Bench: Бенчмарк програмної інженерії. AI-моделі намагаються вирішити реальні проблеми GitHub у проектах Python. Gemini 3.1 Flash Live Preview набрав 81% у цьому бенчмарку.
HumanEval
73%
HumanEval: Задачі програмування на Python. 164 задачі програмування, де моделі повинні згенерувати правильні реалізації функцій Python. Gemini 3.1 Flash Live Preview набрав 73% у цьому бенчмарку.
LiveCodeBench
80%
LiveCodeBench: Живий бенчмарк програмування. Тестує здібності програмування на постійно оновлюваних реальних завданнях. Gemini 3.1 Flash Live Preview набрав 80% у цьому бенчмарку.
MMMU
69%
MMMU: Мультимодальне розуміння. Бенчмарк мультимодального розуміння з 30 предметів університетського рівня. Gemini 3.1 Flash Live Preview набрав 69% у цьому бенчмарку.
MMMU Pro
60%
MMMU Pro: MMMU Професійна версія. Покращена версія MMMU зі складнішими питаннями. Gemini 3.1 Flash Live Preview набрав 60% у цьому бенчмарку.
ChartQA
90%
ChartQA: Відповіді на питання за діаграмами. Тестує здатність розуміти та аналізувати інформацію з діаграм і графіків. Gemini 3.1 Flash Live Preview набрав 90% у цьому бенчмарку.
DocVQA
94%
DocVQA: Візуальні питання за документами. Тестує здатність витягувати інформацію із зображень документів. Gemini 3.1 Flash Live Preview набрав 94% у цьому бенчмарку.
Terminal-Bench
69%
Terminal-Bench: Термінальні/CLI завдання. Тестує здатність виконувати операції командного рядка. Gemini 3.1 Flash Live Preview набрав 69% у цьому бенчмарку.
ARC-AGI
77%
ARC-AGI: Абстракція та міркування. Тестує гнучкий інтелект через нові головоломки на розпізнавання патернів. Gemini 3.1 Flash Live Preview набрав 77% у цьому бенчмарку.

Про Gemini 3.1 Flash Live Preview

Дізнайтеся про можливості Gemini 3.1 Flash Live Preview, функції та як це може допомогти вам досягти кращих результатів.

Gemini 3.1 Flash Live Preview, це мультимодальна модель з низькою latency, розроблена для діалогів аудіо-в-аудіо у реальному часі. Вона працює на архітектурі Gemini 3 від Google. Конструкція Sparse Mixture-of-Experts (MoE) дозволяє підтримувати високу продуктивність при зниженні витрат на inference. Традиційні моделі виконують перетворення мови в текст, а потім тексту в мову. Ця модель обробляє аудіопотоки нативно. Вона виявляє акустичні нюанси, такі як тон, емоції та фоновий шум для природної взаємодії. Дізнайтеся більше в офіційній документації.

Розробники використовують цю модель для голосових програм, що вимагають чисельної точності та миттєвого відгуку. Вона підтримує настроювані рівні мислення (thinking levels), від мінімального до високого. Це дозволяє користувачам збалансувати глибину reasoning відповідно до вимог щодо latency. Завдяки контекстному вікну на 131 072 tokens та підтримці тексту, зображень і відео, вона слугує універсальним двигуном. Основні сценарії використання включають агентів реального часу, автоматизовану підтримку клієнтів та середовища для спільного написання коду.

Обробка переривань та фільтрація шумів роблять її придатною для розгортання в реальних умовах. Модель ігнорує шуми сирен та натовпу, зберігаючи потік розмови. Розробники отримують доступ через Live API, створюючи мобільні додатки та кіоски без використання окремих сервісів транскрипції.

Gemini 3.1 Flash Live Preview

Випадки використання для Gemini 3.1 Flash Live Preview

Відкрийте різні способи використання Gemini 3.1 Flash Live Preview для досягнення чудових результатів.

Голосові агенти реального часу

Створення conversational AI, що миттєво реагує на мову користувача для підтримки у сферах гостинності, туризму та логістики.

Мультимодальний коучинг

Забезпечення негайного фітнес- або технічного тренінгу шляхом одночасного аналізу відеопотоку з камери та аудіо користувача.

Асистенти для спільного програмування

Керування IDE для рефакторингу коду та оновлення UI-компонентів через постійні голосові інструкції та демонстрацію екрана.

Переклад з низькою latency

Сприяння міжмовним розмовам шляхом перекладу мови в мову зі збереженням емоційного контексту.

Підтримка у шумному середовищі

Робота кіосків підтримки клієнтів у людних місцях, де система повинна відфільтровувати шуми сирен та натовпу.

Інтерактивні ігрові NPC

Керування ігровими персонажами, які відповідають з природною вокальною інтонацією та реагують на фізичні рухи гравця.

Сильні сторони

Обмеження

Нативна обробка аудіо: Працює безпосередньо у режимі мова-в-мову, розпізнаючи вербальні нюанси, такі як розчарування чи сарказм, які пропускають текстові моделі.
Синхронне використання інструментів: Function calling працює послідовно: модель повністю припиняє говорити, поки очікує на відповідь від інструмента.
Висока швидкість роботи: Забезпечує у 2.5 раза швидший Time to First Token (TTFT) порівняно з попередніми версіями.
Нижчий рівень zero-shot логіки: Показники логічного мислення нижчі, ніж у flagship моделі Gemini 3.1 Pro для складних завдань рівня PhD.
Надійна фільтрація шумів: Підтримує 95.9% точності на Big Bench Audio навіть у шумних місцях, таких як ресторани чи жваві дороги.
Складність ціноутворення: Наявність різних тарифів для тексту, аудіо та відео ускладнює прогнозування бюджету для мультимодальних додатків.
Настроюване reasoning: Дозволяє розробникам регулювати 'thinkingLevel' для досягнення оптимального балансу між логікою та швидкістю.
Статус Preview: Наразі модель знаходиться на стадії попереднього перегляду, що означає можливість зміни лімітів та неочікувані коригування поведінки моделі.

Швидкий старт API

google/gemini-3.1-flash-live-preview

Переглянути документацію
google SDK
import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

Встановіть SDK і почніть робити API-виклики за лічені хвилини.

Що кажуть люди про Gemini 3.1 Flash Live Preview

Подивіться, що думає спільнота про Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash-Lite виходить у світ... найшвидша та найефективніша за вартістю модель серії Gemini 3.
BuildwithVignesh
reddit
Відповідає якості 2.5 Flash за ціною Flash-Lite. Модель з низькою latency для аудіо-в-аудіо, оптимізована для діалогів у реальному часі.
Google AI
twitter
3 Flash значно втрачає якість при збільшенні контексту, але це величезний крок уперед для чуйності в реальному часі.
Pasto_Shouwa
reddit
Google дійсно скорочує маржу на вхідних tokens з 3.1 Flash. Стає важко виправдати використання чогось іншого для простих агентів.
AI_Dev_Master
hackernews
Архітектура мова-в-мову повністю усуває незручні паузи, які виникають із каскадними моделями транскрипції.
AIExplorer
youtube
Тестую новий Gemini 3.1 Flash Live Preview. Настроювані рівні мислення надзвичайно корисні для балансу між швидкістю та reasoning.
DevGuru_X
twitter

Відео про Gemini 3.1 Flash Live Preview

Дивіться навчальні матеріали, огляди та обговорення про Gemini 3.1 Flash Live Preview

«Ви говорите, він відповідає миттєво. Жодних затримок, жодних завантажень, жодних дивних пауз. Це схоже на розмову з реальною людиною.»

«Він набирає 95.9% на бенчмарку Big Bench audio. Це найкращий результат у класі для аудіо reasoning.»

«Ви не просто даєте інструкції та чекаєте. Ви спільно створюєте разом з ним у реальному часі.»

«Модель може бачити ваш екран, поки ви програмуєте, і спілкуватися з вами щодо змін.»

«Ціноутворення розділене між текстом та аудіо, тому потрібно ретельно рахувати витрати.»

«Він вловлює ваш тон, ваш темп і ваш настрій. Він помічає розчарування чи розгубленість.»

«Gemini 3.1 Flash Live займає перше місце у світі за найскладнішими бенчмарками голосового AI.»

«Він справді розуміє складні теми. Ви можете додавати reasoning до рівня AI, який у вас є.»

«Ви можете перебити його посеред речення, і він негайно зупиниться та вислухає нову інструкцію.»

«Контекстне вікно на 128K означає, що він пам'ятає початок 30-хвилинної розмови.»

«Це вже не просто перетворення мови в текст, а потім тексту в мову. Це чистий процес мова-в-мову.»

«Здатність агента слухати в шумному середовищі... як-от на узбіччі дороги чи в шумному ресторані.»

«Те, як швидко він припинив говорити, коли я його перебив... це було справді вражаюче.»

«Ви можете поєднати це з локальними агентами коду, щоб буквально керувати розробкою програмного забезпечення голосом.»

«Час до першого token приблизно у 2.5 раза швидший, ніж у попередньому поколінні.»

Більше ніж просто промпти

Прискорте вашу роботу з AI-автоматизацією

Automatio поєднує силу AI-агентів, веб-автоматизації та розумних інтеграцій, щоб допомогти вам досягти більшого за менший час.

AI-агенти
Веб-автоматизація
Розумні робочі процеси

Професійні поради для Gemini 3.1 Flash Live Preview

Експертні поради, які допоможуть вам отримати максимум від Gemini 3.1 Flash Live Preview та досягти кращих результатів.

Налаштування рівнів мислення (Thinking Levels)

Встановіть 'thinkingLevel' на 'minimal' для максимально швидких голосових відповідей або на 'high' для складних багатоетапних логічних завдань.

Використання інкрементальних оновлень

Надсилайте текстові оновлення через 'send_realtime_input' під час активних аудіосесій, щоб надавати моделі контекст, що постійно змінюється.

Оптимізація покриття черги (Turn Coverage)

Встановіть параметр turn coverage на 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' для повного мультимодального розуміння.

Встановлення початкового контексту

Використовуйте 'send_client_content' для встановлення історії розмови перед запуском сесії Live API для кращої послідовності.

Відгуки

Що кажуть наші користувачі

Приєднуйтесь до тисяч задоволених користувачів, які трансформували свою роботу

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Пов'язані AI Models

google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M

Часті запитання про Gemini 3.1 Flash Live Preview

Знайдіть відповіді на поширені запитання про Gemini 3.1 Flash Live Preview