Каков размер контекстного окна у Gemini 3.1 Flash Live?

Модель поддерживает контекстное окно ввода размером 131 072 токена и окно вывода в 65 536 токенов. Это позволяет ей запоминать длинные диалоги и обрабатывать значительные объемы истории документов во время активной сессии.

Сколько стоит использование API?

Стоимость текстового ввода составляет $0,75 за 1 миллион токенов, вывода, $4,50. Аудиоввод стоит около $0,005 за минуту, а аудиовывод, $0,018 за минуту.

Поддерживает ли эта модель вызов функций?

Да, Gemini 3.1 Flash Live поддерживает синхронный вызов функций (function calling). Модель приостанавливает свой аудиоответ для выполнения инструмента и ожидает получения результата, прежде чем продолжить.

Как работает механизм «мышления» (thinking) в этой модели?

В Gemini 3.1 Flash Live используются настраиваемые уровни reasoning (минимальный, низкий, средний, высокий) вместо фиксированного бюджета токенов. Минимальный уровень установлен по умолчанию для обеспечения минимальной latency в голосовых приложениях.

Может ли она видеть мой экран в реальном времени?

Да, модель может принимать непрерывный поток видеокадров через Live API. Это позволяет ей анализировать содержимое экрана или данные с камер во время общения с пользователем.

Есть ли бесплатный тариф?

Да, Google AI Studio предлагает бесплатный доступ к Gemini 3.1 Flash Live Preview для тестирования и разработки. Данные в бесплатном тарифе могут использоваться для улучшения продуктов Google.

Какие языки поддерживаются?

Модель поддерживает более 70 языков для текста и аудио. Такой широкий охват позволяет использовать её для глобального перевода в реальном времени и локализованного обслуживания клиентов.

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview — это модель Google с ультранизкой latency для работы с аудио, обладающая контекстным окном 131K токенов, качественным multimodal...

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time

googleGemini26 марта 2026 г.

Контекст

131Kтокенов

Макс. вывод

66Kтокенов

Цена ввода

$0.75/ 1M

Цена вывода

$4.50/ 1M

Модальность:TextImageAudioVideo

Возможности:ЗрениеИнструментыПотоковая передачаРассуждение

Бенчмарки

GPQA

94%

HLE

44%

MMLU

91%

MMLU Pro

89%

SimpleQA

80%

IFEval

88%

AIME 2025

95%

MATH

100%

GSM8k

99%

MGSM

92%

MathVista

72%

SWE-Bench

81%

HumanEval

73%

LiveCodeBench

80%

MMMU

69%

MMMU Pro

60%

ChartQA

90%

DocVQA

94%

Terminal-Bench

69%

ARC-AGI

77%

Документация API

О модели Gemini 3.1 Flash Live Preview

Узнайте о возможностях, функциях и способах использования Gemini 3.1 Flash Live Preview.

Gemini 3.1 Flash Live Preview, это multimodal модель с низкой latency, созданная для общения в режиме «речь-в-речь» в реальном времени. Она работает на базе архитектуры Gemini 3 от Google. Использование дизайна Sparse Mixture-of-Experts (MoE) позволяет поддерживать высокую производительность при снижении затрат на inference. Традиционные модели сначала преобразуют речь в текст, а затем текст в речь. Эта модель обрабатывает аудиопотоки нативно. Она распознает акустические нюансы, такие как тон, эмоции и фоновый шум, обеспечивая естественное взаимодействие. Узнайте больше в официальной документации.

Разработчики используют эту модель для приложений, где важны точность данных и мгновенная реакция. Поддерживаются настраиваемые уровни reasoning, от минимального до высокого. Это позволяет балансировать между глубиной логического анализа и требованиями к latency. Благодаря контекстному окну в 131 072 токена и поддержке текста, изображений и видео, модель становится универсальным инструментом. Основные варианты использования включают ИИ-агентов реального времени, автоматизированную поддержку клиентов и среду совместной разработки кода.

Обработка прерываний и фильтрация шумов делают модель подходящей для реального применения. Она игнорирует звуки сирен и шумы толпы, сохраняя непрерывность диалога. Разработчики могут получить доступ к ней через Live API, создавая мобильные приложения и интерфейсы для киосков без необходимости подключения сторонних сервисов транскрипции.

Варианты использования Gemini 3.1 Flash Live Preview

Откройте для себя различные способы использования Gemini 3.1 Flash Live Preview для достижения отличных результатов.

Голосовые агенты в реальном времени

Создание conversational AI, который мгновенно отвечает на речь пользователя в сфере гостиничного бизнеса, путешествий и логистики.

Multimodal коучинг в реальном времени

Предоставление мгновенных рекомендаций по фитнесу или техническому обучению за счет одновременного анализа видеопотока и аудио пользователя.

Ассистенты для совместного написания кода

Управление IDE для рефакторинга кода и обновления компонентов UI с помощью постоянных голосовых инструкций и демонстрации экрана.

Перевод с низкой latency

Содействие в межъязыковом общении путем перевода речи в речь с сохранением эмоционального контекста.

Поддержка работы в шумной среде

Обеспечение работы информационных киосков в местах с высокой проходимостью, где система должна отфильтровывать шумы города, например, сирены и гул толпы.

Интерактивные NPC в играх

Управление неигровыми персонажами, которые реагируют естественной голосовой интонацией и подстраиваются под физические действия игрока.

Преимущества

Ограничения

Нативная обработка аудио: Модель работает строго в режиме «речь-в-речь», распознавая вербальные нюансы, такие как разочарование или сарказм, которые пропускают текстовые модели.

Синхронное использование инструментов: Вызов функций происходит последовательно: модель полностью прекращает речь, ожидая ответа от инструмента.

Высокая производительность: Обладает в 2,5 раза более быстрым показателем Time to First Token (TTFT) по сравнению с предыдущими версиями.

Сниженная логика в задачах zero-shot: Показатели логического reasoning ниже, чем у флагманской модели Gemini 3.1 Pro в сложных академических задачах.

Надежная фильтрация шумов: Сохраняет 95,9% точности на бенчмарке Big Bench Audio даже в шумных условиях, например, в ресторанах или на оживленных дорогах.

Сложность ценообразования: Различные тарифные сетки для текста, аудио и видео затрудняют прогнозирование бюджета для multimodal приложений.

Настраиваемый reasoning: Позволяет разработчикам регулировать 'thinkingLevel' для поиска оптимального баланса между глубиной логики и скоростью ответа.

Статус Preview: В настоящее время модель находится в стадии предварительного просмотра, что означает возможные колебания rate limit и неожиданные изменения в поведении модели.

Быстрый старт API

google/gemini-3.1-flash-live-preview

Посмотреть документацию

google SDK

import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

Установите SDK и начните делать API-запросы за несколько минут.

Что люди говорят о Gemini 3.1 Flash Live Preview

Посмотрите, что думает сообщество о Gemini 3.1 Flash Live Preview

“Выходит Gemini 3.1 Flash-Lite... самая быстрая и экономичная модель серии Gemini 3 на данный момент.”

— BuildwithVignesh

“Соответствует качеству 2.5 Flash по цене Flash-Lite. Модель с низкой latency и архитектурой audio-to-audio, оптимизированная для общения в реальном времени.”

— Google AI

twitter

“3 Flash заметно деградирует по мере увеличения контекста, но это огромный шаг вперед в плане скорости отклика в реальном времени.”

— Pasto_Shouwa

“Google действительно снижает маржу на входящих токенах в 3.1 Flash. Становится сложно оправдать использование чего-либо другого для простых агентов.”

— AI_Dev_Master

hackernews

“Чистая архитектура speech-to-speech полностью устраняет неловкие паузы, которые возникают при цепочках с транскрипцией.”

— AIExplorer

youtube

“Тестирую новый Gemini 3.1 Flash Live Preview. Настраиваемые уровни мышления невероятно полезны для баланса между скоростью и точностью логики.”

— DevGuru_X

twitter

Видео о Gemini 3.1 Flash Live Preview

Смотрите обучающие материалы, обзоры и обсуждения о Gemini 3.1 Flash Live Preview

“«Вы говорите, он отвечает мгновенно. Никаких задержек, никаких пауз. Ощущение, как будто общаешься с реальным человеком».”

“«Модель набирает 95,9% на аудио-бенчмарке Big Bench. Это лучший показатель в своем классе для аудио-reasoning».”

“«Вы не просто даете инструкции и ждете. Вы создаете вместе с ним в реальном времени».”

“«Модель может видеть ваш экран, пока вы пишете код, и обсуждать с вами изменения».”

“«Цена разделена между текстом и аудио, поэтому нужно внимательно рассчитывать расходы».”

“«Он улавливает тон, темп и ваше настроение. Он чувствует разочарование или замешательство».”

“«Gemini 3.1 Flash Live занимает первое место в мире по самым сложным бенчмаркам голосового ИИ».”

“«Он действительно понимает сложные темы. Вы можете настраивать уровень reasoning в зависимости от ваших задач».”

“«Вы можете перебить его на полуслове, и он немедленно замолчит, чтобы выслушать новую инструкцию».”

“«Контекстное окно на 128K токенов означает, что он помнит начало 30-минутного разговора».”

“«Здесь больше нет процесса преобразования речи в текст и текста в речь. Это чистая модель speech-to-speech».”

“«Способность агента слушать в шумной среде... например, на обочине дороги или в шумном ресторане, это впечатляет».”

“«То, как быстро он перестал говорить, когда я его перебил... это действительно впечатляет».”

“«Вы можете объединить это с локальными агентами для написания кода, чтобы буквально отдавать голосовые команды при разработке ПО».”

“«Время до первого токена примерно в 2,5 раза быстрее, чем у предыдущего поколения».”

Больше чем просто промпты

Улучшите свой рабочий процесс с ИИ-Автоматизацией

Automatio объединяет мощь ИИ-агентов, веб-автоматизации и умных интеграций, чтобы помочь вам достигать большего за меньшее время.

ИИ Агенты

Веб Автоматизация

Умные Процессы

Начать Бесплатно

Советы для Gemini 3.1 Flash Live Preview

Экспертные советы для максимальной эффективности Gemini 3.1 Flash Live Preview.

Настройка уровней reasoning

Установите 'thinkingLevel' на 'minimal' для максимально быстрых голосовых ответов или на 'high' для сложных логических задач, требующих нескольких этапов обработки.

Использование инкрементальных обновлений

Отправляйте текстовые обновления через 'send_realtime_input' во время активных аудиосессий, чтобы предоставлять модели меняющийся контекст.

Оптимизация охвата сессии

Установите turn coverage на 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' для комплексного multimodal понимания происходящего.

Задание начального контекста

Используйте 'send_client_content' для формирования истории беседы перед началом сессии Live API, чтобы обеспечить лучшую последовательность диалога.

Отзывы

Что Говорят Наши Пользователи

Присоединяйтесь к тысячам довольных пользователей, которые трансформировали свой рабочий процесс

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.