google

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview — это модель Google с ультранизкой latency для работы с аудио, обладающая контекстным окном 131K токенов, качественным multimodal...

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time
google logogoogleGemini26 марта 2026 г.
Контекст
131Kтокенов
Макс. вывод
66Kтокенов
Цена ввода
$0.75/ 1M
Цена вывода
$4.50/ 1M
Модальность:TextImageAudioVideo
Возможности:ЗрениеИнструментыПотоковая передачаРассуждение
Бенчмарки
GPQA
94%
GPQA: Научные вопросы уровня докторантуры. Строгий бенчмарк с 448 вопросами с множественным выбором по биологии, физике и химии, созданными экспертами в данных областях. Эксперты с PhD достигают лишь 65-74% точности, в то время как неспециалисты набирают только 34% даже при неограниченном доступе в интернет (отсюда название 'устойчивый к Google'). Gemini 3.1 Flash Live Preview набрал 94% в этом бенчмарке.
HLE
44%
HLE: Рассуждение высокого уровня экспертизы. Тестирует способность модели демонстрировать рассуждения экспертного уровня в специализированных областях. Оценивает глубокое понимание сложных тем, требующих знаний профессионального уровня. Gemini 3.1 Flash Live Preview набрал 44% в этом бенчмарке.
MMLU
91%
MMLU: Массовое многозадачное языковое понимание. Комплексный бенчмарк с 16 000 вопросами с множественным выбором по 57 академическим предметам, включая математику, философию, право и медицину. Тестирует широкие знания и способности к рассуждению. Gemini 3.1 Flash Live Preview набрал 91% в этом бенчмарке.
MMLU Pro
89%
MMLU Pro: MMLU профессиональная версия. Улучшенная версия MMLU с 12 032 вопросами в более сложном формате с 10 вариантами ответа. Охватывает математику, физику, химию, право, инженерию, экономику, здравоохранение, психологию, бизнес, биологию, философию и информатику. Gemini 3.1 Flash Live Preview набрал 89% в этом бенчмарке.
SimpleQA
80%
SimpleQA: Бенчмарк фактической точности. Тестирует способность модели давать точные, фактические ответы на прямые вопросы. Измеряет надежность и снижает галлюцинации в задачах извлечения знаний. Gemini 3.1 Flash Live Preview набрал 80% в этом бенчмарке.
IFEval
88%
IFEval: Оценка следования инструкциям. Измеряет, насколько хорошо модель следует конкретным инструкциям и ограничениям. Тестирует способность соблюдать правила форматирования, ограничения длины и другие явные требования. Gemini 3.1 Flash Live Preview набрал 88% в этом бенчмарке.
AIME 2025
95%
AIME 2025: Американский пригласительный математический экзамен. Математические задачи соревновательного уровня с престижного экзамена AIME, предназначенного для талантливых старшеклассников. Тестирует продвинутое математическое решение задач, требующее абстрактного мышления, а не просто сопоставления паттернов. Gemini 3.1 Flash Live Preview набрал 95% в этом бенчмарке.
MATH
100%
MATH: Решение математических задач. Комплексный математический бенчмарк, тестирующий решение задач по алгебре, геометрии, анализу и другим математическим областям. Требует многошагового рассуждения и формальных математических знаний. Gemini 3.1 Flash Live Preview набрал 100% в этом бенчмарке.
GSM8k
99%
GSM8k: Математика начальной школы 8K. 8 500 математических задач уровня начальной школы, требующих многошагового рассуждения. Тестирует базовую арифметику и логическое мышление через жизненные сценарии, такие как покупки или расчет времени. Gemini 3.1 Flash Live Preview набрал 99% в этом бенчмарке.
MGSM
92%
MGSM: Многоязычная математика начальной школы. Бенчмарк GSM8k, переведенный на 10 языков, включая испанский, французский, немецкий, русский, китайский и японский. Тестирует математическое рассуждение на разных языках. Gemini 3.1 Flash Live Preview набрал 92% в этом бенчмарке.
MathVista
72%
MathVista: Математическое визуальное рассуждение. Тестирует способность решать математические задачи, включающие визуальные элементы, такие как графики, геометрические диаграммы и научные рисунки. Сочетает визуальное понимание с математическим рассуждением. Gemini 3.1 Flash Live Preview набрал 72% в этом бенчмарке.
SWE-Bench
81%
SWE-Bench: Бенчмарк программной инженерии. ИИ-модели пытаются решить реальные проблемы GitHub в проектах Python с открытым исходным кодом с человеческой верификацией. Тестирует практические навыки программной инженерии на производственных кодовых базах. Лучшие модели улучшились с 4,4% в 2023 до более 70% в 2024. Gemini 3.1 Flash Live Preview набрал 81% в этом бенчмарке.
HumanEval
73%
HumanEval: Задачи программирования на Python. 164 вручную написанные задачи программирования, где модели должны генерировать правильные реализации функций Python. Каждое решение проверяется юнит-тестами. Лучшие модели теперь достигают более 90% точности. Gemini 3.1 Flash Live Preview набрал 73% в этом бенчмарке.
LiveCodeBench
80%
LiveCodeBench: Бенчмарк живого кодирования. Тестирует навыки программирования на постоянно обновляемых задачах из реального мира. В отличие от статических бенчмарков, использует свежие задачи для предотвращения загрязнения данных и измерения реальных навыков кодирования. Gemini 3.1 Flash Live Preview набрал 80% в этом бенчмарке.
MMMU
69%
MMMU: Мультимодальное понимание. Массовый мультидисциплинарный мультимодальный бенчмарк понимания, тестирующий модели зрения и языка на задачах университетского уровня по 30 предметам, требующим понимания изображений и экспертных знаний. Gemini 3.1 Flash Live Preview набрал 69% в этом бенчмарке.
MMMU Pro
60%
MMMU Pro: MMMU профессиональная версия. Улучшенная версия MMMU с более сложными вопросами и строгой оценкой. Тестирует продвинутое мультимодальное рассуждение на профессиональном и экспертном уровнях. Gemini 3.1 Flash Live Preview набрал 60% в этом бенчмарке.
ChartQA
90%
ChartQA: Вопросы и ответы по диаграммам. Тестирует способность понимать и рассуждать об информации, представленной в диаграммах и графиках. Требует извлечения данных, сравнения значений и выполнения вычислений из визуальных представлений данных. Gemini 3.1 Flash Live Preview набрал 90% в этом бенчмарке.
DocVQA
94%
DocVQA: Визуальные Q&A по документам. Бенчмарк визуальных вопросов и ответов по документам, тестирующий способность извлекать и рассуждать об информации из изображений документов, включая формы, отчеты и отсканированный текст. Gemini 3.1 Flash Live Preview набрал 94% в этом бенчмарке.
Terminal-Bench
69%
Terminal-Bench: Задачи Terminal/CLI. Тестирует способность выполнять операции командной строки, писать shell-скрипты и работать в терминальных средах. Измеряет практические навыки системного администрирования и рабочих процессов разработки. Gemini 3.1 Flash Live Preview набрал 69% в этом бенчмарке.
ARC-AGI
77%
ARC-AGI: Абстракция и рассуждение. Корпус абстракции и рассуждения для AGI - тестирует флюидный интеллект через новые головоломки распознавания паттернов. Каждая задача требует обнаружения базового правила из примеров, измеряя общую способность к рассуждению, а не запоминание. Gemini 3.1 Flash Live Preview набрал 77% в этом бенчмарке.

О модели Gemini 3.1 Flash Live Preview

Узнайте о возможностях, функциях и способах использования Gemini 3.1 Flash Live Preview.

Gemini 3.1 Flash Live Preview, это multimodal модель с низкой latency, созданная для общения в режиме «речь-в-речь» в реальном времени. Она работает на базе архитектуры Gemini 3 от Google. Использование дизайна Sparse Mixture-of-Experts (MoE) позволяет поддерживать высокую производительность при снижении затрат на inference. Традиционные модели сначала преобразуют речь в текст, а затем текст в речь. Эта модель обрабатывает аудиопотоки нативно. Она распознает акустические нюансы, такие как тон, эмоции и фоновый шум, обеспечивая естественное взаимодействие. Узнайте больше в официальной документации.

Разработчики используют эту модель для приложений, где важны точность данных и мгновенная реакция. Поддерживаются настраиваемые уровни reasoning, от минимального до высокого. Это позволяет балансировать между глубиной логического анализа и требованиями к latency. Благодаря контекстному окну в 131 072 токена и поддержке текста, изображений и видео, модель становится универсальным инструментом. Основные варианты использования включают ИИ-агентов реального времени, автоматизированную поддержку клиентов и среду совместной разработки кода.

Обработка прерываний и фильтрация шумов делают модель подходящей для реального применения. Она игнорирует звуки сирен и шумы толпы, сохраняя непрерывность диалога. Разработчики могут получить доступ к ней через Live API, создавая мобильные приложения и интерфейсы для киосков без необходимости подключения сторонних сервисов транскрипции.

Gemini 3.1 Flash Live Preview

Варианты использования Gemini 3.1 Flash Live Preview

Откройте для себя различные способы использования Gemini 3.1 Flash Live Preview для достижения отличных результатов.

Голосовые агенты в реальном времени

Создание conversational AI, который мгновенно отвечает на речь пользователя в сфере гостиничного бизнеса, путешествий и логистики.

Multimodal коучинг в реальном времени

Предоставление мгновенных рекомендаций по фитнесу или техническому обучению за счет одновременного анализа видеопотока и аудио пользователя.

Ассистенты для совместного написания кода

Управление IDE для рефакторинга кода и обновления компонентов UI с помощью постоянных голосовых инструкций и демонстрации экрана.

Перевод с низкой latency

Содействие в межъязыковом общении путем перевода речи в речь с сохранением эмоционального контекста.

Поддержка работы в шумной среде

Обеспечение работы информационных киосков в местах с высокой проходимостью, где система должна отфильтровывать шумы города, например, сирены и гул толпы.

Интерактивные NPC в играх

Управление неигровыми персонажами, которые реагируют естественной голосовой интонацией и подстраиваются под физические действия игрока.

Преимущества

Ограничения

Нативная обработка аудио: Модель работает строго в режиме «речь-в-речь», распознавая вербальные нюансы, такие как разочарование или сарказм, которые пропускают текстовые модели.
Синхронное использование инструментов: Вызов функций происходит последовательно: модель полностью прекращает речь, ожидая ответа от инструмента.
Высокая производительность: Обладает в 2,5 раза более быстрым показателем Time to First Token (TTFT) по сравнению с предыдущими версиями.
Сниженная логика в задачах zero-shot: Показатели логического reasoning ниже, чем у флагманской модели Gemini 3.1 Pro в сложных академических задачах.
Надежная фильтрация шумов: Сохраняет 95,9% точности на бенчмарке Big Bench Audio даже в шумных условиях, например, в ресторанах или на оживленных дорогах.
Сложность ценообразования: Различные тарифные сетки для текста, аудио и видео затрудняют прогнозирование бюджета для multimodal приложений.
Настраиваемый reasoning: Позволяет разработчикам регулировать 'thinkingLevel' для поиска оптимального баланса между глубиной логики и скоростью ответа.
Статус Preview: В настоящее время модель находится в стадии предварительного просмотра, что означает возможные колебания rate limit и неожиданные изменения в поведении модели.

Быстрый старт API

google/gemini-3.1-flash-live-preview

Посмотреть документацию
google SDK
import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

Установите SDK и начните делать API-запросы за несколько минут.

Что люди говорят о Gemini 3.1 Flash Live Preview

Посмотрите, что думает сообщество о Gemini 3.1 Flash Live Preview

Выходит Gemini 3.1 Flash-Lite... самая быстрая и экономичная модель серии Gemini 3 на данный момент.
BuildwithVignesh
reddit
Соответствует качеству 2.5 Flash по цене Flash-Lite. Модель с низкой latency и архитектурой audio-to-audio, оптимизированная для общения в реальном времени.
Google AI
twitter
3 Flash заметно деградирует по мере увеличения контекста, но это огромный шаг вперед в плане скорости отклика в реальном времени.
Pasto_Shouwa
reddit
Google действительно снижает маржу на входящих токенах в 3.1 Flash. Становится сложно оправдать использование чего-либо другого для простых агентов.
AI_Dev_Master
hackernews
Чистая архитектура speech-to-speech полностью устраняет неловкие паузы, которые возникают при цепочках с транскрипцией.
AIExplorer
youtube
Тестирую новый Gemini 3.1 Flash Live Preview. Настраиваемые уровни мышления невероятно полезны для баланса между скоростью и точностью логики.
DevGuru_X
twitter

Видео о Gemini 3.1 Flash Live Preview

Смотрите обучающие материалы, обзоры и обсуждения о Gemini 3.1 Flash Live Preview

«Вы говорите, он отвечает мгновенно. Никаких задержек, никаких пауз. Ощущение, как будто общаешься с реальным человеком».

«Модель набирает 95,9% на аудио-бенчмарке Big Bench. Это лучший показатель в своем классе для аудио-reasoning».

«Вы не просто даете инструкции и ждете. Вы создаете вместе с ним в реальном времени».

«Модель может видеть ваш экран, пока вы пишете код, и обсуждать с вами изменения».

«Цена разделена между текстом и аудио, поэтому нужно внимательно рассчитывать расходы».

«Он улавливает тон, темп и ваше настроение. Он чувствует разочарование или замешательство».

«Gemini 3.1 Flash Live занимает первое место в мире по самым сложным бенчмаркам голосового ИИ».

«Он действительно понимает сложные темы. Вы можете настраивать уровень reasoning в зависимости от ваших задач».

«Вы можете перебить его на полуслове, и он немедленно замолчит, чтобы выслушать новую инструкцию».

«Контекстное окно на 128K токенов означает, что он помнит начало 30-минутного разговора».

«Здесь больше нет процесса преобразования речи в текст и текста в речь. Это чистая модель speech-to-speech».

«Способность агента слушать в шумной среде... например, на обочине дороги или в шумном ресторане, это впечатляет».

«То, как быстро он перестал говорить, когда я его перебил... это действительно впечатляет».

«Вы можете объединить это с локальными агентами для написания кода, чтобы буквально отдавать голосовые команды при разработке ПО».

«Время до первого токена примерно в 2,5 раза быстрее, чем у предыдущего поколения».

Больше чем просто промпты

Улучшите свой рабочий процесс с ИИ-Автоматизацией

Automatio объединяет мощь ИИ-агентов, веб-автоматизации и умных интеграций, чтобы помочь вам достигать большего за меньшее время.

ИИ Агенты
Веб Автоматизация
Умные Процессы

Советы для Gemini 3.1 Flash Live Preview

Экспертные советы для максимальной эффективности Gemini 3.1 Flash Live Preview.

Настройка уровней reasoning

Установите 'thinkingLevel' на 'minimal' для максимально быстрых голосовых ответов или на 'high' для сложных логических задач, требующих нескольких этапов обработки.

Использование инкрементальных обновлений

Отправляйте текстовые обновления через 'send_realtime_input' во время активных аудиосессий, чтобы предоставлять модели меняющийся контекст.

Оптимизация охвата сессии

Установите turn coverage на 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' для комплексного multimodal понимания происходящего.

Задание начального контекста

Используйте 'send_client_content' для формирования истории беседы перед началом сессии Live API, чтобы обеспечить лучшую последовательность диалога.

Отзывы

Что Говорят Наши Пользователи

Присоединяйтесь к тысячам довольных пользователей, которые трансформировали свой рабочий процесс

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Похожие AI Models

google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M

Часто задаваемые вопросы о Gemini 3.1 Flash Live Preview

Найдите ответы на частые вопросы о Gemini 3.1 Flash Live Preview