Сколько стоит Gemini 3.1 Flash-Lite?

Стоимость составляет $0.25 за 1 миллион входных tokens и $1.50 за 1 миллион выходных tokens.

Есть ли бесплатный уровень для разработчиков?

Да, модель доступна бесплатно в рамках предварительного просмотра через Google AI Studio для тестирования и экспериментов.

Каков максимальный размер context window?

Модель поддерживает context window до 1 048 576 tokens, что позволяет обрабатывать около 700 000 слов.

Можно ли обрабатывать видеофайлы с помощью этой модели?

Да, модель может нативно обрабатывать видеофайлы длительностью до 1 часа или размером до 1,5 ГБ.

Что такое Thinking Levels?

Этот параметр позволяет контролировать время внутреннего reasoning, которое модель тратит на решение задачи перед генерацией ответа.

Как эта модель соотносится с Claude 4.5 Haiku?

Gemini 3.1 Flash-Lite примерно в 4 раза дешевле по выходным tokens и при этом превосходит Haiku в benchmark GPQA на предмет reasoning.

Поддерживает ли она function calling?

Да, она обладает полной поддержкой tool use и function calling для создания автономных agentic рабочих процессов.

Какова скорость вывода модели?

Модель достигает скорости 363 tokens в секунду, что делает ее идеальной для приложений, чувствительных к latency.

Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite — самая быстрая и экономичная модель Google. Имеет 1M context, нативную мультимодальность и скорость 363 tokens/сек для масштабирования.

MultimodalHigh SpeedCost EfficientGoogle Gemini

googleGemini 3.13 марта 2026 г.

Контекст

1.0Mтокенов

Макс. вывод

66Kтокенов

Цена ввода

$0.25/ 1M

Цена вывода

$1.50/ 1M

Модальность:TextImageAudioVideo

Возможности:ЗрениеИнструментыПотоковая передача

Бенчмарки

GPQA

86.9%

HLE

16%

MMLU

88.9%

MMLU Pro

80%

SimpleQA

43.3%

IFEval

85%

AIME 2025

25%

MATH

78%

GSM8k

95%

MGSM

92%

MathVista

75%

SWE-Bench

35%

HumanEval

88%

LiveCodeBench

72%

MMMU

76.8%

MMMU Pro

76.8%

ChartQA

91%

DocVQA

92%

Terminal-Bench

55%

ARC-AGI

12%

Документация API

О модели Gemini 3.1 Flash-Lite

Узнайте о возможностях, функциях и способах использования Gemini 3.1 Flash-Lite.

Gemini 3.1 Flash-Lite разработана для ИИ-приложений с большими объемами данных, где скорость обработки является ключевым техническим требованием. В отличие от более крупных моделей Pro, Flash-Lite использует оптимизированную архитектуру, ориентированную на пропускную способность, достигая 363 tokens в секунду. Она служит специализированным инструментом для разработчиков, создающих голосовых агентов реального времени, автоматизированные системы модерации контента и крупномасштабные конвейеры извлечения данных, которые должны сохранять экономическую эффективность при высоких нагрузках.

Несмотря на обозначение «lite», модель сохраняет context window в 1 миллион tokens. Она может принимать исходные аудиофайлы, часовые видео и сотни страниц PDF в одном запросе. Внедряя Thinking Levels, Google позволяет пользователям выбирать между почти мгновенными ответами для простых задач и фазой глубокого reasoning для сложной логики. Это предоставляет несколько профилей производительности в рамках одной точки API для балансировки затрат и точности.

Модель нативно мультимодальна, что исключает необходимость в сторонних инструментах для транскрибации аудио или описания изображений перед обработкой. Эта нативная возможность улучшает производительность в визуальных задачах, таких как ответы на вопросы по документам и анализ графиков. Разработчики могут использовать параметр thinking_level для настройки времени внутреннего мышления, эффективно масштабируя усилия модели в зависимости от сложности каждого запроса.

Варианты использования Gemini 3.1 Flash-Lite

Откройте для себя различные способы использования Gemini 3.1 Flash-Lite для достижения отличных результатов.

Масштабируемый перевод

Обработка тысяч многоязычных чатов или тикетов поддержки в реальном времени с sub-second latency.

Интеллектуальная маршрутизация моделей

Использование в качестве быстрого классификатора для определения того, нужно ли перенаправлять входящие запросы к более дорогим моделям.

Мультимодальная модерация контента

Сканирование больших массивов пользовательских изображений и видео на предмет соответствия правилам безопасности с низкими затратами.

Прототипирование UI в реальном времени

Генерация функциональных React или Tailwind компонентов из набросков или словесных описаний.

Саммаризация длинных документов

Сжатие массивных юридических архивов или технических руководств без потери контекста в рамках 1M token window.

Транскрибация аудио в реальном времени

Преобразование многочасовых записей совещаний или лекций в структурированные резюме и списки задач за один проход.

Преимущества

Ограничения

Высочайшая производительность: С показателем 363 tokens в секунду это одна из самых быстрых моделей в индустрии для мгновенного отклика.

Низкая точность фактических данных: Результат SimpleQA 43,3% указывает на высокий риск галлюцинаций при работе с общими знаниями без использования grounding.

Продвинутый reasoning: Показатель 86,9% в GPQA Diamond обеспечивает научную логику уровня PhD в облегченной версии модели.

Увеличение цены: Она значительно дороже предшественницы Gemini 2.5 Flash-Lite, которую заменяет в линейке.

Динамический контроль затрат: Параметр Thinking Levels позволяет гибко управлять расходами на вычисления для каждого запроса.

Повышенная latency при глубоком мышлении: Использование высокого уровня Thinking добавляет примерно 7–10 секунд предварительных вычислений перед началом генерации.

Единая мультимодальность: Нативная обработка аудио, видео и PDF исключает необходимость в сложных конвейерах оркестрации нескольких моделей.

Отказы системы безопасности: Внутреннее тестирование показывает падение консистентности безопасности при преобразовании изображения в текст на 21,7% во время red-teaming упражнений.

Быстрый старт API

google/gemini-3.1-flash-lite-preview

Посмотреть документацию

google SDK

import { GoogleGenAI } from "@google/generative-ai";

const genAI = new GoogleGenAI(process.env.API_KEY);
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-lite-preview",
  generationConfig: {
    thinkingConfig: { thinking_level: "high" }
  }
});

const result = await model.generateContent("Create a weather dashboard UI.");
console.log(result.response.text());

Установите SDK и начните делать API-запросы за несколько минут.

Что люди говорят о Gemini 3.1 Flash-Lite

Посмотрите, что думает сообщество о Gemini 3.1 Flash-Lite

“Способности 3.1 Flash-Lite к программированию удивительно хороши для фронтенд-разработки; она идеально написала 360-градусный вьюер.”

— WorldofAI

youtube

“Gemini 3.1 Flash-Lite, это модель для создания мультимодальных AI-агентов, работающих постоянно. Она читает, связывает и объединяет всё.”

— Shubham Saboo

twitter

“Ценообразование, большой шок. Рост в 3,75 раза на выходные tokens будет ощутимым, если у вас ограничен бюджет в облаке.”

— Binary Verse AI

youtube

“Она перекладывает бремя сложности с архитектуры вашей команды инженеров на инфраструктуру Google.”

— Julian Goldie

youtube

“Очередное снижение цены за интеллект. Высокая скорость, низкая стоимость, высокий интеллект. Отличная модель для агентной маршрутизации.”

— ctgtplb

twitter

“1M контекста, всё еще киллер-фича. Я могу загрузить целые папки репозиториев, и всё работает с TTFT менее секунды.”

— DevFlow_26

Видео о Gemini 3.1 Flash-Lite

Смотрите обучающие материалы, обзоры и обсуждения о Gemini 3.1 Flash-Lite

“Похоже, им удалось втиснуть в эту модель поразительный уровень интеллекта.”

“Я бы использовал её для задач с высокой пропускной способностью, которые хорошо определены.”

“Возможности фронтенд-разработки у Flash-Lite даже лучше, чем у большинства моделей, с которыми я работал.”

“Она буквально создала полностью функциональный вьюер с первой попытки.”

“Эта модель идеальна для тех, кому нужна скорость без потери логики.”

“Это «рабочая лошадка», специально разработанная для задач с высокой пропускной способностью.”

“Если запустить её с минимальным бюджетом мышления, она работает как модель без reasoning и делает это невероятно быстро.”

“Она проделала отличную работу над сайтом, который мы получили в результате.”

“Соотношение скорости и стоимости, главная причина для переноса ваших продакшн-приложений сюда.”

“Она обрабатывает мультимодальные входы нативно, что является огромным преимуществом перед конкурентами.”

“Показатель почти 87% в GPQA Diamond у модели с маркировкой lite рушит всю нашу систему классификации.”

“Не используйте эту модель как источник фактов… вы должны сами предоставлять ей факты.”

“С 3.1 Flash-Lite вы избавляетесь от необходимости запускать три других микросервиса… эта простота стоит реальных денег.”

“Прирост скорости вывода на 45% ощущается сразу же при стриминговом ответе.”

“Вы получаете 1M контекста за копейки, что в продакшене до сих пор кажется магией.”

Больше чем просто промпты

Улучшите свой рабочий процесс с ИИ-Автоматизацией

Automatio объединяет мощь ИИ-агентов, веб-автоматизации и умных интеграций, чтобы помочь вам достигать большего за меньшее время.

ИИ Агенты

Веб Автоматизация

Умные Процессы

Начать Бесплатно

Советы для Gemini 3.1 Flash-Lite

Экспертные советы для максимальной эффективности Gemini 3.1 Flash-Lite.

Настройка Thinking Levels

Используйте минимальный уровень мышления для классификации, чтобы снизить расходы, но переключайтесь на высокий для сложных задач программирования.

Включение Grounding

Всегда используйте Google Search grounding для задач, требующих точных фактов, так как базовая фактическая точность модели ниже.

Загрузка исходных файлов

Избегайте предварительной обработки аудио или видео в текст; вместо этого загружайте исходные файлы для использования преимуществ нативной мультимодальности.

Использование System Instructions

Строго соблюдайте JSON-схемы, используя параметр system_instruction, чтобы минимизировать количество корректирующих tokens в выводе.

Отзывы

Что Говорят Наши Пользователи

Присоединяйтесь к тысячам довольных пользователей, которые трансформировали свой рабочий процесс

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Mohammed Ibrahim

CEO, qannas.pro

Ben Bressington

CTO, AiChatSolutions

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Часто задаваемые вопросы о Gemini 3.1 Flash-Lite

Найдите ответы на частые вопросы о Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite

О модели Gemini 3.1 Flash-Lite

Варианты использования Gemini 3.1 Flash-Lite

Масштабируемый перевод

Интеллектуальная маршрутизация моделей

Мультимодальная модерация контента

Прототипирование UI в реальном времени

Саммаризация длинных документов

Транскрибация аудио в реальном времени

Преимущества

Ограничения

Быстрый старт API

Что люди говорят о Gemini 3.1 Flash-Lite

Видео о Gemini 3.1 Flash-Lite

Улучшите свой рабочий процесс с ИИ-Автоматизацией

Советы для Gemini 3.1 Flash-Lite

Настройка Thinking Levels

Включение Grounding

Загрузка исходных файлов

Использование System Instructions

Что Говорят Наши Пользователи

Похожие AI Models

Claude Opus 4.5

Grok-4

GLM-5.1

Kimi K2.5

Qwen3.6-Max-Preview

GLM-5

GPT-5.1

GPT-5.2

Часто задаваемые вопросы о Gemini 3.1 Flash-Lite

Сколько стоит Gemini 3.1 Flash-Lite?

Есть ли бесплатный уровень для разработчиков?

Каков максимальный размер context window?

Можно ли обрабатывать видеофайлы с помощью этой модели?

Что такое Thinking Levels?

Как эта модель соотносится с Claude 4.5 Haiku?

Поддерживает ли она function calling?

Какова скорость вывода модели?