Gemini 3.1 Flash Live 的 context window 是多少？

该模型支持 131,072 个 token 的输入 context window 和 65,536 个 token 的输出窗口。这使其能够在实时会话中记住长对话并处理大量的文档历史。

API 的费用是多少？

文本输入费用为每百万 tokens 0.75 美元，输出为 4.50 美元。音频输入费用约为每分钟 0.005 美元，音频输出费用为每分钟 0.018 美元。

该模型是否支持函数调用？

是的，Gemini 3.1 Flash Live 支持同步函数调用。模型会暂停音频响应以执行工具，并在收到工具输出后继续运行。

该模型的“思考”功能是如何运作的？

Gemini 3.1 Flash Live 使用可配置的推理级别（最小、低、中、高）而非固定的 token 预算。默认设置为“最小”，以确保语音应用中获得最低的 latency。

它能实时看到我的屏幕吗？

是的，模型可以通过 Live API 接收连续的视频帧。这使得它能够在与用户交谈的同时分析屏幕内容或摄像头画面。

是否有免费层级？

是的，Google AI Studio 提供 Gemini 3.1 Flash Live Preview 的免费试用权限用于测试和开发。免费层级的数据可能会被用于改进 Google 的产品。

支持哪些语言？

该模型支持超过 70 种语言的文本和音频。这种广泛的语言覆盖支持全球实时翻译和本地化客户服务。

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview 是 Google 的超低延迟音频到音频模型，具有 131K context window、高保真 multimodal 推理和实时对话能力。

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time

googleGemini2026年3月26日

上下文

131Ktokens

最大输出

66Ktokens

输入价格

$0.75/ 1M

输出价格

$4.50/ 1M

模态:TextImageAudioVideo

能力:视觉工具流式传输推理

基准测试

GPQA

94%

HLE

44%

MMLU

91%

MMLU Pro

89%

SimpleQA

80%

IFEval

88%

AIME 2025

95%

MATH

100%

GSM8k

99%

MGSM

92%

MathVista

72%

SWE-Bench

81%

HumanEval

73%

LiveCodeBench

80%

MMMU

69%

MMMU Pro

60%

ChartQA

90%

DocVQA

94%

Terminal-Bench

69%

ARC-AGI

77%

查看API文档

关于 Gemini 3.1 Flash Live Preview

了解 Gemini 3.1 Flash Live Preview 的功能、特性以及它如何帮助您获得更好的效果。

Gemini 3.1 Flash Live Preview 是一款专为实时语音到语音对话而设计的低延迟 multimodal 模型。它基于 Google 的 Gemini 3 架构运行。稀疏专家混合 (MoE) 设计在降低推理成本的同时保持了高性能。传统模型执行的是语音转文字，随后再进行文字转语音。而该模型能原生处理音频流。它能检测声学上的细微差别，如语调、情绪和背景噪音，从而实现自然的交互。在官方文档中了解更多信息。

开发者将此模型用于需要数字精度和即时反馈的语音优先应用。它支持从最小到高不等的配置化思考级别。这允许用户在推理深度与 latency 要求之间取得平衡。凭借 131,072 个 token 的 context window 以及对文本、图像和视频的支持，它成为了一款多功能的引擎。目标用例包括实时 Agent、自动化客户支持和协作式编程环境。

打断处理和噪音过滤使其适用于真实世界的部署。该模型在保持对话流畅的同时会忽略警笛和人群噪音。开发者可以通过 Live API 访问它，无需单独的转录服务即可构建移动端和信息亭应用。

Gemini 3.1 Flash Live Preview 的使用案例

发现使用 Gemini 3.1 Flash Live Preview 获得出色效果的不同方式。

实时语音 Agent

构建能即时响应用户语音的对话式 AI，适用于酒店、旅游和物流支持。

实时 multimodal 指导

通过同时分析用户的摄像头画面和音频，提供即时的健身或技术培训。

协作式编程助手

通过持续的语音指令和屏幕共享，引导 IDE 重构代码并更新 UI 组件。

低延迟翻译

通过在保留情感语境的同时进行语音到语音的翻译，促进跨语言对话。

嘈杂环境支持

为高人流量城市的客户服务亭提供支持，系统能够过滤掉警笛和人群噪音。

交互式 NPC 游戏

驱动非玩家角色（NPC），使其能够以自然的语音语调进行响应，并对玩家的肢体动作做出反应。

优势

局限性

原生音频处理: 严格执行端到端的语音到语音处理，能够检测文本模型所忽略的如沮丧或讽刺等口头细微差别。

同步工具使用: 函数调用按顺序执行，这意味着模型在等待工具响应时会完全停止说话。

高性能表现: 相较于前代产品，首个 token 的生成时间 (TTFT) 缩短了 2.5 倍。

零样本逻辑能力较弱: 对于复杂的博士级任务，其原始推理得分低于旗舰级 Gemini 3.1 Pro。

强大的噪音过滤: 即使在餐馆或繁忙道路等嘈杂环境中，在 Big Bench Audio 上的准确率仍保持在 95.9%。

定价复杂性: 文本、音频和视频的多重费率层级使得 multimodal 应用的成本预算难以预测。

可配置的推理: 允许开发者调高或调低 'thinkingLevel'，以在逻辑深度和速度之间找到最佳平衡。

预览阶段状态: 目前处于预览阶段，开发者可能会面临速率限制波动和未预先通知的行为调整。

API快速入门

google/gemini-3.1-flash-live-preview

查看文档

google SDK

import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

安装SDK并在几分钟内开始进行API调用。

人们对 Gemini 3.1 Flash Live Preview 的评价

看看社区对 Gemini 3.1 Flash Live Preview 的看法

“Gemini 3.1 Flash-Lite 正在推出……这是迄今为止速度最快、成本效益最高的 Gemini 3 系列模型。”

— BuildwithVignesh

“以 Flash-Lite 的成本匹配 2.5 Flash 的质量。专为实时对话优化的低延迟音频到音频模型。”

— Google AI

twitter

“3 Flash 在上下文增加时性能会有很大下降，但对于实时响应性来说，这是一个巨大的进步。”

— Pasto_Shouwa

“Google 真的在通过 3.1 Flash 压缩输入 token 的利润空间。对于简单的 Agent 来说，很难再找理由使用其他模型了。”

— AI_Dev_Master

hackernews

“纯粹的语音到语音架构彻底消除了使用链式转录模型时产生的尴尬停顿。”

— AIExplorer

youtube

“正在测试新的 Gemini 3.1 Flash Live Preview。可配置的思维级别对于平衡速度与推理能力非常有用。”

— DevGuru_X

twitter

关于 Gemini 3.1 Flash Live Preview 的视频

观看关于 Gemini 3.1 Flash Live Preview 的教程、评测和讨论

““你说话，它即刻响应。没有延迟，没有加载，没有奇怪的停顿。感觉就像在和真人交谈。””

““它在 Big Bench 音频 benchmark 上获得了 95.9% 的评分。这是音频推理领域的佼佼者。””

““你不需要下达指令后等待。你是与它实时协作构建。””

““当你在编程时，模型可以看到你的屏幕，并与你讨论更改。””

““定价分为文本和音频，所以你必须仔细计算你的成本。””

““它能捕捉到你的语调、语速和情绪。它能感知到沮丧或困惑。””

““Gemini 3.1 Flash Live 在最难的 AI 语音 benchmark 上排名世界第一。””

““它确实能理解复杂的话题。你可以为你使用的 AI 添加推理级别。””

““你可以中途打断它，它会立即停止并倾听新的指令。””

““128K 的 context window 意味着它能记住 30 分钟对话的开头。””

““它不再是先做语音转文字再转语音。而是直接的语音到语音。””

““该 Agent 能够在嘈杂的环境中听清声音……比如路边或嘈杂的餐馆。””

““当我打断它时，它停止说话的速度……我认为非常令人印象深刻。””

““你可以将其与本地代码 Agent 结合，真正用语音指令控制软件开发。””

““首个 token 的生成时间比上一代快了大约 2.5 倍。””

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量，帮助您在更短的时间内完成更多工作。

AI代理

网页自动化

智能工作流

免费开始

Gemini 3.1 Flash Live Preview专业提示

专家提示助您充分利用Gemini 3.1 Flash Live Preview。

调整推理级别

将 'thinkingLevel' 设置为 'minimal' 以获得最快的语音响应，或设置为 'high' 以处理复杂的多步逻辑任务。

使用增量更新

在活跃的音频会话期间通过 'send_realtime_input' 发送文本更新，为模型提供动态变化的上下文。

优化轮次覆盖范围

将轮次覆盖范围设置为 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' 以获得全面的 multimodal 理解。

初始化上下文

在开始 Live API 会话之前，使用 'send_client_content' 建立对话历史，以实现更好的连续性。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.