google

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview 是 Google 的超低延迟音频到音频模型,具有 131K context window、高保真 multimodal 推理和实时对话能力。

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time
google logogoogleGemini2026年3月26日
上下文
131Ktokens
最大输出
66Ktokens
输入价格
$0.75/ 1M
输出价格
$4.50/ 1M
模态:TextImageAudioVideo
能力:视觉工具流式传输推理
基准测试
GPQA
94%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 Gemini 3.1 Flash Live Preview 在此基准测试中得分 94%。
HLE
44%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 Gemini 3.1 Flash Live Preview 在此基准测试中得分 44%。
MMLU
91%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 Gemini 3.1 Flash Live Preview 在此基准测试中得分 91%。
MMLU Pro
89%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 Gemini 3.1 Flash Live Preview 在此基准测试中得分 89%。
SimpleQA
80%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 Gemini 3.1 Flash Live Preview 在此基准测试中得分 80%。
IFEval
88%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 Gemini 3.1 Flash Live Preview 在此基准测试中得分 88%。
AIME 2025
95%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 Gemini 3.1 Flash Live Preview 在此基准测试中得分 95%。
MATH
100%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 Gemini 3.1 Flash Live Preview 在此基准测试中得分 100%。
GSM8k
99%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 Gemini 3.1 Flash Live Preview 在此基准测试中得分 99%。
MGSM
92%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 Gemini 3.1 Flash Live Preview 在此基准测试中得分 92%。
MathVista
72%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 Gemini 3.1 Flash Live Preview 在此基准测试中得分 72%。
SWE-Bench
81%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 Gemini 3.1 Flash Live Preview 在此基准测试中得分 81%。
HumanEval
73%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 Gemini 3.1 Flash Live Preview 在此基准测试中得分 73%。
LiveCodeBench
80%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 Gemini 3.1 Flash Live Preview 在此基准测试中得分 80%。
MMMU
69%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 Gemini 3.1 Flash Live Preview 在此基准测试中得分 69%。
MMMU Pro
60%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 Gemini 3.1 Flash Live Preview 在此基准测试中得分 60%。
ChartQA
90%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 Gemini 3.1 Flash Live Preview 在此基准测试中得分 90%。
DocVQA
94%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 Gemini 3.1 Flash Live Preview 在此基准测试中得分 94%。
Terminal-Bench
69%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 Gemini 3.1 Flash Live Preview 在此基准测试中得分 69%。
ARC-AGI
77%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 Gemini 3.1 Flash Live Preview 在此基准测试中得分 77%。

关于 Gemini 3.1 Flash Live Preview

了解 Gemini 3.1 Flash Live Preview 的功能、特性以及它如何帮助您获得更好的效果。

Gemini 3.1 Flash Live Preview 是一款专为实时语音到语音对话而设计的低延迟 multimodal 模型。它基于 Google 的 Gemini 3 架构运行。稀疏专家混合 (MoE) 设计在降低推理成本的同时保持了高性能。传统模型执行的是语音转文字,随后再进行文字转语音。而该模型能原生处理音频流。它能检测声学上的细微差别,如语调、情绪和背景噪音,从而实现自然的交互。在官方文档中了解更多信息。

开发者将此模型用于需要数字精度和即时反馈的语音优先应用。它支持从最小到高不等的配置化思考级别。这允许用户在推理深度与 latency 要求之间取得平衡。凭借 131,072 个 token 的 context window 以及对文本、图像和视频的支持,它成为了一款多功能的引擎。目标用例包括实时 Agent、自动化客户支持和协作式编程环境。

打断处理和噪音过滤使其适用于真实世界的部署。该模型在保持对话流畅的同时会忽略警笛和人群噪音。开发者可以通过 Live API 访问它,无需单独的转录服务即可构建移动端和信息亭应用。

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview 的使用案例

发现使用 Gemini 3.1 Flash Live Preview 获得出色效果的不同方式。

实时语音 Agent

构建能即时响应用户语音的对话式 AI,适用于酒店、旅游和物流支持。

实时 multimodal 指导

通过同时分析用户的摄像头画面和音频,提供即时的健身或技术培训。

协作式编程助手

通过持续的语音指令和屏幕共享,引导 IDE 重构代码并更新 UI 组件。

低延迟翻译

通过在保留情感语境的同时进行语音到语音的翻译,促进跨语言对话。

嘈杂环境支持

为高人流量城市的客户服务亭提供支持,系统能够过滤掉警笛和人群噪音。

交互式 NPC 游戏

驱动非玩家角色(NPC),使其能够以自然的语音语调进行响应,并对玩家的肢体动作做出反应。

优势

局限性

原生音频处理: 严格执行端到端的语音到语音处理,能够检测文本模型所忽略的如沮丧或讽刺等口头细微差别。
同步工具使用: 函数调用按顺序执行,这意味着模型在等待工具响应时会完全停止说话。
高性能表现: 相较于前代产品,首个 token 的生成时间 (TTFT) 缩短了 2.5 倍。
零样本逻辑能力较弱: 对于复杂的博士级任务,其原始推理得分低于旗舰级 Gemini 3.1 Pro。
强大的噪音过滤: 即使在餐馆或繁忙道路等嘈杂环境中,在 Big Bench Audio 上的准确率仍保持在 95.9%。
定价复杂性: 文本、音频和视频的多重费率层级使得 multimodal 应用的成本预算难以预测。
可配置的推理: 允许开发者调高或调低 'thinkingLevel',以在逻辑深度和速度之间找到最佳平衡。
预览阶段状态: 目前处于预览阶段,开发者可能会面临速率限制波动和未预先通知的行为调整。

API快速入门

google/gemini-3.1-flash-live-preview

查看文档
google SDK
import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

安装SDK并在几分钟内开始进行API调用。

人们对 Gemini 3.1 Flash Live Preview 的评价

看看社区对 Gemini 3.1 Flash Live Preview 的看法

Gemini 3.1 Flash-Lite 正在推出……这是迄今为止速度最快、成本效益最高的 Gemini 3 系列模型。
BuildwithVignesh
reddit
以 Flash-Lite 的成本匹配 2.5 Flash 的质量。专为实时对话优化的低延迟音频到音频模型。
Google AI
twitter
3 Flash 在上下文增加时性能会有很大下降,但对于实时响应性来说,这是一个巨大的进步。
Pasto_Shouwa
reddit
Google 真的在通过 3.1 Flash 压缩输入 token 的利润空间。对于简单的 Agent 来说,很难再找理由使用其他模型了。
AI_Dev_Master
hackernews
纯粹的语音到语音架构彻底消除了使用链式转录模型时产生的尴尬停顿。
AIExplorer
youtube
正在测试新的 Gemini 3.1 Flash Live Preview。可配置的思维级别对于平衡速度与推理能力非常有用。
DevGuru_X
twitter

关于 Gemini 3.1 Flash Live Preview 的视频

观看关于 Gemini 3.1 Flash Live Preview 的教程、评测和讨论

“你说话,它即刻响应。没有延迟,没有加载,没有奇怪的停顿。感觉就像在和真人交谈。”

“它在 Big Bench 音频 benchmark 上获得了 95.9% 的评分。这是音频推理领域的佼佼者。”

“你不需要下达指令后等待。你是与它实时协作构建。”

“当你在编程时,模型可以看到你的屏幕,并与你讨论更改。”

“定价分为文本和音频,所以你必须仔细计算你的成本。”

“它能捕捉到你的语调、语速和情绪。它能感知到沮丧或困惑。”

“Gemini 3.1 Flash Live 在最难的 AI 语音 benchmark 上排名世界第一。”

“它确实能理解复杂的话题。你可以为你使用的 AI 添加推理级别。”

“你可以中途打断它,它会立即停止并倾听新的指令。”

“128K 的 context window 意味着它能记住 30 分钟对话的开头。”

“它不再是先做语音转文字再转语音。而是直接的语音到语音。”

“该 Agent 能够在嘈杂的环境中听清声音……比如路边或嘈杂的餐馆。”

“当我打断它时,它停止说话的速度……我认为非常令人印象深刻。”

“你可以将其与本地代码 Agent 结合,真正用语音指令控制软件开发。”

“首个 token 的生成时间比上一代快了大约 2.5 倍。”

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

Gemini 3.1 Flash Live Preview专业提示

专家提示助您充分利用Gemini 3.1 Flash Live Preview。

调整推理级别

将 'thinkingLevel' 设置为 'minimal' 以获得最快的语音响应,或设置为 'high' 以处理复杂的多步逻辑任务。

使用增量更新

在活跃的音频会话期间通过 'send_realtime_input' 发送文本更新,为模型提供动态变化的上下文。

优化轮次覆盖范围

将轮次覆盖范围设置为 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' 以获得全面的 multimodal 理解。

初始化上下文

在开始 Live API 会话之前,使用 'send_client_content' 建立对话历史,以实现更好的连续性。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M

关于Gemini 3.1 Flash Live Preview的常见问题

查找关于Gemini 3.1 Flash Live Preview的常见问题答案