google

Gemini 3.1 Pro

Gemini 3.1 Pro 是 Google 的 elite multimodal model,具备 DeepThink reasoning 引擎、1M+ context window 以及行业领先的 ARC-AGI 逻辑分数。

MultimodalDeep ReasoningVideo GenerationWorkspace AIGoogle Gemini
google logogoogleGemini2026年2月19日
上下文
2.0Mtokens
最大输出
66Ktokens
输入价格
$2.50/ 1M
输出价格
$15.00/ 1M
模态:TextImageAudioVideo
能力:视觉工具流式传输推理
基准测试
GPQA
94.3%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 Gemini 3.1 Pro 在此基准测试中得分 94.3%。
HLE
44.4%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 Gemini 3.1 Pro 在此基准测试中得分 44.4%。
MMLU
80.6%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 Gemini 3.1 Pro 在此基准测试中得分 80.6%。
MMLU Pro
79.2%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 Gemini 3.1 Pro 在此基准测试中得分 79.2%。
SimpleQA
79.6%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 Gemini 3.1 Pro 在此基准测试中得分 79.6%。
IFEval
92.4%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 Gemini 3.1 Pro 在此基准测试中得分 92.4%。
AIME 2025
92%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 Gemini 3.1 Pro 在此基准测试中得分 92%。
MATH
92%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 Gemini 3.1 Pro 在此基准测试中得分 92%。
GSM8k
98.4%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 Gemini 3.1 Pro 在此基准测试中得分 98.4%。
MGSM
96.5%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 Gemini 3.1 Pro 在此基准测试中得分 96.5%。
MathVista
89.4%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 Gemini 3.1 Pro 在此基准测试中得分 89.4%。
SWE-Bench
71%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 Gemini 3.1 Pro 在此基准测试中得分 71%。
HumanEval
91.2%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 Gemini 3.1 Pro 在此基准测试中得分 91.2%。
LiveCodeBench
82%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 Gemini 3.1 Pro 在此基准测试中得分 82%。
MMMU
84.2%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 Gemini 3.1 Pro 在此基准测试中得分 84.2%。
MMMU Pro
62.5%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 Gemini 3.1 Pro 在此基准测试中得分 62.5%。
ChartQA
91.8%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 Gemini 3.1 Pro 在此基准测试中得分 91.8%。
DocVQA
94.2%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 Gemini 3.1 Pro 在此基准测试中得分 94.2%。
Terminal-Bench
58%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 Gemini 3.1 Pro 在此基准测试中得分 58%。
ARC-AGI
77.1%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 Gemini 3.1 Pro 在此基准测试中得分 77.1%。

关于 Gemini 3.1 Pro

了解 Gemini 3.1 Pro 的功能、特性以及它如何帮助您获得更好的效果。

Gemini 3.1 Pro 代表了 Sparse Mixture-of-Experts (MoE) 框架的成熟落地,并原生配对了一个先进的 multimodal 处理引擎。该架构的突出功能是 DeepThink System 2 层的民主化,允许 model 在确定输出 token 之前进行内部审慎思考。该 model 引入了独特的低、中、高三级 thinking 系统,允许开发者显式控制 latency、成本和 reasoning 深度之间的权衡。

凭借 100 万 token 的 context window,Gemini 3.1 Pro 针对金融、数据分析和全库代码迁移中的复杂工作流进行了高度优化。它展示了解决新颖逻辑模式的突发能力,在 ARC-AGI-2 benchmark 上获得了史无前例的 77.1% 分数。这使其成为需要低 latency multimodal 交互以及自主 agentic 任务所需的高级认知能力的开发者的首选。

Gemini 3.1 Pro

Gemini 3.1 Pro 的使用案例

发现使用 Gemini 3.1 Pro 获得出色效果的不同方式。

全库代码分析

利用 1M context window 摄取整个软件 codebase,用于重构和依赖映射。

自主 Agent 委员会

驱动多步骤 agentic 工作流,其中内部子 agent 在执行前对解决方案进行辩论和验证。

科学研究综合

分析数千篇研究论文和复杂数据集,以提取结构化智能和事实洞察。

Multimodal 内容创作

同时处理文本、图像和音频,以生成复杂的教学材料和互动媒体。

终端自动化

通过高级 reasoning 模式,以高精度执行复杂的 bash 命令并操作文件系统。

企业数据审计

解析非结构化财务数据和法律文档,以近乎完美的事实召回能力识别合规缺口。

优势

局限性

ARC-AGI-2 Reasoning 领导者: 在 ARC-AGI-2 上获得 77.1% 的分数,是之前 flagship model reasoning 能力的两倍以上。
长 Context 定价惩罚: 一旦 prompt 超过 200,000 token 阈值,输入和输出价格即翻倍,影响大规模批量作业。
1M Token Context Window: 处理海量多文件 codebase 和长视频,具备 state-of-the-art 召回能力和低 latency。
极度冗长的输出: benchmark 显示该 model 可能过于冗长,对于简单任务生成的 token 明显多于所需。
极具竞争力的定价策略: 定价为每百万 token 2 美元/12 美元,使其比 Anthropic 或 OpenAI 的同类产品更经济实惠。
微妙语气的挑战: 社区反馈表明,与 Claude 3.5 系列相比,其对话语气的自然度或细微差别可能稍逊一筹。
精细化计算级别: 具有三级 thinking 系统,开发者可精确控制内部 reasoning 深度和成本。
Reasoning 级别不一致: Reasoning 质量在不同级别之间差异很大,通常需要手动实验才能找到最佳设置。

API快速入门

google/gemini-3.1-pro-preview

查看文档
google SDK
import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI(process.env.GOOGLE_API_KEY);
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-pro-preview",
  thinkingConfig: { tier: "high" }
});

const prompt = "Analyze this entire codebase for security vulnerabilities.";
const result = await model.generateContent(prompt);
console.log(result.response.text());

安装SDK并在几分钟内开始进行API调用。

人们对 Gemini 3.1 Pro 的评价

看看社区对 Gemini 3.1 Pro 的看法

Gemini 3.1 Pro 获得的 77.1% 分数代表了最具破坏性的市场转变;它使之前的 ARC-AGI 高分翻了一倍多。
enoumen
reddit
编码 benchmark 不会说谎。这个 model 在我的 repo 中发现了一个 3.5 和 GPT-4o 完全错过的 bug。
SiliconValleyCoder
hackernews
关于 Gemini 3.1 的争议很有趣。它粉碎了 benchmark,但真实用户反映其语气和感觉不一致。
cryptopunk7213
twitter
DeepThink 引擎在处理需要深入逻辑的任务时,可能会导致明显的延迟,有时超过 90 秒。
TechReviewer2026
youtube
Context caching 是这里的杀手级功能。与 GPT-4o 相比,我运行整个文档机器人只需要几分钱。
CloudArchitect
reddit
Gemini 在一个复杂的规划任务中根本没有讨论 Python……最终计划中缺少了一些逻辑。
Temporary-Mix8022
reddit

关于 Gemini 3.1 Pro 的视频

观看关于 Gemini 3.1 Pro 的教程、评测和讨论

Gemini 3.1 Pro 生成了目前为止最详细的宝塔版本

Gemini 拥有目前为止最宽的 1M token context window

音频处理中的 multimodal 保真度明显优于 3.0

即使 context window 被填满,token throughput 依然保持稳定

在整个百万 token 范围内的长期召回能力几乎是完美的

在训练数据中不应该包含的谜题上,Gemini 3 系列的表现优于所有其他 model

3.1 Pro 确实可以将 fine-tuning 脚本的运行时间从 300 秒缩短到 47 秒

DeepThink 的逻辑步骤在跟踪中清晰可见,展现了真正的审慎思考

我们正达到 benchmark 饱和点,只有 ARC-AGI 对进展真正重要

基于这些抽象 reasoning 的跃升,AGI 轨迹正在加速

我确实认为 3.1 感觉像是向前迈进了一步,即使只是非常微小的提升

当我们并排测试完全相同的 prompt 时,它看起来确实优于 Gemini 3.0 Pro

在复杂 Python 重构上的编码准确性是我见过最高的

过去一个月的测试表明,API 可靠性有了显著提高

实际表现终于达到了 benchmark 分数所带来的期待

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

Gemini 3.1 Pro专业提示

专家提示助您充分利用Gemini 3.1 Pro。

Reasoning 级别选择

针对复杂的数学或逻辑问题使用 High thinking 模式,但针对标准格式处理切换到 Low 模式以节省 compute。

Context Caching

针对静态文档实施 context caching,可将每百万 token 的输入价格降低高达 90%。

结构化 Artifacts

利用 model 生成结构化任务列表的能力,以便在 agentic 运行期间更轻松地进行人工监督。

Multimodal Prompting

结合视频和音频输入,为 model 提供真实世界场景的全方位 context,而非仅限于文本描述。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M

关于Gemini 3.1 Pro的常见问题

查找关于Gemini 3.1 Pro的常见问题答案