google

Gemini 3.1 Pro

Gemini 3.1 Pro es el modelo multimodal de élite de Google que cuenta con el motor de reasoning DeepThink, una context window de más de 1M y puntuaciones de...

MultimodalDeep ReasoningGeneración de videoWorkspace AIGoogle Gemini
google logogoogleGemini19 de febrero de 2026
Contexto
2.0Mtokens
Salida máx.
66Ktokens
Precio entrada
$2.50/ 1M
Precio salida
$15.00/ 1M
Modalidad:TextImageAudioVideo
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
94.3%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). Gemini 3.1 Pro obtuvo 94.3% en este benchmark.
HLE
44.4%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. Gemini 3.1 Pro obtuvo 44.4% en este benchmark.
MMLU
80.6%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. Gemini 3.1 Pro obtuvo 80.6% en este benchmark.
MMLU Pro
79.2%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. Gemini 3.1 Pro obtuvo 79.2% en este benchmark.
SimpleQA
79.6%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. Gemini 3.1 Pro obtuvo 79.6% en este benchmark.
IFEval
92.4%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. Gemini 3.1 Pro obtuvo 92.4% en este benchmark.
AIME 2025
92%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. Gemini 3.1 Pro obtuvo 92% en este benchmark.
MATH
92%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. Gemini 3.1 Pro obtuvo 92% en este benchmark.
GSM8k
98.4%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. Gemini 3.1 Pro obtuvo 98.4% en este benchmark.
MGSM
96.5%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. Gemini 3.1 Pro obtuvo 96.5% en este benchmark.
MathVista
89.4%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. Gemini 3.1 Pro obtuvo 89.4% en este benchmark.
SWE-Bench
71%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). Gemini 3.1 Pro obtuvo 71% en este benchmark.
HumanEval
91.2%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. Gemini 3.1 Pro obtuvo 91.2% en este benchmark.
LiveCodeBench
82%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. Gemini 3.1 Pro obtuvo 82% en este benchmark.
MMMU
84.2%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. Gemini 3.1 Pro obtuvo 84.2% en este benchmark.
MMMU Pro
62.5%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. Gemini 3.1 Pro obtuvo 62.5% en este benchmark.
ChartQA
91.8%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. Gemini 3.1 Pro obtuvo 91.8% en este benchmark.
DocVQA
94.2%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. Gemini 3.1 Pro obtuvo 94.2% en este benchmark.
Terminal-Bench
58%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. Gemini 3.1 Pro obtuvo 58% en este benchmark.
ARC-AGI
77.1%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. Gemini 3.1 Pro obtuvo 77.1% en este benchmark.

Acerca de Gemini 3.1 Pro

Conoce las capacidades, características y formas de uso de Gemini 3.1 Pro.

Gemini 3.1 Pro representa una ejecución madura del framework Sparse Mixture-of-Experts (MoE), combinado de forma nativa con un motor de procesamiento multimodal avanzado. La característica destacada de la arquitectura es la democratización de la capa DeepThink System 2, que permite al model deliberar internamente antes de comprometerse con un output token. Este model introduce un sistema de pensamiento único de tres niveles: Low, Medium y High, lo que permite a los desarrolladores controlar explícitamente el equilibrio entre latency, costo y profundidad de reasoning.

Con una masiva context window de 1 millón de tokens, Gemini 3.1 Pro está altamente optimizado para flujos de trabajo complejos en finanzas, análisis de datos y migraciones de código de repositorios completos. Demuestra una capacidad emergente para resolver patrones lógicos novedosos, obteniendo un 77.1% sin precedentes en el benchmark ARC-AGI-2. Esto lo convierte en la opción preferida para los desarrolladores que requieren tanto interacciones multimodales de baja latency como un rendimiento cognitivo de alto nivel para tareas agentic autónomas.

Gemini 3.1 Pro

Casos de uso de Gemini 3.1 Pro

Descubre las diferentes formas de usar Gemini 3.1 Pro para lograr excelentes resultados.

Análisis de código de repositorio completo

Utiliza la context window de 1M para ingerir repositorios de software completos para refactorización y mapeo de dependencias.

Comités de agentes autónomos

Impulsa flujos de trabajo agentic de varios pasos donde sub-agentes internos debaten y verifican soluciones antes de la ejecución.

Síntesis de investigación científica

Analiza miles de artículos de investigación y conjuntos de datos complejos para extraer inteligencia estructurada y conocimientos fácticos.

Creación de contenido multimodal

Procesa simultáneamente texto, imágenes y audio para generar materiales educativos complejos y medios interactivos.

Automatización basada en terminal

Ejecuta comandos bash complejos y manipula sistemas de archivos con alta precisión mediante modos de reasoning avanzados.

Auditoría de datos empresariales

Analiza datos financieros no estructurados y documentos legales para identificar brechas de cumplimiento con una recuperación fáctica casi perfecta.

Fortalezas

Limitaciones

Líder en reasoning ARC-AGI-2: Obtuvo un 77.1% en ARC-AGI-2, más que duplicando la capacidad de reasoning de los modelos flagship anteriores.
Penalización de precio por contexto grande: Los precios de entrada y salida se duplican una vez que un prompt supera el umbral de 200,000 tokens, lo que afecta a trabajos por lotes masivos.
Context window de 1M de tokens: Gestiona bases de código masivas de múltiples archivos y videos de larga duración con una recuperación state-of-the-art y baja latency.
Verbosidad de salida extrema: Los benchmarks indican que el model puede ser excesivamente verboso, generando significativamente más tokens de los necesarios para tareas simples.
Estrategia de precios competitiva: Con un precio de $2/$12 por millón de tokens, es significativamente más asequible que los equivalentes de Anthropic u OpenAI.
Desafíos de tono matizado: La retroalimentación de la comunidad sugiere que el tono conversacional puede sentirse menos natural o matizado en comparación con la serie Claude 3.5.
Niveles de compute granulares: Cuenta con un sistema de pensamiento de tres niveles para un control preciso del desarrollador sobre la profundidad del reasoning interno y el costo.
Niveles de reasoning inconsistentes: La calidad del reasoning varía significativamente entre niveles, a menudo requiriendo experimentación manual para encontrar la configuración óptima.

Inicio rápido de API

google/gemini-3.1-pro-preview

Ver documentación
google SDK
import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI(process.env.GOOGLE_API_KEY);
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-pro-preview",
  thinkingConfig: { tier: "high" }
});

const prompt = "Analyze this entire codebase for security vulnerabilities.";
const result = await model.generateContent(prompt);
console.log(result.response.text());

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre Gemini 3.1 Pro

Mira lo que la comunidad piensa sobre Gemini 3.1 Pro

La puntuación de 77.1% de Gemini 3.1 Pro representa el cambio de mercado más disruptivo; más que duplica el máximo anterior en ARC-AGI.
enoumen
reddit
Los benchmarks de codificación no mienten. Este model encontró un bug en mi repositorio que 3.5 y GPT-4o pasaron por alto por completo.
SiliconValleyCoder
hackernews
El revuelo de Gemini 3.1 es realmente interesante. Aplastó los benchmarks, pero los usuarios reales dicen que el tono y la sensación son inconsistentes.
cryptopunk7213
twitter
El motor DeepThink puede generar retrasos significativos, a veces de más de 90 segundos, al procesar tareas que requieren lógica profunda.
TechReviewer2026
youtube
El context caching es la característica estrella aquí. Estoy ejecutando un bot de documentación completo por centavos en comparación con GPT-4o.
CloudArchitect
reddit
Gemini no logró hablar de Python en absoluto en una tarea de planificación compleja... algo de lógica simplemente no estaba presente en su plan final.
Temporary-Mix8022
reddit

Videos sobre Gemini 3.1 Pro

Mira tutoriales, reseñas y discusiones sobre Gemini 3.1 Pro

Gemini 3.1 Pro genera la versión más detallada de esta pagoda hasta el momento

Gemini tiene, con diferencia, la window más amplia de un millón de tokens

La fidelidad multimodal en el procesamiento de audio es notablemente mejor que en 3.0

El throughput de tokens se mantiene estable incluso cuando la context window se llena

La recuperación a largo plazo es prácticamente perfecta en todo el millón de tokens

En acertijos que no deberían estar en sus datos de entrenamiento, la serie Gemini 3 supera a todos los demás modelos

3.1 Pro podría realmente reducir el tiempo de ejecución de un script de fine-tuning de 300 segundos a 47 segundos

Los pasos de lógica de DeepThink son claramente visibles en el trace, mostrando una deliberación real

Estamos llegando a la saturación de benchmarks donde solo ARC-AGI realmente importa para el progreso

La trayectoria hacia la AGI se está acelerando basándose en estos saltos de reasoning abstracto

Creo que, como 3.1, realmente se siente como un paso adelante, incluso si es solo muy leve

Parece superar a Gemini 3.0 Pro cuando probamos exactamente los mismos prompts lado a lado

La precisión de codificación en refactorizaciones complejas de Python es la más alta que he visto

La confiabilidad de la API ha mejorado significativamente durante el último mes de pruebas

El rendimiento en el mundo real finalmente coincide con el hype de las puntuaciones de los benchmarks

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes

Consejos Pro para Gemini 3.1 Pro

Consejos de expertos para ayudarte a sacar el máximo provecho de Gemini 3.1 Pro.

Selección de nivel de reasoning

Utilice el modo de pensamiento High para matemáticas o lógica compleja, pero cambie a Low para un formateo estándar y así ahorrar compute.

Context Caching

Implemente context caching para documentación estática y así reducir los precios de entrada hasta en un 90% por millón de tokens.

Artifacts estructurados

Aproveche la capacidad del model para generar listas de tareas estructuradas que faciliten la supervisión humana durante ejecuciones agentic.

Prompting multimodal

Combine entradas de video y audio para darle al model un contexto completo de escenarios del mundo real en lugar de descripciones solo en texto.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M

Preguntas Frecuentes Sobre Gemini 3.1 Pro

Encuentra respuestas a preguntas comunes sobre Gemini 3.1 Pro