anthropic

Claude Opus 4.5

Claude Opus 4.5 es el frontier model más potente de Anthropic, con un rendimiento récord del 80.9% en SWE-bench y una avanzada capacidad agentic.

anthropic logoanthropicClaudeNovember 24, 2025
Contexto
200Ktokens
Salida máx.
64Ktokens
Precio entrada
$5.00/ 1M
Precio salida
$25.00/ 1M
Modalidad:TextImage
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
87%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). Claude Opus 4.5 obtuvo 87% en este benchmark.
MMLU
90.8%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. Claude Opus 4.5 obtuvo 90.8% en este benchmark.
MMLU Pro
80%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. Claude Opus 4.5 obtuvo 80% en este benchmark.
IFEval
90%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. Claude Opus 4.5 obtuvo 90% en este benchmark.
AIME 2025
37%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. Claude Opus 4.5 obtuvo 37% en este benchmark.
MATH
85%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. Claude Opus 4.5 obtuvo 85% en este benchmark.
GSM8k
95%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. Claude Opus 4.5 obtuvo 95% en este benchmark.
MGSM
92%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. Claude Opus 4.5 obtuvo 92% en este benchmark.
MathVista
72%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. Claude Opus 4.5 obtuvo 72% en este benchmark.
SWE-Bench
80.9%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). Claude Opus 4.5 obtuvo 80.9% en este benchmark.
HumanEval
90%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. Claude Opus 4.5 obtuvo 90% en este benchmark.
LiveCodeBench
75%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. Claude Opus 4.5 obtuvo 75% en este benchmark.
MMMU
80.7%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. Claude Opus 4.5 obtuvo 80.7% en este benchmark.
MMMU Pro
60%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. Claude Opus 4.5 obtuvo 60% en este benchmark.
ChartQA
90%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. Claude Opus 4.5 obtuvo 90% en este benchmark.
DocVQA
94%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. Claude Opus 4.5 obtuvo 94% en este benchmark.
Terminal-Bench
59.3%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. Claude Opus 4.5 obtuvo 59.3% en este benchmark.
ARC-AGI
37.6%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. Claude Opus 4.5 obtuvo 37.6% en este benchmark.

Acerca de Claude Opus 4.5

Conoce las capacidades, características y formas de uso de Claude Opus 4.5.

El Pináculo de la Autonomía Agentic

Claude Opus 4.5 representa el salto más significativo de Anthropic en inteligencia frontier, diseñado específicamente para las tareas más complejas de ingeniería de software y operación autónoma. Lanzado a finales de 2025, rompió récords en el benchmark SWE-bench Verified con una puntuación del 80.9%, convirtiéndose en el primer model en automatizar eficazmente el debugging a gran escala y la refactorización de sistemas con una intervención humana mínima.

Inteligencia con Alma

Más allá de su destreza técnica, Opus 4.5 introduce una personalidad refinada guiada por el "documento del alma" de Anthropic, enfatizando la honestidad diplomática y una ayuda matizada. Esto hace que el model sea excepcionalmente capaz de entender el gusto literario y el diseño centrado en el usuario. Está optimizado para agentic workflows, con un context window de 200,000 tokens y un parameter 'effort' especializado que permite a los desarrolladores escalar la reasoning depth frente a los costos computacionales.

Excelencia Multimodal

Como potencia multimodal, Opus 4.5 destaca en tareas basadas en visión, desde el análisis de diagramas arquitectónicos densos hasta la extracción de datos de diseños de documentos complejos. Su capacidad para navegar en un entorno nativo de terminal a través de Claude Code le permite realizar auditorías de sistemas y parches de seguridad, posicionándolo como un socio persistente y altamente capaz para equipos de ingeniería profesionales.

Claude Opus 4.5

Casos de uso de Claude Opus 4.5

Descubre las diferentes formas de usar Claude Opus 4.5 para lograr excelentes resultados.

Ingeniería Autónoma

Automatiza el ciclo de vida completo de los issues en GitHub, incluyendo reproducción, debugging y pruebas.

Administración de Sistemas

Realiza auditorías de servidores y parches de seguridad de forma autónoma mediante interacción directa con la terminal.

Refactorización Arquitectónica

Procesa repositories masivos para sugerir e implementar el fortalecimiento de la seguridad en todo el sistema.

Síntesis de Documentos Complejos

Transforma cientos de PDFs de varias páginas en structured financial models o visualizaciones de datos.

Desarrollo Creativo de Videojuegos

Genera entornos 3D funcionales con física operativa a partir de un único prompt complejo.

Asistente de Investigación Persistente

Cruza datasets masivos para encontrar contradicciones no obvias en archivos legales o técnicos.

Fortalezas

Limitaciones

Coding sin precedentes: Alcanza un 80.9% en SWE-bench Verified, automatizando tareas complejas de ingeniería de software.
Modelo de precios premium: A $5/$25 por cada 1M de tokens, es significativamente más caro que los models de gama media.
Eficiencia de tokens superior: Logra una inteligencia de nivel frontier utilizando hasta un 76% menos de tokens que Sonnet para una lógica similar.
Brecha en benchmarks de matemáticas: Se queda por detrás de models de reasoning especializados en matemáticas de nivel de competición como la prueba AIME.
Context de 200K masivo: Gestiona conjuntos de documentos y repositories masivos con una alta precisión de recuperación.
Sin audio/video nativo: Actualmente carece de la capacidad para procesar directamente flujos de audio o video sin preprocesamiento.
Lógica de agent autónomo: Optimizado para sesiones autónomas de larga duración a través de herramientas nativas de terminal y stop hooks.
Alta latency de ejecución: Las tareas de deep reasoning pueden tomar un tiempo considerable, requiriendo a veces sesiones de varias horas para los agents.

Inicio rápido de API

anthropic/claude-4.5-opus

Ver documentación
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const client = new Anthropic({
  apiKey: process.env['ANTHROPIC_API_KEY'],
});

async function main() {
  const message = await client.messages.create({
    max_tokens: 4096,
    messages: [{ role: 'user', content: 'Realiza una auditoría completa de seguridad de este código.' }],
    model: 'claude-4.5-opus-20251124',
  });
  console.log(message.content[0].text);
}

main();

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre Claude Opus 4.5

Mira lo que la comunidad piensa sobre Claude Opus 4.5

"Cada línea de mi código de producción fue generada por Claude Code ejecutándose en Opus 4.5"
Boris Cherny
x
"Opus 4.5 es donde realmente aprecias el gusto literario y cómo suena como un humano"
Nate B Jones
youtube
"La inteligencia finalmente se está volviendo más barata; este model es 3 veces más económico que el anterior Opus"
BuildwithVignesh
reddit
"Claude Opus 4.5 rompió un benchmark por ser demasiado listo y aprovechar un vacío legal"
MetaKnowing
reddit
"La reasoning depth y la capacidad de coding están en otro nivel en comparación con cualquier otra cosa"
Santosh Gupta
x
"Las capacidades agentic en la terminal a través de Claude Code lo convierten en un referente para devops"
hn_user_alpha
hackernews

Videos sobre Claude Opus 4.5

Mira tutoriales, reseñas y discusiones sobre Claude Opus 4.5

El precio es ahora tres veces más bajo... $5 por un millón de input tokens.

Este es el mejor resultado que he obtenido de un model en esta prueba de Minecraft con un solo prompt.

Opus 4.5 obtuvo una puntuación más alta que cualquier candidato humano en este examen práctico.

El reasoning aquí no es solo seguir instrucciones; es entender la intención.

Si estás haciendo trabajo arquitectónico complejo, este es el único model que lo maneja de forma confiable.

80.9% en SWE-bench verified... y utiliza un 50% menos de tokens que Sonnet.

Opus 4.5 está dirigido directamente a la ingeniería de software profesional, no al coding por afición.

Más allá de SWE-bench, registra una mejora del 15% sobre Sonnet en Terminal Bench.

El model es capaz de sesiones autónomas de larga duración que pueden durar horas.

El rendimiento de visión es notablemente más detallado al analizar diagramas técnicos densos.

Piensa en Claude Opus 4.5 como una capa de persuasión y un absoluto monstruo agentic.

Muchos ingenieros terminan prefiriendo Opus 4.5 por su ergonomía y su entorno de trabajo.

El model es consciente de su especificación de 'alma' de una manera fuera de context.

Opus 4.5 muestra un nivel de gusto literario que GPT-5.2 simplemente no alcanza.

Utiliza un parameter de effort dinámico para escalar su inteligencia según la tarea.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes
Ver video demo

Consejos Pro para Claude Opus 4.5

Consejos de expertos para ayudarte a sacar el máximo provecho de Claude Opus 4.5.

Usa High Effort para Lógica

Configura el parameter 'effort' en 'high' para tareas arquitectónicas complejas para asegurar la máxima reasoning depth.

Implementa Stop Hooks

Utiliza stop hooks especializados en agentic workflows para permitir que el model se ejecute y se autocorrija durante varias horas.

Aprovecha Claude Code

Combina el model con la herramienta CLI Claude Code para desbloquear todo su potencial en tareas de sistema nativas de terminal.

Optimiza el uso de tokens

Utiliza Opus 4.5 solo para tareas de alta lógica, ya que ofrece una calidad equivalente a Sonnet con hasta un 76% menos de tokens.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.5

anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M

Preguntas Frecuentes Sobre Claude Opus 4.5

Encuentra respuestas a preguntas comunes sobre Claude Opus 4.5