anthropic

Claude Opus 4.5

Claude Opus 4.5 es el frontier model más potente de Anthropic, ofreciendo un rendimiento récord de 80.9% en SWE-bench y una autonomía avanzada para...

anthropic logoanthropicClaude 424 de noviembre de 2025
Contexto
200Ktokens
Salida máx.
64Ktokens
Precio entrada
$5.00/ 1M
Precio salida
$25.00/ 1M
Modalidad:TextImage
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
87%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). Claude Opus 4.5 obtuvo 87% en este benchmark.
MMLU
90.8%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. Claude Opus 4.5 obtuvo 90.8% en este benchmark.
MMLU Pro
80%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. Claude Opus 4.5 obtuvo 80% en este benchmark.
IFEval
90%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. Claude Opus 4.5 obtuvo 90% en este benchmark.
AIME 2025
37%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. Claude Opus 4.5 obtuvo 37% en este benchmark.
MATH
85%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. Claude Opus 4.5 obtuvo 85% en este benchmark.
GSM8k
95%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. Claude Opus 4.5 obtuvo 95% en este benchmark.
MGSM
92%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. Claude Opus 4.5 obtuvo 92% en este benchmark.
MathVista
72%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. Claude Opus 4.5 obtuvo 72% en este benchmark.
SWE-Bench
80.9%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). Claude Opus 4.5 obtuvo 80.9% en este benchmark.
HumanEval
90%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. Claude Opus 4.5 obtuvo 90% en este benchmark.
LiveCodeBench
75%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. Claude Opus 4.5 obtuvo 75% en este benchmark.
MMMU
80.7%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. Claude Opus 4.5 obtuvo 80.7% en este benchmark.
MMMU Pro
60%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. Claude Opus 4.5 obtuvo 60% en este benchmark.
ChartQA
90%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. Claude Opus 4.5 obtuvo 90% en este benchmark.
DocVQA
94%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. Claude Opus 4.5 obtuvo 94% en este benchmark.
Terminal-Bench
59.3%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. Claude Opus 4.5 obtuvo 59.3% en este benchmark.
ARC-AGI
37.6%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. Claude Opus 4.5 obtuvo 37.6% en este benchmark.

Acerca de Claude Opus 4.5

Conoce las capacidades, características y formas de uso de Claude Opus 4.5.

Claude Opus 4.5 es el flagship model de Anthropic, lanzado a finales de 2025. Está diseñado específicamente para la ingeniería de software compleja y el reasoning de alto nivel. El model alcanzó un récord de 80.9% en el benchmark SWE-bench Verified, convirtiéndolo en la opción principal para la depuración autónoma y la refactorización de sistemas. Introduce una personalidad refinada que enfatiza la honestidad diplomática y una ayuda matizada.

Optimización Multimodal y Agentic

La arquitectura admite una context window de 200,000 tokens y un límite de output de 64,000 tokens. Los desarrolladores pueden utilizar un parámetro effort especializado para escalar la profundidad del reasoning frente a los costes computacionales. Esta flexibilidad permite realizar tareas lógicas de alta intensidad o una redacción creativa más rápida y económica. El model es multimodal y destaca en la interpretación de diagramas arquitectónicos y diseños densos de UI.

Ingeniería y uso de herramientas

Optimizado para flujos de trabajo agentic, navega por entornos de terminal a través de Claude Code para realizar auditorías en todo el sistema. Reduce significativamente los precios de entrada y salida en comparación con las iteraciones flagship anteriores. Su capacidad para mantener la coherencia en tareas a largo plazo lo posiciona como un socio fiable para equipos de ingeniería profesional y análisis de datos complejos.

Claude Opus 4.5

Casos de uso de Claude Opus 4.5

Descubre las diferentes formas de usar Claude Opus 4.5 para lograr excelentes resultados.

Ingeniería de software autónoma

Automatización de depuración integral y refactorización de sistemas con una puntuación récord del 80.9% en SWE-bench.

Flujos de trabajo de investigación agentic

Síntesis de grandes cantidades de datos técnicos en estrategias de negocio accionables utilizando la context window de 200k.

Visión de alta fidelidad para UI/UX

Conversión de diseños complejos de Figma y diagramas de arquitectura en código frontend listo para producción con precisión píxel a píxel.

Orquestación multi-agent

Actuar como el cerebro central para equipos de sub-agentes que gestionan proyectos a largo plazo en bases de código dispares.

Análisis de datos avanzado

Automatización de modelos financieros complejos y flujos de trabajo en Excel con alta precisión y profundidad de reasoning.

Redacción literaria y creativa

Producción de prosa matizada que se adhiere a gustos literarios específicos y principios de diseño complejos centrados en el humano.

Fortalezas

Limitaciones

Rendimiento de élite en programación: El primer model en romper la barrera del 80% en SWE-bench Verified (80.9%), superando a todos los demás frontier models.
Brechas en benchmarks matemáticos: Aunque es de élite en programación, queda ligeramente por detrás de models especializados en matemáticas a nivel de doctorado.
Control flexible de razonamiento: El parámetro effort ofrece a los desarrolladores un control granular sobre el coste computacional y la profundidad de reasoning para flujos de trabajo específicos.
Latencia de planificación: Establecer el parámetro effort en high puede resultar en fases de pensamiento significativamente más largas antes del primer token.
Matiz conversacional natural: Reconocido por una personalidad refinada que maneja la ambigüedad y sigue configuraciones complejas de fondo sin directrices robóticas.
Límites de tokens de contexto: Los system prompts y las definiciones de herramientas pueden consumir una gran parte de la ventana antes de que comience el procesamiento.
Eficiencia de costes significativa: El precio de $5/$25 hace que la inteligencia de nivel Opus sea accesible para la producción empresarial de alto volumen.
Brechas en recuerdo de hechos: En pruebas de precisión especializadas como SimpleQA, todavía puede fabricar detalles ocasionalmente en comparación con competidores enfocados en búsqueda.

Inicio rápido de API

anthropic/claude-opus-4.5

Ver documentación
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const msg = await anthropic.messages.create({
  model: 'claude-opus-4-5-20251101',
  max_tokens: 4096,
  effort: 'high',
  messages: [{ role: 'user', content: 'Analiza esta arquitectura de sistema en busca de race conditions.' }],
});

console.log(msg.content[0].text);

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre Claude Opus 4.5

Mira lo que la comunidad piensa sobre Claude Opus 4.5

Claude Opus 4.5 se siente menos como un asistente sin estado y más como un compañero persistente. Puede rastrear suposiciones a través de múltiples archivos de una manera que se siente claramente más fuerte.
Federal-Piano8695
reddit
Ver a tu agente de IA desarrollar una personalidad en redes sociales que resuena con personas reales de formas que no puedes explicar. La infraestructura importa más que los prompts.
auxten
twitter
Opus es el model con mejor rendimiento en este aspecto. Su discusión es la más natural y realmente te sigue el ritmo en el debate.
ArchMeta1868
reddit
Opus 4.5 capta los matices más pequeños. Es el único model que incluye con éxito un mecanismo de trailer inline en la primera pasada.
Matt Berman
youtube
La puntuación de 80.9% en SWE-bench probablemente sea real, pero también algo engañosa. Requiere una configuración de entorno clara para alcanzar esas cifras de forma consistente.
testingcatalog
twitter
SWE-bench Verified: 80.9% (Opus 4.5) vs 71.3% (Claude 3-Opus). Este es un salto masivo en fiabilidad para el mundo real.
Daniel Garcia
medium

Videos sobre Claude Opus 4.5

Mira tutoriales, reseñas y discusiones sobre Claude Opus 4.5

Opus 4.5 capta los matices más pequeños

Fue el único model en incluir con éxito un mecanismo de trailer inline en la primera pasada

Una evaluación de código dirigida por agentes confirma esta sensación subjetiva, otorgando a Opus un 7/10 en completitud de funciones

El reasoning es mucho más lógico que en versiones anteriores al manejar casos límite

Mantiene la consistencia de la base de código durante sesiones de 30 minutos

El precio es ahora tres veces más barato. Solo costará $5 por un millón de input tokens

El precio es de $5 para input y $25 para output por un millón de tokens

Opus 4.5 obtuvo una puntuación más alta que la que cualquier candidato humano haya logrado jamás en el examen técnico de Anthropic

Este es el primer model en romper la barrera del 80 por ciento en SWE-bench

Gestiona sesiones de programación autónomas de 30 minutos sin intervención humana

Piensa en Claude Opus 4.5 como una capa de persuasión y un auténtico monstruo agentic

Es un absoluto monstruo agentic y de programación

Los ingenieros terminan prefiriendo trabajar con Claude Opus 4.5 porque obtienen esos ciclos de feedback ajustados

El parámetro de effort de razonamiento es la característica destacada para los desarrolladores

Se siente más como un colaborador que como una herramienta en discusiones de formato largo

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes

Consejos Pro para Claude Opus 4.5

Consejos de expertos para ayudarte a sacar el máximo provecho de Claude Opus 4.5.

Ajuste el esfuerzo de razonamiento

Utilice el parámetro effort seleccionando high para lógica compleja o tareas de programación, y medium para redacción creativa estándar.

Diseño nativo para visión

Suba capturas de pantalla de alta resolución de errores de UI, ya que el model está ajustado para identificar discrepancias visuales que las descripciones de texto pasan por alto.

System prompts estructurados

Defina roles agentic claros y niveles de esfuerzo en sus system prompts para evitar que el model sobrepiense tareas procedimentales más sencillas.

Compactación de contexto

Resuma el historial en sesiones largas para mantener la context window de 200k centrada en la información más relevante.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M

Preguntas Frecuentes Sobre Claude Opus 4.5

Encuentra respuestas a preguntas comunes sobre Claude Opus 4.5