anthropic

Claude Sonnet 4.5

Claude Sonnet 4.5 de Anthropic ofrece la mejor programación del mundo (77.2% en SWE-bench) y una context window de 200K, optimizada para la próxima generación...

Programación con IAAgentic AIHybrid ReasoningAnthropicMultimodal
anthropic logoanthropicClaude29 de septiembre de 2025
Contexto
200Ktokens
Salida máx.
64Ktokens
Precio entrada
$3.00/ 1M
Precio salida
$15.00/ 1M
Modalidad:TextImageAudioVideo
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
83%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). Claude Sonnet 4.5 obtuvo 83% en este benchmark.
HLE
34%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. Claude Sonnet 4.5 obtuvo 34% en este benchmark.
MMLU
89%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. Claude Sonnet 4.5 obtuvo 89% en este benchmark.
MMLU Pro
78%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. Claude Sonnet 4.5 obtuvo 78% en este benchmark.
SimpleQA
52%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. Claude Sonnet 4.5 obtuvo 52% en este benchmark.
IFEval
88%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. Claude Sonnet 4.5 obtuvo 88% en este benchmark.
AIME 2025
87%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. Claude Sonnet 4.5 obtuvo 87% en este benchmark.
MATH
87%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. Claude Sonnet 4.5 obtuvo 87% en este benchmark.
GSM8k
98%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. Claude Sonnet 4.5 obtuvo 98% en este benchmark.
MGSM
92%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. Claude Sonnet 4.5 obtuvo 92% en este benchmark.
MathVista
72%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. Claude Sonnet 4.5 obtuvo 72% en este benchmark.
SWE-Bench
77%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). Claude Sonnet 4.5 obtuvo 77% en este benchmark.
HumanEval
94%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. Claude Sonnet 4.5 obtuvo 94% en este benchmark.
LiveCodeBench
68%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. Claude Sonnet 4.5 obtuvo 68% en este benchmark.
MMMU
78%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. Claude Sonnet 4.5 obtuvo 78% en este benchmark.
MMMU Pro
55%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. Claude Sonnet 4.5 obtuvo 55% en este benchmark.
ChartQA
89%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. Claude Sonnet 4.5 obtuvo 89% en este benchmark.
DocVQA
92%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. Claude Sonnet 4.5 obtuvo 92% en este benchmark.
Terminal-Bench
50%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. Claude Sonnet 4.5 obtuvo 50% en este benchmark.
ARC-AGI
14%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. Claude Sonnet 4.5 obtuvo 14% en este benchmark.

Acerca de Claude Sonnet 4.5

Conoce las capacidades, características y formas de uso de Claude Sonnet 4.5.

**La frontera de la inteligencia agentic**

Claude 4.5 Sonnet representa un gran avance en la inteligencia de frontera, optimizado para la era de los agentes de IA autónomos. Lanzado a finales de 2025, es un model de hybrid reasoning que permite a los desarrolladores alternar entre una ejecución de alta velocidad para tareas rutinarias y un thinking extendido para desafíos lógicos complejos. Lidera los benchmarks en computer use y orquestación de herramientas, lo que lo convierte en el motor preferido para agentes basados en terminal e ingeniería de software con múltiples archivos.

**Precisión y reducción de alucinaciones**

La arquitectura del model prioriza la lógica y la precisión, reduciendo la sicofancia y las alucinaciones observadas en series anteriores. Con un límite de salida de 64,000 tokens y una ventana de entrada de 200,000 tokens, puede procesar repositorios completos mientras genera archivos de aplicación completos en una sola pasada. Introduce checkpoints nativos para flujos de trabajo agentic, permitiendo que los sistemas vuelvan atrás y corrijan errores de forma autónoma sin intervención humana.

**Proeza multimodal y de reasoning**

Más allá del desarrollo de software, Sonnet 4.5 destaca en el análisis multimodal de documentos y el modelado financiero. Su lógica interna prioriza el contexto arquitectónico, lo que le permite mapear sistemas a gran escala con mayor eficacia que sus predecesores. Ya sea procesando notas escritas a mano o implementando integraciones de API, el model mantiene una alta precisión factual y un estricto seguimiento de instrucciones a través de tareas de largo horizonte.

Claude Sonnet 4.5

Casos de uso de Claude Sonnet 4.5

Descubre las diferentes formas de usar Claude Sonnet 4.5 para lograr excelentes resultados.

Ingeniería de software autónoma

Gestión del desarrollo de extremo a extremo, desde los requisitos iniciales hasta los commits automatizados mediante interfaces de terminal.

Automatización basada en GUI

Automatización de la navegación web y entrada de datos en aplicaciones heredadas utilizando capacidades nativas de computer use.

Orquestación multi-agente

Delegación de tareas especializadas a sub-agentes como revisores y constructores dentro de un ciclo de planificación central.

Refactorización de código compleja

Re-arquitectura de bases de código con múltiples archivos manteniendo la consistencia a través de 200,000 tokens de contexto activo.

Análisis financiero detallado

Análisis de informes trimestrales y hojas de cálculo con visión para identificar discrepancias e insights de inversión.

Visualización de datos interactiva

Generación de gráficos dinámicos a partir de conjuntos de datos complejos mediante la ejecución de código incrustado y construcción en tiempo real.

Fortalezas

Limitaciones

Computer use nativo: El model interactúa con sistemas operativos mediante el movimiento del cursor y manipulación de GUI con un 61.4 por ciento de precisión.
Sin entrada de audio nativa: El model no puede procesar archivos de audio directamente como modalidad nativa y requiere herramientas de transcripción externas.
Rendimiento de codificación de élite: Alcanza un 77.2 por ciento en SWE-bench Verified, superando a todos los demás modelos en la resolución de problemas de GitHub.
Costo de tokens de reasoning: Los tokens utilizados durante el thinking extendido interno se facturan como tokens de salida, lo que aumenta el costo para consultas complejas.
Horizonte de tareas de 30 horas: La arquitectura permite 30 horas de trabajo autónomo continuo manteniendo el estado y el enfoque.
Latencia en modo thinking: Cuando el thinking extendido está habilitado, el model puede tardar varios minutos en procesar planes arquitectónicos complejos.
Límite de salida de 64K: La capacidad masiva de salida permite generar arquitecturas de aplicaciones completas en una sola llamada a la API.
Varianza en matemáticas competitivas: Aunque lidera en programación, a veces queda por detrás de modelos de reasoning especializados en benchmarks de programación competitiva específicos.

Inicio rápido de API

anthropic/claude-4-5-sonnet

Ver documentación
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const response = await anthropic.messages.create({
  model: "claude-4-5-sonnet-20250929",
  max_tokens: 1024,
  messages: [
    { role: "user", content: "Analyze this codebase for security flaws." }
  ],
});

console.log(response.content[0].text);

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre Claude Sonnet 4.5

Mira lo que la comunidad piensa sobre Claude Sonnet 4.5

Claude 4.5 Sonnet está disponible en todas partes hoy, el mejor model de programación del mundo.
ClaudeOfficial
reddit
Esto soluciona uno de los problemas de escalado más dolorosos con las configuraciones MCP. Estaba viendo cómo el contexto se evaporaba antes de que comenzara cualquier trabajo real.
Simon Willison
twitter
Claude Code-Sonnet 4.5 está muy por delante de Gemini 3.0 Pro para tareas complejas de refactorización Dockerizada.
Comfortable-Friend96
reddit
El patrón: los errores se convierten en documentación. Añades una regla a CLAUDE.md y nunca vuelve a ocurrir.
Boris Cherny
twitter
El modo de hybrid reasoning es un salvavidas para depurar lógica asíncrona compleja donde los modelos regulares simplemente entran en bucle.
AsyncDev
hackernews
La paridad de precios con 3.5 Sonnet hace que esta sea una actualización sencilla para todos nuestros pipelines de agentes en producción.
StartupFounder2025
reddit

Videos sobre Claude Sonnet 4.5

Mira tutoriales, reseñas y discusiones sobre Claude Sonnet 4.5

Este nuevo model 4.5 Sonnet está superando incluso a Opus 4.1 en la prueba Swaybench verified

Fue capaz de mantener el enfoque durante más de 30 horas en tareas complejas de varios pasos

Lidera el benchmark de computer use OS world con una puntuación del 61.4 por ciento

El motor de reasoning interno maneja entornos de Python con mucha más estabilidad que la versión 3.5

La integración de terminal se siente mucho más ajustada con casi cero comandos de shell alucinados

Sonnet 4.5 lidera ahora en el uso de herramientas agentic... un salto del 20 por ciento, lo cual es muy emocionante

Claude code con Sonnet 4.5 terminó toda la implementación de Stripe en 15 minutos

Claude Sonnet 4.5 fue mucho más rápido y notablemente mejor

El interruptor de thinking le permite asignar más cómputo a bloques específicos de código

Conserva el contexto perfectamente incluso cuando estás 150,000 tokens adentro en un proyecto masivo

Es el model de mejor rendimiento hasta la fecha cuando controla tu computadora

Caída en las tasas de error de programación del 9 por ciento a prácticamente cero

Claude imagine podría ser la característica más genial... una experiencia de creación de aplicaciones en tiempo real

La integración MCP le permite buscar herramientas sin consumir tu contexto de prompt

La latencia de visión se reduce significativamente al analizar diseños de interfaz de usuario complejos

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes

Consejos Pro para Claude Sonnet 4.5

Consejos de expertos para ayudarte a sacar el máximo provecho de Claude Sonnet 4.5.

Habilitar la búsqueda de herramientas MCP

Utilice la búsqueda de herramientas del Model Context Protocol para reducir el uso de contexto en un 85 por ciento y dejar espacio para archivos activos.

Aprovechar los checkpoints agentic

Use el comando /checkpoint en las interfaces de terminal para guardar el progreso antes de refactorizaciones importantes y permitir una reversión instantánea.

Presupuesto de contexto

Borre el historial entre tareas no relacionadas para evitar la degradación del contexto y mantener una alta precisión lógica.

Jerarquía de system prompt

Defina la personalidad del model y restricciones estrictas de salida en un archivo de configuración dedicado para mantener la consistencia entre agentes.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M

Preguntas Frecuentes Sobre Claude Sonnet 4.5

Encuentra respuestas a preguntas comunes sobre Claude Sonnet 4.5