anthropic

Claude Sonnet 4.5

Claude 4.5 Sonnet de Anthropic ofrece un coding líder a nivel mundial (77.2% en SWE-bench) y un context window de 200K, optimizado para la próxima generación...

Coding con AIAgentic AIHybrid ReasoningAnthropicMultimodal
anthropic logoanthropicClaude 429 de septiembre de 2025
Contexto
200Ktokens
Salida máx.
64Ktokens
Precio entrada
$3.00/ 1M
Precio salida
$15.00/ 1M
Modalidad:TextImageAudioVideo
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
83%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). Claude Sonnet 4.5 obtuvo 83% en este benchmark.
HLE
34%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. Claude Sonnet 4.5 obtuvo 34% en este benchmark.
MMLU
89%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. Claude Sonnet 4.5 obtuvo 89% en este benchmark.
MMLU Pro
78%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. Claude Sonnet 4.5 obtuvo 78% en este benchmark.
SimpleQA
52%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. Claude Sonnet 4.5 obtuvo 52% en este benchmark.
IFEval
88%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. Claude Sonnet 4.5 obtuvo 88% en este benchmark.
AIME 2025
87%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. Claude Sonnet 4.5 obtuvo 87% en este benchmark.
MATH
87%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. Claude Sonnet 4.5 obtuvo 87% en este benchmark.
GSM8k
98%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. Claude Sonnet 4.5 obtuvo 98% en este benchmark.
MGSM
92%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. Claude Sonnet 4.5 obtuvo 92% en este benchmark.
MathVista
72%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. Claude Sonnet 4.5 obtuvo 72% en este benchmark.
SWE-Bench
77%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). Claude Sonnet 4.5 obtuvo 77% en este benchmark.
HumanEval
94%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. Claude Sonnet 4.5 obtuvo 94% en este benchmark.
LiveCodeBench
68%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. Claude Sonnet 4.5 obtuvo 68% en este benchmark.
MMMU
78%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. Claude Sonnet 4.5 obtuvo 78% en este benchmark.
MMMU Pro
55%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. Claude Sonnet 4.5 obtuvo 55% en este benchmark.
ChartQA
89%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. Claude Sonnet 4.5 obtuvo 89% en este benchmark.
DocVQA
92%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. Claude Sonnet 4.5 obtuvo 92% en este benchmark.
Terminal-Bench
50%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. Claude Sonnet 4.5 obtuvo 50% en este benchmark.
ARC-AGI
14%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. Claude Sonnet 4.5 obtuvo 14% en este benchmark.

Prueba Claude Sonnet 4.5 Gratis

Chatea con Claude Sonnet 4.5 gratis. Prueba sus capacidades, haz preguntas y explora lo que este modelo de IA puede hacer.

Prompt
Respuesta
Claude Sonnet 4.5

Tu respuesta de IA aparecerá aquí

Acerca de Claude Sonnet 4.5

Conoce las capacidades, características y formas de uso de Claude Sonnet 4.5.

**La Frontera de la Inteligencia Agentic**

Claude Sonnet 4.5 representa el salto más significativo de Anthropic en "frontier intelligence", optimizado específicamente para la era de los agents de AI autónomos. Lanzado a finales de 2025, es el primer model de la industria con un verdadero "hybrid reasoning", que permite a los desarrolladores alternar entre una ejecución de alta velocidad para tareas rutinarias y un extended thinking para desafíos lógicos complejos. Ha eclipsado notablemente los benchmarks anteriores en uso de computadoras y orquestación de herramientas, convirtiéndose en el motor preferido para agents basados en terminal e ingeniería de software de múltiples archivos.

**Precisión y Alucinaciones Reducidas**

El model está construido sobre una arquitectura que prioriza la lógica de "medir dos veces, cortar una", reduciendo significativamente la sicofonía y las alucinaciones observadas en la serie 3.5. Con un límite masivo de 64,000 output tokens y un context window de 200,000 tokens, puede ingerir repositorios enteros mientras genera archivos de aplicación de longitud completa en una sola pasada. También introduce "checkpoints" nativos para flujos de trabajo agentic, permitiendo que los agents retrocedan y corrijan sus propios errores de forma autónoma.

**Proeza Multimodal y de Reasoning**

Más allá del coding, Sonnet 4.5 domina en el análisis de documentos multimodal y el modelado financiero complejo. Su lógica interna está entrenada para priorizar el contexto arquitectónico, lo que le permite mapear codebases a gran escala mejor que cualquier predecesor. Ya sea procesando notas manuscritas o implementando una integración completa de Stripe, Sonnet 4.5 mantiene un alto nivel de precisión fáctica y seguimiento de instrucciones.

Claude Sonnet 4.5

Casos de uso de Claude Sonnet 4.5

Descubre las diferentes formas de usar Claude Sonnet 4.5 para lograr excelentes resultados.

Ingeniería de Software Autónoma

Usa Claude Sonnet 4.5 para navegar por codebases complejos, implementar funcionalidades en múltiples archivos y ejecutar pruebas de forma independiente.

Agents de Uso de Computadora

Despliega el model para controlar escritorios y navegadores web para extracción de datos, navegación en sistemas heredados o tareas administrativas repetitivas.

Búsqueda Agentic Empresarial

Orquestar consultas de búsqueda de múltiples pasos y sintetizar información dispar de documentación interna y la web en vivo.

Modelado Financiero Complejo

Aprovecha su puntuación del 87% en AIME para realizar deducciones lógicas profundas en informes financieros y datos de mercado.

Refinamiento de Contenido Técnico

Convierte requisitos de alto nivel en PRDs profesionales, especificaciones técnicas y codebases listos para copiar y pegar.

Análisis de Documentos Multimodal

Procesa miles de páginas de gráficos, notas manuscritas y diagramas técnicos con capacidades de visión state-of-the-art.

Fortalezas

Limitaciones

Poder de Coding Agentic: Actualmente ostenta el récord mundial en SWE-bench Verified con una tasa de éxito del 77.2% en problemas reales de GitHub.
Límites de Uso: Los usuarios profesionales a menudo informan que alcanzan rápidamente los límites de uso semanales en el plan Pro de $20/mes.
Velocidad Increíble: Opera a 40-60 tokens por segundo, lo que lo hace significativamente más rápido que anteriores frontier models para uso interactivo.
Latency de Búsqueda: La navegación web agentic (BrowseComp) sigue siendo un punto débil en comparación con modelos de búsqueda especializados.
Flexibilidad de Hybrid Reasoning: El primer model que equilibra eficazmente el modo de "chat rápido" con el "extended thinking" para cadenas lógicas complejas.
Brechas de Conocimiento en Nichos: Presenta dificultades en tareas visuales altamente especializadas, como identificar trucos específicos de skateboarding (29% de precisión en SkateBench).
Ventana de Output Masiva: Un límite de 64K output tokens permite la generación de funcionalidades completas de varios archivos en una sola llamada a la API.
Costes Agentic: Ejecutar el model de forma autónoma en modo terminal puede consumir entre $50 y $100 en tokens para una sola sesión compleja de construcción de aplicaciones.

Inicio rápido de API

anthropic/claude-sonnet-4.5

Ver documentación
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const msg = await anthropic.messages.create({
  model: "claude-sonnet-4.5-20250929",
  max_tokens: 1024,
  messages: [{ role: "user", content: "Implementa un limitador de tasa (rate limiter) en Node.js" }],
});

console.log(msg.content[0].text);

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre Claude Sonnet 4.5

Mira lo que la comunidad piensa sobre Claude Sonnet 4.5

"Claude Sonnet 4.5 es el nuevo rey del coding con AI... se ve muy, muy bien"
James Montemagno
youtube
"Sonnet 4.5 está haciendo un trabajo realmente bueno... fue mucho más rápido y bastante mejor"
Cole Medin
youtube
"Estoy alucinado con Sonnet 4.5... este está diseñando unas páginas absolutamente impresionantes"
Savage Reviews
youtube
"El agent basado en terminal es un 'desarrollador que vive en tu terminal'... puede leer codebases y ejecutar pruebas de forma autónoma"
DevUser_99
reddit
"El precio sigue siendo el mismo que el de 3.5, pero la función de 'Checkpoints' hace que valga 10 veces más para flujos de trabajo profesionales"
AgentArchitect
x
"Con un 77.2% en SWE-bench, este es el primer model que realmente se siente como un Ingeniero Senior"
HackerNewsReader
hackernews

Videos sobre Claude Sonnet 4.5

Mira tutoriales, reseñas y discusiones sobre Claude Sonnet 4.5

Anthropic afirma que este es el 'mejor model de código del mundo' con mejoras sustanciales en reasoning, matemáticas y uso de computadoras.

Aunque GPT-5 podría ser mejor para la planificación de alto nivel, Claude 4.5 Sonnet es actualmente el model más 'agradable' de usar para la implementación.

La velocidad es simplemente increíble, haciendo que el coding interactivo se sienta mucho más fluido.

Gestiona ediciones de múltiples archivos con un nivel de precisión que no habíamos visto antes.

La reducción de alucinaciones lo convierte en un socio confiable para código de producción.

Claude Sonnet 4.5 fue mucho más rápido y bastante mejor que GPT-5 Codex.

Hizo toda la implementación de Stripe en 15 minutos... más de dos veces más rápido que Opus 4.1.

La capacidad de seguir instrucciones complejas de tool-calling es su ingrediente secreto.

Estoy viendo menos problemas de 'sicofonía' donde el model simplemente está de acuerdo con mis malas ideas.

Este es el primer model en el que realmente confiaría para ejecutar un agent basado en terminal sin supervisión.

Esta es una de las mejores landing pages, si no LA mejor landing page, que he visto creada a partir de un prompt.

Es una absoluta bestia... está diseñando páginas realmente impresionantes con un código muy, muy bueno.

Las capacidades de visión para interpretar el diseño de UI han mejorado significativamente.

Siento que entiende los requisitos estéticos, no solo los técnicos.

Sonnet 4.5 es oficialmente el nuevo benchmark para la ingeniería front-end creativa.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes
Ver video demo

Consejos Pro

Consejos de expertos para ayudarte a sacar el máximo provecho de este modelo.

Aprovecha CLAUDE.md

Utiliza un archivo CLAUDE.md en la raíz de tu repositorio para dar al model resúmenes breves e indicaciones; esto reduce el desperdicio de tokens en un 30%.

Interruptor de Hybrid Reasoning

Usa el parameter 'thinking' en tus llamadas a la API solo para tareas con mucha carga lógica para ahorrar en latency y costes durante operaciones rutinarias.

La carpeta .claude/context

Crea un archivo .claude/context.md para almacenar decisiones de arquitectura; el model está entrenado específicamente para priorizar esta ruta para el mapeo del codebase.

Prompt Caching

Activa el prompt caching para documentación estática o codebases grandes para ahorrar hasta un 90% en costes de input en consultas repetidas.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M

Preguntas Frecuentes

Encuentra respuestas a preguntas comunes sobre este modelo