anthropic

Claude Sonnet 4.6

Claude Sonnet 4.6 ofrece rendimiento de frontera para programación y computer use con un masivo context window de 1M de tokens por solo $3/1M de tokens.

IA AgénticaMultimodalProgramaciónComputer UseContexto Largo
anthropic logoanthropicClaude17 de febrero de 2026
Contexto
1.0Mtokens
Salida máx.
64Ktokens
Precio entrada
$3.00/ 1M
Precio salida
$15.00/ 1M
Modalidad:TextImageAudioVideo
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
89.9%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). Claude Sonnet 4.6 obtuvo 89.9% en este benchmark.
HLE
49%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. Claude Sonnet 4.6 obtuvo 49% en este benchmark.
MMLU
89.3%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. Claude Sonnet 4.6 obtuvo 89.3% en este benchmark.
MMLU Pro
79.2%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. Claude Sonnet 4.6 obtuvo 79.2% en este benchmark.
SimpleQA
48.5%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. Claude Sonnet 4.6 obtuvo 48.5% en este benchmark.
IFEval
89.5%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. Claude Sonnet 4.6 obtuvo 89.5% en este benchmark.
AIME 2025
83%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. Claude Sonnet 4.6 obtuvo 83% en este benchmark.
MATH
85.3%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. Claude Sonnet 4.6 obtuvo 85.3% en este benchmark.
GSM8k
96.4%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. Claude Sonnet 4.6 obtuvo 96.4% en este benchmark.
MGSM
92.8%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. Claude Sonnet 4.6 obtuvo 92.8% en este benchmark.
MathVista
68.7%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. Claude Sonnet 4.6 obtuvo 68.7% en este benchmark.
SWE-Bench
79.6%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). Claude Sonnet 4.6 obtuvo 79.6% en este benchmark.
HumanEval
92.1%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. Claude Sonnet 4.6 obtuvo 92.1% en este benchmark.
LiveCodeBench
72.4%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. Claude Sonnet 4.6 obtuvo 72.4% en este benchmark.
MMMU
74.2%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. Claude Sonnet 4.6 obtuvo 74.2% en este benchmark.
MMMU Pro
75.6%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. Claude Sonnet 4.6 obtuvo 75.6% en este benchmark.
ChartQA
88.1%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. Claude Sonnet 4.6 obtuvo 88.1% en este benchmark.
DocVQA
93.4%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. Claude Sonnet 4.6 obtuvo 93.4% en este benchmark.
Terminal-Bench
59.1%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. Claude Sonnet 4.6 obtuvo 59.1% en este benchmark.
ARC-AGI
58.3%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. Claude Sonnet 4.6 obtuvo 58.3% en este benchmark.

Acerca de Claude Sonnet 4.6

Conoce las capacidades, características y formas de uso de Claude Sonnet 4.6.

**Un Salto Generacional en Inteligencia**

Claude Sonnet 4.6 es el model más capaz y versátil de Anthropic hasta la fecha, diseñado para servir como un motor de alto rendimiento para flujos de trabajo complejos de empresas y desarrolladores. Lanzado el 17 de febrero de 2026, representa un gran salto generacional sobre la serie 4.5, introduciendo capacidades de computer use a nivel humano y un masivo context window de 1 millón de tokens en fase beta. El model está optimizado para tareas agénticas, lo que significa que no solo procesa texto, sino que puede planificar y ejecutar de forma autónoma operaciones de varios pasos en diversos entornos de software.

**Sofisticación Técnica y Multimodalidad**

Tecnicamente, Sonnet 4.6 cierra la brecha entre la velocidad de los models de nivel medio y el reasoning profundo de la clase Opus. Cuenta con Adaptive Thinking, lo que le permite escalar su esfuerzo de reasoning interno basándose en la complejidad de la tarea. Este model se ha convertido en el nuevo estándar predeterminado para los usuarios de Claude Free y Pro, ofreciendo una inteligencia de flagship en programación, análisis financiero y comprensión de documentos. Es un multimodal verdaderamente nativo, que admite inputs de texto, imagen, audio y video para procesar una variedad de tareas de procesamiento de medios con una precisión de vanguardia.

**El Nuevo Estándar de la Industria para Agentes**

Con su relación rendimiento-coste de élite, Sonnet 4.6 se posiciona como el motor principal para agentes de IA. Logra puntuaciones líderes en la industria en SWE-bench Verified (79.6%) y OSWorld-Verified (72.5%), demostrando su capacidad superior para navegar por problemas reales de ingeniería de software y tareas complejas de sistemas operativos. Al proporcionar una inteligencia cercana a la de Opus a una fracción del coste, permite a los desarrolladores construir sistemas autónomos que antes eran prohibitivos desde el punto de vista computacional o financiero.

Claude Sonnet 4.6

Casos de uso de Claude Sonnet 4.6

Descubre las diferentes formas de usar Claude Sonnet 4.6 para lograr excelentes resultados.

Ingeniería de Software Autónoma

Uso de Claude Code para refactorizar repositorios completos e implementar funciones complejas con un contexto que abarca todo el repositorio.

Computer Use a Nivel Humano

Automatización de software heredado y flujos de trabajo web visualizando la pantalla e interactuando mediante ratón y teclado virtuales.

Comprensión de Documentos Financieros

Análisis de miles de páginas de presentaciones y tablas para aplicar reasoning a estrategias de inversión o riesgos complejos.

Simulación de Negocios en Tiempo Real

Ejecución de simulaciones agentic donde el model gestiona un negocio virtual y optimiza la rentabilidad.

Escritura Técnica Multilingüe

Generación de documentación técnica en docenas de idiomas manteniendo un cumplimiento perfecto de las especificaciones arquitectónicas.

Generación de UI/UX Frontend

Creación de interfaces de dashboards pulidas y modernas con enfoque en tipografía, teoría del color y diseño responsivo.

Fortalezas

Limitaciones

Programación Líder en la Industria: Logra un estado-de-la-arte del 79.6% en SWE-bench Verified, superando a sus competidores en la resolución de problemas reales de GitHub.
Latencia en Modo Thinking: Los presupuestos altos de thinking tokens aumentan el tiempo hasta el primer token, lo que lo hace menos ideal para chats instantáneos en tiempo real.
Relación Rendimiento-Coste de Élite: Ofrece niveles de inteligencia cercanos a Opus con un coste 5 veces menor, convirtiéndose en la opción más económica para grandes automatizaciones.
Fricción por Límites de Velocidad: Los usuarios de los planes Free y Pro encuentran límites de mensajes agresivos durante sesiones intensas, lo que requiere pasar a la API.
Navegación de Computadora a Nivel Humano: Obtiene un 72.5% en OSWorld-Verified, mostrando una mejora masiva en la navegación de software complejo sin necesidad de APIs.
Decaimiento del Contexto por Encima de 150k: A pesar del context window de 1M, el model todavía puede perder ocasionalmente detalles específicos situados en la mitad de prompts muy extensos.
Potencia de Reasoning Adaptativo: Incluye un modo Thinking escalable que permite a los desarrolladores aumentar el esfuerzo de reasoning para problemas lógicos difíciles.
Vulnerabilidad a Prompt Injection: La función Computer Use plantea riesgos donde sitios web maliciosos podrían intentar secuestrar la sesión de navegación virtual del model.

Inicio rápido de API

anthropic/claude-sonnet-4-6

Ver documentación
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const msg = await anthropic.messages.create({
  model: 'claude-sonnet-4-6',
  max_tokens: 1024,
  messages: [
    { role: 'user', content: 'Analiza esta base de código en busca de vulnerabilidades de seguridad.' }
  ],
});

console.log(msg.content);

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre Claude Sonnet 4.6

Mira lo que la comunidad piensa sobre Claude Sonnet 4.6

Claude Sonnet 4.6 alcanzó un 94% en nuestro benchmark de seguros, convirtiéndolo en el model de mayor rendimiento que hemos probado para Computer Use.
Swami Sivasubramanian
twitter
¡El hype es real, este es sin duda el mejor (y más divertido) LLM que he usado jamás! Está muy por encima de lo que he visto hasta ahora.
WolframRavenwolf
reddit
Claude Sonnet 4.6 es hilarante, no solo 'divertido a veces'. Es ampliamente cálido, honesto y prosocial.
Anton P.
twitter
Sonnet 4.6 es mucho mejor que Cline para tareas de programación. Ya ni siquiera abro los archivos manualmente.
semibaron
hackernews
El context window de 1M es un cambio de juego para la migración de bases de código. Acabo de subir todo mi stack heredado.
DevOpsDan
reddit
Maneja hojas de cálculo complejas y formularios web con una precisión casi inquietante. La beta de Computer Use finalmente está lista.
AI_Insights_Daily
youtube

Videos sobre Claude Sonnet 4.6

Mira tutoriales, reseñas y discusiones sobre Claude Sonnet 4.6

Sonnet 4.6 obtuvo una puntuación más alta en GDP val, que mide tareas significativas del mundo real.

Cada vez es más difícil saber si estos models son capaces de realizar tareas de CBRN.

La relación velocidad-inteligencia aquí es esencialmente inigualable por cualquier otro model del mercado.

Anthropic se está centrando claramente en la parte agentic con este lanzamiento.

La estructura de costes convierte a este en el nuevo predeterminado para cualquier desarrollador de API de alto volumen.

Este model es aproximadamente el doble de rápido en comparación con el model Opus del mes pasado.

En conclusión, chicos, este model es la mejor relación calidad-precio para programación empresarial.

Las capacidades de visión para interpretar diagramas de arquitectura complejos han mejorado significativamente.

Pude darle 50 archivos y refactorizó toda la lógica de enrutamiento perfectamente.

Se siente mucho más humano en su estilo de comunicación en comparación con GPT-4o.

En realidad, está superando a Opus 4.6 en algunas áreas, a pesar de tener un precio un 40% más barato.

A medida que llenamos el context window, una vez que alcanzamos los 150,000 tokens, la efectividad tiende a disminuir.

La función de reasoning adaptativo permite básicamente alternar entre velocidad y lógica profunda.

Este lanzamiento se siente como el primer model verdaderamente 'agent-first' de Anthropic.

Lo usaría para todo, excepto quizás para la escritura creativa del más alto nivel absoluto.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes

Consejos Pro para Claude Sonnet 4.6

Consejos de expertos para ayudarte a sacar el máximo provecho de Claude Sonnet 4.6.

Aprovecha la Compactación de Contexto

Activa la función de Compaction en la API para resumir automáticamente el historial de conversaciones antiguas en sesiones largas.

Usa Thinking Tokens Estratégicamente

Para matemáticas o lógica compleja, establece un presupuesto mayor de thinking tokens para permitir que el model explore múltiples rutas de reasoning.

Prompt para Cumplimiento de SPEC

Pide explícitamente al model que siga las mejores prácticas de arquitectura modernas, ya que tiende de forma natural a utilizar herramientas actualizadas.

Utiliza Artifacts para UI

Anima al model a usar Artifacts de UI para separar las generaciones de código del hilo del chat y permitir iteraciones en tiempo real.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

200K context
$5.00/$25.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.60/$3.60/1M
deepseek

DeepSeek-V3.2-Speciale

DeepSeek

DeepSeek-V3.2-Speciale is a reasoning-first LLM featuring gold-medal math performance, DeepSeek Sparse Attention, and a 131K context window. Rivaling GPT-5...

131K context
$0.28/$0.42/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

262K context
$0.60/$2.50/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M

Preguntas Frecuentes Sobre Claude Sonnet 4.6

Encuentra respuestas a preguntas comunes sobre Claude Sonnet 4.6