anthropic

Claude 3.7 Sonnet

Claude 3.7 Sonnet es el primer model de hybrid reasoning de Anthropic, que ofrece capacidades de programación state-of-the-art, un context window de 200k y...

anthropic logoanthropicClaude 3February 24, 2025
Contexto
200Ktokens
Salida máx.
128Ktokens
Precio entrada
$3.00/ 1M
Precio salida
$15.00/ 1M
Modalidad:TextImage
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
84.8%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). Claude 3.7 Sonnet obtuvo 84.8% en este benchmark.
HLE
34%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. Claude 3.7 Sonnet obtuvo 34% en este benchmark.
MMLU
89%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. Claude 3.7 Sonnet obtuvo 89% en este benchmark.
MMLU Pro
74%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. Claude 3.7 Sonnet obtuvo 74% en este benchmark.
SimpleQA
42%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. Claude 3.7 Sonnet obtuvo 42% en este benchmark.
IFEval
93.2%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. Claude 3.7 Sonnet obtuvo 93.2% en este benchmark.
AIME 2025
54.8%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. Claude 3.7 Sonnet obtuvo 54.8% en este benchmark.
MATH
96.2%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. Claude 3.7 Sonnet obtuvo 96.2% en este benchmark.
GSM8k
97%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. Claude 3.7 Sonnet obtuvo 97% en este benchmark.
MGSM
92%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. Claude 3.7 Sonnet obtuvo 92% en este benchmark.
MathVista
70%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. Claude 3.7 Sonnet obtuvo 70% en este benchmark.
SWE-Bench
70.3%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). Claude 3.7 Sonnet obtuvo 70.3% en este benchmark.
HumanEval
94%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. Claude 3.7 Sonnet obtuvo 94% en este benchmark.
LiveCodeBench
65%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. Claude 3.7 Sonnet obtuvo 65% en este benchmark.
MMMU
75%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. Claude 3.7 Sonnet obtuvo 75% en este benchmark.
MMMU Pro
55%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. Claude 3.7 Sonnet obtuvo 55% en este benchmark.
ChartQA
89%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. Claude 3.7 Sonnet obtuvo 89% en este benchmark.
DocVQA
94%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. Claude 3.7 Sonnet obtuvo 94% en este benchmark.
Terminal-Bench
35.2%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. Claude 3.7 Sonnet obtuvo 35.2% en este benchmark.
ARC-AGI
12%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. Claude 3.7 Sonnet obtuvo 12% en este benchmark.

Prueba Claude 3.7 Sonnet Gratis

Chatea con Claude 3.7 Sonnet gratis. Prueba sus capacidades, haz preguntas y explora lo que este modelo de IA puede hacer.

Prompt
Respuesta
anthropic/claude-3-7-sonnet-20250219

Tu respuesta de IA aparecerá aquí

Acerca de Claude 3.7 Sonnet

Conoce las capacidades, características y formas de uso de Claude 3.7 Sonnet.

Hybrid Reasoning y Transparencia

Claude 3.7 Sonnet representa un cambio histórico en la arquitectura de los LLM al ser el primer model de 'hybrid reasoning' de Anthropic. Permite de forma única a los usuarios alternar entre respuestas estándar de baja latency y un modo de 'extended thinking' que muestra su chain-of-thought interno. Esta transparencia proporciona a los usuarios una ventana clara a la lógica del model, haciéndolo particularmente eficaz para la resolución de problemas complejos y tareas de reasoning críticas.

Maestría en Ingeniería de Software

Diseñado con un fuerte enfoque en la ingeniería de software y en outputs listos para producción, el model ha establecido nuevos estándares en la industria en benchmarks como SWE-Bench Verified. Destaca en el 'vibe coding', donde los desarrolladores describen la intención a alto nivel y el model se encarga de la implementación en múltiples archivos. Gestiona refactorizaciones complejas y decisiones arquitectónicas con una precisión que supera a los anteriores frontier models.

Context Masivo y Herramientas Agentic

Con un masivo context window de 200,000 tokens y un conjunto de herramientas agentic llamado Claude Code, se transforma de un simple chatbot en un socio técnico colaborativo. Es capaz de gestionar ciclos de vida completos de proyectos, desde la revisión inicial de la documentación hasta flujos de trabajo de git automatizados y la ejecución de pruebas, asegurando que el desarrollo sea rápido y esté libre de errores.

Claude 3.7 Sonnet

Casos de uso de Claude 3.7 Sonnet

Descubre las diferentes formas de usar Claude 3.7 Sonnet para lograr excelentes resultados.

Vibe Coding

Creación de software funcional desde cero describiendo la intención en lenguaje natural.

Debugging avanzado

Uso del extended thinking para analizar logs complejos y proporcionar correcciones precisas en un solo intento.

Análisis de context amplio

Revisión y refactorización de bases de código completas o documentación técnica extensa en un solo prompt.

Desarrollo agentic

Impulso de herramientas basadas en terminal como Claude Code para automatizar flujos de trabajo de git y ejecución de pruebas.

Generación de UI Frontend

Creación de componentes de React y Svelte elegantes y fáciles de mantener con un sentido del diseño integrado.

Investigación factual

Análisis de documentos PDF y conjuntos de datos masivos con alta precisión y bajas tasas de alucinación.

Fortalezas

Limitaciones

Programación líder en la industria: Alcanzó un 70.3% state-of-the-art en SWE-bench Verified, resolviendo problemas reales de GitHub con una precisión sin precedentes.
Latencia de respuesta: Activar el modo de 'extended thinking' aumenta significativamente el tiempo hasta el primer token en comparación con las respuestas estándar del model.
Reasoning visible: El primer model que ofrece un 'extended thinking' visible y controlable por el usuario para la resolución de problemas complejos y críticos.
Precio Premium: Los costes de output de $15 por 1M de tokens siguen siendo considerablemente más altos que la mayoría de las alternativas 'mini' o de pesos abiertos.
Integración agentic: Optimizado específicamente para el uso de herramientas e interacción con CLI mediante el framework de agentes Claude Code para la automatización de tareas de extremo a extremo.
Sin audio/video nativo: A diferencia de GPT-4o o Gemini 2.0, carece de capacidades de procesamiento nativo para inputs de audio y video.
Gusto de diseño superior: Genera de forma consistente código de UI más elegante, accesible y fácil de mantener en comparación con otros frontier models.
Coste computacional: Las sesiones de reasoning profundo pueden consumir rápidamente los presupuestos de tokens y los límites de context durante refactorizaciones de bases de código a gran escala.

Inicio rápido de API

anthropic/claude-3-7-sonnet-20250219

Ver documentación
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const msg = await anthropic.messages.create({
  model: "claude-3-7-sonnet-20250219",
  max_tokens: 1024,
  thinking: { type: "enabled", budget_tokens: 1024 },
  messages: [{ role: "user", content: "Write a high-performance Rust function for matrix multiplication." }],
});

console.log(msg.content);

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre Claude 3.7 Sonnet

Mira lo que la comunidad piensa sobre Claude 3.7 Sonnet

"Claude 3.7 Sonnet es el mejor model de IA para programación del mundo; me dejó alucinado con tareas desafiantes."
rawcell4772
reddit
"Con un solo prompt, resolvió todo perfectamente en un proyecto complejo de TypeScript."
rawcell4772
reddit
"Claude Code con Sonnet 3.7 es mucho mejor que Cline y actualmente la mejor herramienta."
peterkrueck
reddit
"El salto de calidad con models de primer nivel como el 3.7 ha transformado mi perspectiva."
lurking_horrors
reddit
"Claude 3.7 es pura potencia, es otro nivel... sencillamente el mejor, sin duda."
Fireship
youtube
"El modo reasoning de Claude 3.7 es un cambio de paradigma total para el debugging de lógica."
DevLead99
x

Videos sobre Claude 3.7 Sonnet

Mira tutoriales, reseñas y discusiones sobre Claude 3.7 Sonnet

El nuevo model 3.7 arrasó absolutamente con todos los demás... ahora es capaz de resolver el 70.3% de los issues de GitHub

Usar un lenguaje fuertemente tipado junto con TDD son formas de que la IA valide que el código que escribe es realmente válido

El model es increíblemente inteligente siguiendo instrucciones

El rendimiento en SWE-bench es realmente una locura

El reasoning visible cambia las reglas del juego en cuanto a transparencia

Claude 3.7 Sonnet... es probablemente el mejor LLM para generación de código

Si usas la API, puedes generar 128,000 tokens en un solo intento

El límite de 128k de output es una mejora masiva

Su gusto estético para componentes frontend no tiene rival

El uso de herramientas y las capacidades agentic son fundamentales en este model

El reasoning debería ser una capacidad integrada de los frontier models en lugar de un model completamente separado

Claude 3.7 logra superar a esos models [DeepSeek, o3] por una cantidad bastante significativa

La latency es ligeramente mayor en el modo reasoning

Supera a DeepSeek R1 en varias tareas de seguimiento de instrucciones

Anthropic se centró realmente en outputs listos para producción

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes
Ver video demo

Consejos Pro

Consejos de expertos para ayudarte a sacar el máximo provecho de este modelo.

Presupuesto de pensamiento

Utiliza el modo de 'extended thinking' específicamente para lógica compleja o planificación de arquitectura para obtener resultados de mayor calidad.

Control del context

Utiliza /clear regularmente o reinicia los chats para ahorrar costes de context y evitar que el model se vuelva lento.

Verificación

Pide a Claude que escriba y ejecute pruebas para su propio código usando la herramienta Claude Code para asegurar la estabilidad en producción.

Especificaciones en Markdown

Proporciona los requisitos de las funcionalidades en archivos Markdown estructurados para un mejor seguimiento de instrucciones en proyectos grandes.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.