anthropic

Claude 3.7 Sonnet

Claude 3.7 Sonnet es el primer model de reasoning híbrido de Anthropic, ofreciendo capacidades de programación de última generación, un context window de 200k...

anthropic logoanthropicClaude 324 de febrero de 2025
Contexto
200Ktokens
Salida máx.
128Ktokens
Precio entrada
$3.00/ 1M
Precio salida
$15.00/ 1M
Modalidad:TextImage
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
84.8%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). Claude 3.7 Sonnet obtuvo 84.8% en este benchmark.
HLE
34%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. Claude 3.7 Sonnet obtuvo 34% en este benchmark.
MMLU
89%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. Claude 3.7 Sonnet obtuvo 89% en este benchmark.
MMLU Pro
74%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. Claude 3.7 Sonnet obtuvo 74% en este benchmark.
SimpleQA
42%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. Claude 3.7 Sonnet obtuvo 42% en este benchmark.
IFEval
93.2%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. Claude 3.7 Sonnet obtuvo 93.2% en este benchmark.
AIME 2025
54.8%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. Claude 3.7 Sonnet obtuvo 54.8% en este benchmark.
MATH
96.2%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. Claude 3.7 Sonnet obtuvo 96.2% en este benchmark.
GSM8k
97%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. Claude 3.7 Sonnet obtuvo 97% en este benchmark.
MGSM
92%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. Claude 3.7 Sonnet obtuvo 92% en este benchmark.
MathVista
70%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. Claude 3.7 Sonnet obtuvo 70% en este benchmark.
SWE-Bench
70.3%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). Claude 3.7 Sonnet obtuvo 70.3% en este benchmark.
HumanEval
94%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. Claude 3.7 Sonnet obtuvo 94% en este benchmark.
LiveCodeBench
65%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. Claude 3.7 Sonnet obtuvo 65% en este benchmark.
MMMU
75%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. Claude 3.7 Sonnet obtuvo 75% en este benchmark.
MMMU Pro
55%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. Claude 3.7 Sonnet obtuvo 55% en este benchmark.
ChartQA
89%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. Claude 3.7 Sonnet obtuvo 89% en este benchmark.
DocVQA
94%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. Claude 3.7 Sonnet obtuvo 94% en este benchmark.
Terminal-Bench
35.2%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. Claude 3.7 Sonnet obtuvo 35.2% en este benchmark.
ARC-AGI
12%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. Claude 3.7 Sonnet obtuvo 12% en este benchmark.

Acerca de Claude 3.7 Sonnet

Conoce las capacidades, características y formas de uso de Claude 3.7 Sonnet.

Diseño de reasoning híbrido

Claude 3.7 Sonnet utiliza una nueva arquitectura que permite a los usuarios elegir entre velocidad y profundidad. Es el primer model que ofrece un selector para thinking extendido, permitiendo que el sistema trabaje a través de lógica compleja antes de proporcionar una respuesta. Esta transparencia permite a los desarrolladores ver exactamente cómo el model llega a una conclusión, reduciendo la posibilidad de errores ocultos en trabajos técnicos.

Resolución de problemas técnicos

Este model está construido para la ingeniería de software de alto nivel. Obtiene una puntuación del 62.1% en el benchmark SWE-bench Verified, mostrando una gran capacidad para corregir problemas reales de GitHub. Cuando se utiliza con herramientas como Claude Code, gestiona la edición de archivos y la ejecución de comandos en repositorios grandes. Maneja tareas matemáticas y de programación con un nivel de precisión que iguala o supera a los actuales models de reasoning de primer nivel.

Capacidad de contexto masiva

Con un context window de 200,000 tokens, el model procesa grandes conjuntos de documentación o bases de código de una sola vez. Admite hasta 128,000 tokens de salida cuando el modo de thinking está activo, lo que lo hace útil para generar scripts largos o informes detallados. El model también es multimodal, lo que significa que puede interpretar gráficos y diagramas junto con texto.

Claude 3.7 Sonnet

Casos de uso de Claude 3.7 Sonnet

Descubre las diferentes formas de usar Claude 3.7 Sonnet para lograr excelentes resultados.

Ingeniería de software agentic

Uso de la herramienta de terminal para corregir errores y refactorizar código en estructuras de archivos masivas.

Verificación de demostraciones matemáticas

Resolución de problemas matemáticos difíciles permitiendo que el model razone a través de pasos lógicos.

Análisis de repositorios

Extracción de datos e identificación de patrones de bases de código técnicas completas en un solo prompt.

Análisis de datos visuales

Conversión de gráficos complejos, diagramas de flujo y diagramas técnicos en datos JSON estructurados.

Planificación de arquitectura de sistemas

Diseño de sistemas de software con verificaciones lógicas detalladas utilizando el modo de thinking extendido.

Flujos de trabajo de Git automatizados

Gestión de mensajes de commit, revisiones de código y ejecución de pruebas mediante el uso de herramientas agentic.

Fortalezas

Limitaciones

Opciones de thinking híbrido: El primer model que permite a los usuarios alternar entre respuestas estándar rápidas y modos de reasoning profundo.
Latencia de reasoning: Habilitar el modo de thinking aumenta significativamente el tiempo que tarda el model en responder.
Agente de programación de primer nivel: Rendimiento destacado en SWE-bench Verified con una puntuación del 62.1% para corregir problemas en producción.
Costo de thinking: Los tokens de reasoning interno se facturan a la tarifa de $15 por millón de salida, lo que aumenta en tareas largas.
Capacidad de salida extrema: Genera hasta 128,000 tokens en una sola respuesta, facilitando la generación masiva de código y documentos.
Sin soporte de video: A diferencia de algunos competidores, no puede ingerir ni analizar archivos de video crudos a través de la API.
Lógica transparente: El chain-of-thought externalizado permite a los usuarios auditar y depurar el proceso de reasoning interno del model.
Corte de conocimiento: Los datos de entrenamiento solo llegan hasta octubre de 2024, perdiendo los desarrollos recientes de la industria.

Inicio rápido de API

anthropic/claude-3-7-sonnet

Ver documentación
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic();

const message = await anthropic.messages.create({
  model: "claude-3-7-sonnet-20250219",
  max_tokens: 4096,
  thinking: {
    type: "enabled",
    budget_tokens: 2048
  },
  messages: [{ role: "user", content: "Analyze this architectural flaw..." }],
});

console.log(message.content);

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre Claude 3.7 Sonnet

Mira lo que la comunidad piensa sobre Claude 3.7 Sonnet

Claude Code junto con 3.7 Sonnet es básicamente un desarrollador junior con esteroides en mi terminal. Es la primera vez que la AI agentic se siente real.
dev_guru_99
reddit
El reasoning híbrido es una actualización importante. No siempre necesito que piense durante 30 segundos, pero cuando estoy depurando, es increíble.
TechLead_X
twitter
Anthropic logró hacer un model que compite con o1 en matemáticas mientras sigue siendo útil para el chat cotidiano.
logic_fanatic
hackernews
Claude entrega informes completos y bellamente formateados con citas en menos de cinco minutos.
ThinkingDeeplyAI_mod
reddit
El límite de salida de 128k es una función subestimada. Finalmente un model que no se corta a la mitad de un script largo.
code_monk_42
reddit
Claude 3.7 + MCP es lo más parecido a Jarvis ahora mismo. Realmente usa mis herramientas locales correctamente.
julie_codes_it
twitter

Videos sobre Claude 3.7 Sonnet

Mira tutoriales, reseñas y discusiones sobre Claude 3.7 Sonnet

Claude 3.7 es increíble. El nuevo base model se superó a sí mismo para ser aún mejor en programación.

El nuevo model 3.7 aplastó absolutamente a todos los demás, incluido OpenAI o3 mini.

Es capaz de resolver el 70% de los issues de GitHub.

El thinking extendido permite al model reflexionar sobre un problema antes de generar código.

Esta es una victoria masiva para la experiencia del desarrollador.

Los chatbots te dan consejos, pero Claude Code toma acciones. Puede crear archivos, construir sitios web e instalar paquetes.

El thinking extendido es Claude razonando antes de realizar cualquier acción.

La herramienta está optimizada para el entorno de terminal.

La conectividad MCP es lo que realmente separa esto de un ChatGPT estándar.

El model comprende la intención detrás de comandos de terminal vagos.

La integración con la terminal mediante Claude Code es un nivel de agencia que no habíamos visto aún.

La capacidad de Claude 3.7 Sonnet para mostrar su proceso de pensamiento es mucho más transparente que la de sus competidores.

En SWE-bench Verified, alcanza un notable 62%.

El reasoning híbrido significa que no pagas la penalización de latencia cuando no la necesitas.

Mantiene el estilo de escritura de alta calidad de los anteriores models de Claude.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes

Consejos Pro para Claude 3.7 Sonnet

Consejos de expertos para ayudarte a sacar el máximo provecho de Claude 3.7 Sonnet.

Configurar presupuestos de reasoning

Utiliza el parámetro de thinking de la API para limitar la cantidad de reasoning tokens y gestionar los costos.

Revisar bloques de pensamiento

Consulta el chain-of-thought interno en las respuestas para verificar la lógica de las soluciones complejas.

Usar conectores MCP

Conecta el model a bases de datos locales y almacenamiento en la nube para obtener contexto de proyectos en tiempo real.

Actualización de contexto

Utiliza comandos de resumen en ciclos agentic largos para mantener el context window enfocado en datos relevantes.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M

Preguntas Frecuentes Sobre Claude 3.7 Sonnet

Encuentra respuestas a preguntas comunes sobre Claude 3.7 Sonnet