anthropic

Claude 3.7 Sonnet

Claude 3.7 Sonnet adalah model hybrid reasoning pertama dari Anthropic, menghadirkan kemampuan coding state-of-the-art, context window 200k, dan pemikiran yang...

anthropic logoanthropicClaude 324 Februari 2025
Konteks
200Ktoken
Output maks.
128Ktoken
Harga input
$3.00/ 1M
Harga output
$15.00/ 1M
Modalitas:TextImage
Kemampuan:VisiAlatStreamingPenalaran
Benchmarks
GPQA
84.8%
GPQA: Tanya Jawab Sains Tingkat Doktoral. Benchmark ketat dengan 448 pertanyaan pilihan ganda dalam biologi, fisika, dan kimia yang dibuat oleh pakar domain. Para ahli PhD hanya mencapai akurasi 65-74%, sementara non-ahli hanya mendapat 34% bahkan dengan akses web tak terbatas (sehingga disebut 'tahan Google'). Claude 3.7 Sonnet meraih skor 84.8% pada benchmark ini.
HLE
34%
HLE: Penalaran Keahlian Tingkat Tinggi. Menguji kemampuan model untuk mendemonstrasikan penalaran tingkat ahli di domain khusus. Mengevaluasi pemahaman mendalam tentang topik kompleks yang membutuhkan pengetahuan tingkat profesional. Claude 3.7 Sonnet meraih skor 34% pada benchmark ini.
MMLU
89%
MMLU: Pemahaman Bahasa Multitugas Masif. Benchmark komprehensif dengan 16.000 pertanyaan pilihan ganda meliputi 57 mata pelajaran akademik termasuk matematika, filsafat, hukum, dan kedokteran. Menguji pengetahuan luas dan kemampuan penalaran. Claude 3.7 Sonnet meraih skor 89% pada benchmark ini.
MMLU Pro
74%
MMLU Pro: MMLU Edisi Profesional. Versi MMLU yang ditingkatkan dengan 12.032 pertanyaan menggunakan format 10 pilihan yang lebih sulit. Mencakup Matematika, Fisika, Kimia, Hukum, Teknik, Ekonomi, Kesehatan, Psikologi, Bisnis, Biologi, Filsafat, dan Ilmu Komputer. Claude 3.7 Sonnet meraih skor 74% pada benchmark ini.
SimpleQA
42%
SimpleQA: Benchmark Akurasi Faktual. Menguji kemampuan model untuk memberikan respons yang akurat dan faktual terhadap pertanyaan langsung. Mengukur keandalan dan mengurangi halusinasi dalam tugas pengambilan pengetahuan. Claude 3.7 Sonnet meraih skor 42% pada benchmark ini.
IFEval
93.2%
IFEval: Evaluasi Kepatuhan Instruksi. Mengukur seberapa baik model mengikuti instruksi dan batasan tertentu. Menguji kemampuan untuk mematuhi aturan format, batas panjang, dan persyaratan eksplisit lainnya. Claude 3.7 Sonnet meraih skor 93.2% pada benchmark ini.
AIME 2025
54.8%
AIME 2025: Ujian Matematika Undangan Amerika. Soal matematika tingkat kompetisi dari ujian AIME bergengsi yang dirancang untuk siswa SMA berbakat. Menguji pemecahan masalah matematika tingkat lanjut yang membutuhkan penalaran abstrak, bukan sekadar pencocokan pola. Claude 3.7 Sonnet meraih skor 54.8% pada benchmark ini.
MATH
96.2%
MATH: Pemecahan Masalah Matematika. Benchmark matematika komprehensif yang menguji pemecahan masalah dalam aljabar, geometri, kalkulus, dan domain matematika lainnya. Membutuhkan penalaran multi-langkah dan pengetahuan matematika formal. Claude 3.7 Sonnet meraih skor 96.2% pada benchmark ini.
GSM8k
97%
GSM8k: Matematika SD 8K. 8.500 soal cerita matematika tingkat SD yang membutuhkan penalaran multi-langkah. Menguji aritmatika dasar dan pemikiran logis melalui skenario dunia nyata seperti belanja atau perhitungan waktu. Claude 3.7 Sonnet meraih skor 97% pada benchmark ini.
MGSM
92%
MGSM: Matematika SD Multibahasa. Benchmark GSM8k yang diterjemahkan ke 10 bahasa termasuk Spanyol, Prancis, Jerman, Rusia, Cina, dan Jepang. Menguji penalaran matematika dalam berbagai bahasa. Claude 3.7 Sonnet meraih skor 92% pada benchmark ini.
MathVista
70%
MathVista: Penalaran Matematika Visual. Menguji kemampuan untuk menyelesaikan masalah matematika yang melibatkan elemen visual seperti grafik, diagram geometri, dan figur ilmiah. Menggabungkan pemahaman visual dengan penalaran matematika. Claude 3.7 Sonnet meraih skor 70% pada benchmark ini.
SWE-Bench
70.3%
SWE-Bench: Benchmark Rekayasa Perangkat Lunak. Model AI mencoba menyelesaikan masalah GitHub nyata dalam proyek Python open-source dengan verifikasi manusia. Menguji keterampilan rekayasa perangkat lunak praktis pada codebase produksi. Model terbaik meningkat dari 4,4% di 2023 menjadi lebih dari 70% di 2024. Claude 3.7 Sonnet meraih skor 70.3% pada benchmark ini.
HumanEval
94%
HumanEval: Masalah Pemrograman Python. 164 masalah pemrograman yang ditulis tangan di mana model harus menghasilkan implementasi fungsi Python yang benar. Setiap solusi diverifikasi dengan unit test. Model terbaik sekarang mencapai akurasi lebih dari 90%. Claude 3.7 Sonnet meraih skor 94% pada benchmark ini.
LiveCodeBench
65%
LiveCodeBench: Benchmark Koding Langsung. Menguji kemampuan koding pada tantangan pemrograman dunia nyata yang terus diperbarui. Berbeda dengan benchmark statis, menggunakan masalah baru untuk mencegah kontaminasi data dan mengukur keterampilan koding yang sebenarnya. Claude 3.7 Sonnet meraih skor 65% pada benchmark ini.
MMMU
75%
MMMU: Pemahaman Multimodal. Benchmark Pemahaman Multimodal Multi-disiplin Masif yang menguji model penglihatan-bahasa pada masalah tingkat universitas di 30 mata pelajaran yang membutuhkan pemahaman gambar dan pengetahuan ahli. Claude 3.7 Sonnet meraih skor 75% pada benchmark ini.
MMMU Pro
55%
MMMU Pro: MMMU Edisi Profesional. Versi MMMU yang ditingkatkan dengan pertanyaan lebih sulit dan evaluasi lebih ketat. Menguji penalaran multimodal tingkat lanjut di tingkat profesional dan ahli. Claude 3.7 Sonnet meraih skor 55% pada benchmark ini.
ChartQA
89%
ChartQA: Tanya Jawab Grafik. Menguji kemampuan untuk memahami dan bernalar tentang informasi yang disajikan dalam grafik dan diagram. Membutuhkan ekstraksi data, perbandingan nilai, dan melakukan perhitungan dari representasi visual data. Claude 3.7 Sonnet meraih skor 89% pada benchmark ini.
DocVQA
94%
DocVQA: Tanya Jawab Visual Dokumen. Benchmark Tanya Jawab Visual Dokumen yang menguji kemampuan untuk mengekstrak dan bernalar tentang informasi dari gambar dokumen termasuk formulir, laporan, dan teks yang dipindai. Claude 3.7 Sonnet meraih skor 94% pada benchmark ini.
Terminal-Bench
35.2%
Terminal-Bench: Tugas Terminal/CLI. Menguji kemampuan untuk melakukan operasi baris perintah, menulis skrip shell, dan menavigasi lingkungan terminal. Mengukur keterampilan administrasi sistem praktis dan alur kerja pengembangan. Claude 3.7 Sonnet meraih skor 35.2% pada benchmark ini.
ARC-AGI
12%
ARC-AGI: Abstraksi dan Penalaran. Abstraction and Reasoning Corpus untuk AGI - menguji kecerdasan fluida melalui teka-teki pengenalan pola baru. Setiap tugas membutuhkan penemuan aturan yang mendasari dari contoh, mengukur kemampuan penalaran umum daripada menghafal. Claude 3.7 Sonnet meraih skor 12% pada benchmark ini.

Tentang Claude 3.7 Sonnet

Pelajari tentang kemampuan, fitur, dan cara menggunakan Claude 3.7 Sonnet.

Desain Hybrid Reasoning

Claude 3.7 Sonnet menggunakan arsitektur baru yang memungkinkan pengguna memilih antara kecepatan dan kedalaman. Ini adalah model pertama yang menawarkan opsi untuk extended thinking, memungkinkan sistem untuk memproses logika yang kompleks sebelum memberikan jawaban. Transparansi ini memungkinkan pengembang untuk melihat dengan tepat bagaimana model mencapai kesimpulan, sehingga mengurangi kemungkinan kesalahan tersembunyi dalam pekerjaan teknis.

Pemecahan Masalah Teknis

Model ini dibangun untuk rekayasa perangkat lunak tingkat tinggi. Model ini mencetak skor 62,1% pada benchmark SWE-bench Verified, menunjukkan kemampuan yang kuat untuk memperbaiki issue GitHub yang nyata. Saat digunakan dengan alat seperti Claude Code, model ini mengelola pengeditan file dan eksekusi perintah di seluruh repositori yang besar. Ia menangani tugas matematika dan coding dengan tingkat presisi yang setara atau melebihi model reasoning papan atas saat ini.

Kapasitas Konteks Masif

Dengan context window sebesar 200.000 tokens, model ini memproses sekumpulan besar dokumentasi atau codebase dalam sekali jalan. Ia mendukung output hingga 128.000 tokens saat mode thinking aktif, menjadikannya berguna untuk membuat skrip panjang atau laporan mendetail. Model ini juga bersifat multimodal, yang berarti dapat menginterpretasikan grafik dan diagram bersamaan dengan teks.

Claude 3.7 Sonnet

Kasus Penggunaan untuk Claude 3.7 Sonnet

Temukan berbagai cara menggunakan Claude 3.7 Sonnet untuk hasil yang luar biasa.

Software Engineering Agentic

Menggunakan alat terminal untuk memperbaiki bug dan melakukan refactoring kode di seluruh struktur file yang besar.

Verifikasi Pembuktian Matematika

Menyelesaikan masalah matematika yang sulit dengan membiarkan model memikirkan langkah-langkah logisnya.

Analisis Repositori

Mengekstrak data dan mengidentifikasi pola dari keseluruhan codebase teknis dalam satu prompt.

Parsing Data Visual

Mengonversi grafik, bagan alur, dan diagram teknis yang kompleks menjadi data JSON terstruktur.

Perencanaan Arsitektur Sistem

Merancang sistem perangkat lunak dengan pemeriksaan logika mendetail menggunakan mode extended thinking.

Workflow Git Otomatis

Mengelola pesan commit, tinjauan kode, dan eksekusi tes melalui penggunaan alat agentic.

Kelebihan

Keterbatasan

Opsi Hybrid Thinking: Model pertama yang memungkinkan pengguna beralih antara respons standar yang cepat dan mode reasoning yang mendalam.
Latensi Reasoning: Mengaktifkan mode thinking secara signifikan meningkatkan waktu yang dibutuhkan model untuk memberikan respons.
Coding Agent Terdepan: Performa papan atas pada SWE-bench Verified dengan skor 62,1% untuk memperbaiki masalah di lingkungan produksi.
Biaya Thinking: Reasoning tokens internal ditagihkan dengan tarif $15 per juta output, yang akan terakumulasi selama tugas yang panjang.
Kapasitas Output Ekstrim: Menghasilkan hingga 128.000 tokens dalam satu respons, memudahkan pembuatan kode dan dokumen dalam skala masif.
Tidak Ada Dukungan Video: Tidak seperti beberapa kompetitor, model ini tidak dapat menerima atau menganalisis file video mentah secara native melalui API.
Logika Transparan: Chain-of-thought eksternal memungkinkan pengguna untuk mengaudit dan men-debug proses reasoning internal model.
Batasan Pengetahuan: Data pelatihan hanya mencakup hingga Oktober 2024, sehingga melewatkan perkembangan industri terbaru.

Mulai Cepat API

anthropic/claude-3-7-sonnet

Lihat Dokumentasi
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic();

const message = await anthropic.messages.create({
  model: "claude-3-7-sonnet-20250219",
  max_tokens: 4096,
  thinking: {
    type: "enabled",
    budget_tokens: 2048
  },
  messages: [{ role: "user", content: "Analisis kelemahan arsitektur ini..." }],
});

console.log(message.content);

Instal SDK dan mulai melakukan panggilan API dalam hitungan menit.

Apa Kata Orang Tentang Claude 3.7 Sonnet

Lihat apa yang dipikirkan komunitas tentang Claude 3.7 Sonnet

Claude Code ditambah 3.7 Sonnet pada dasarnya seperti junior developer dengan steroid di terminal saya. Ini pertama kalinya AI agentic terasa nyata.
dev_guru_99
reddit
Hybrid reasoning adalah pembaruan besar. Saya tidak selalu butuh model untuk berpikir selama 30 detik, tetapi saat saya men-debug, itu luar biasa.
TechLead_X
twitter
Anthropic berhasil membuat model yang bersaing dengan o1 dalam matematika sambil tetap berguna untuk chat sehari-hari.
logic_fanatic
hackernews
Claude memberikan laporan komprehensif dengan format yang indah dan sitasi dalam waktu kurang dari lima menit.
ThinkingDeeplyAI_mod
reddit
Batas output 128k adalah fitur yang sering terlupakan. Akhirnya ada model yang tidak terpotong di tengah skrip panjang.
code_monk_42
reddit
Claude 3.7 + MCP adalah hal terdekat dengan Jarvis saat ini. Model ini benar-benar menggunakan alat lokal saya dengan tepat.
julie_codes_it
twitter

Video Tentang Claude 3.7 Sonnet

Tonton tutorial, ulasan, dan diskusi tentang Claude 3.7 Sonnet

Claude 3.7 sangat luar biasa. Model dasar baru ini mengungguli dirinya sendiri untuk menjadi lebih baik dalam pemrograman.

Model 3.7 baru benar-benar menghancurkan semua model lain termasuk OpenAI o3 mini.

Model ini mampu menyelesaikan 70% issue GitHub.

Extended thinking memungkinkan model untuk merenungkan masalah sebelum mengeluarkan kode.

Ini adalah kemenangan besar bagi pengalaman pengembang.

Chatbot memberikan saran, tetapi Claude Code mengambil tindakan. Ia dapat membuat file, membangun situs web, dan menginstal paket.

Extended thinking adalah cara Claude bernalar sebelum benar-benar mengambil tindakan apa pun.

Alat ini dioptimalkan untuk lingkungan terminal.

Konektivitas MCP adalah yang benar-benar membedakannya dari ChatGPT standar.

Model ini memahami maksud di balik perintah terminal yang samar.

Integrasi dengan terminal melalui Claude Code adalah tingkat agency yang belum pernah kita lihat sebelumnya.

Kemampuan Claude 3.7 Sonnet untuk menunjukkan proses pemikirannya jauh lebih transparan daripada kompetitor.

Pada SWE-bench Verified, model ini mencapai angka 62% yang luar biasa.

Hybrid reasoning berarti Anda tidak membayar penalti latensi saat tidak memerlukannya.

Model ini mempertahankan gaya penulisan berkualitas tinggi dari model Claude sebelumnya.

Lebih dari sekadar prompt

Tingkatkan alur kerja Anda dengan Otomatisasi AI

Automatio menggabungkan kekuatan agen AI, otomatisasi web, dan integrasi cerdas untuk membantu Anda mencapai lebih banyak dalam waktu lebih singkat.

Agen AI
Otomasi Web
Alur Kerja Cerdas

Tips Pro untuk Claude 3.7 Sonnet

Tips ahli untuk memaksimalkan Claude 3.7 Sonnet.

Atur Budget Reasoning

Gunakan parameter thinking pada API untuk membatasi jumlah reasoning tokens guna mengelola biaya.

Tinjau Blok Pemikiran

Periksa chain-of-thought internal dalam respons untuk memverifikasi logika jawaban yang kompleks.

Gunakan Konektor MCP

Hubungkan model ke basis data lokal dan penyimpanan cloud untuk mendapatkan konteks proyek secara real-time.

Penyegaran Konteks

Gunakan perintah ringkasan dalam loop agentic yang panjang agar context window tetap fokus pada data yang relevan.

Testimoni

Apa Kata Pengguna Kami

Bergabunglah dengan ribuan pengguna puas yang telah mengubah alur kerja mereka

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Terkait AI Models

moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M

Pertanyaan yang Sering Diajukan tentang Claude 3.7 Sonnet

Temukan jawaban untuk pertanyaan umum tentang Claude 3.7 Sonnet