alibaba

Qwen 3.7 Max

Qwen 3.7 Max adalah flagship AI model dari Alibaba untuk reasoning mendalam dan tugas agentic otonom, dengan fitur 256k context window dan performa coding...

Thinking ModelCoding AssistantAgentic AIAlibaba CloudMoE Architecture
alibaba logoalibabaQwen320 Mei 2026
Konteks
256Ktoken
Output maks.
66Ktoken
Harga input
$1.20/ 1M
Harga output
$6.00/ 1M
Modalitas:Text
Kemampuan:AlatStreamingPenalaran
Benchmarks
GPQA
92.4%
GPQA: Tanya Jawab Sains Tingkat Doktoral. Benchmark ketat dengan 448 pertanyaan pilihan ganda dalam biologi, fisika, dan kimia yang dibuat oleh pakar domain. Para ahli PhD hanya mencapai akurasi 65-74%, sementara non-ahli hanya mendapat 34% bahkan dengan akses web tak terbatas (sehingga disebut 'tahan Google'). Qwen 3.7 Max meraih skor 92.4% pada benchmark ini.
HLE
38.2%
HLE: Penalaran Keahlian Tingkat Tinggi. Menguji kemampuan model untuk mendemonstrasikan penalaran tingkat ahli di domain khusus. Mengevaluasi pemahaman mendalam tentang topik kompleks yang membutuhkan pengetahuan tingkat profesional. Qwen 3.7 Max meraih skor 38.2% pada benchmark ini.
MMLU
92.8%
MMLU: Pemahaman Bahasa Multitugas Masif. Benchmark komprehensif dengan 16.000 pertanyaan pilihan ganda meliputi 57 mata pelajaran akademik termasuk matematika, filsafat, hukum, dan kedokteran. Menguji pengetahuan luas dan kemampuan penalaran. Qwen 3.7 Max meraih skor 92.8% pada benchmark ini.
MMLU Pro
82%
MMLU Pro: MMLU Edisi Profesional. Versi MMLU yang ditingkatkan dengan 12.032 pertanyaan menggunakan format 10 pilihan yang lebih sulit. Mencakup Matematika, Fisika, Kimia, Hukum, Teknik, Ekonomi, Kesehatan, Psikologi, Bisnis, Biologi, Filsafat, dan Ilmu Komputer. Qwen 3.7 Max meraih skor 82% pada benchmark ini.
SimpleQA
45%
SimpleQA: Benchmark Akurasi Faktual. Menguji kemampuan model untuk memberikan respons yang akurat dan faktual terhadap pertanyaan langsung. Mengukur keandalan dan mengurangi halusinasi dalam tugas pengambilan pengetahuan. Qwen 3.7 Max meraih skor 45% pada benchmark ini.
IFEval
95%
IFEval: Evaluasi Kepatuhan Instruksi. Mengukur seberapa baik model mengikuti instruksi dan batasan tertentu. Menguji kemampuan untuk mematuhi aturan format, batas panjang, dan persyaratan eksplisit lainnya. Qwen 3.7 Max meraih skor 95% pada benchmark ini.
AIME 2025
99.7%
AIME 2025: Ujian Matematika Undangan Amerika. Soal matematika tingkat kompetisi dari ujian AIME bergengsi yang dirancang untuk siswa SMA berbakat. Menguji pemecahan masalah matematika tingkat lanjut yang membutuhkan penalaran abstrak, bukan sekadar pencocokan pola. Qwen 3.7 Max meraih skor 99.7% pada benchmark ini.
MATH
94.8%
MATH: Pemecahan Masalah Matematika. Benchmark matematika komprehensif yang menguji pemecahan masalah dalam aljabar, geometri, kalkulus, dan domain matematika lainnya. Membutuhkan penalaran multi-langkah dan pengetahuan matematika formal. Qwen 3.7 Max meraih skor 94.8% pada benchmark ini.
GSM8k
99.2%
GSM8k: Matematika SD 8K. 8.500 soal cerita matematika tingkat SD yang membutuhkan penalaran multi-langkah. Menguji aritmatika dasar dan pemikiran logis melalui skenario dunia nyata seperti belanja atau perhitungan waktu. Qwen 3.7 Max meraih skor 99.2% pada benchmark ini.
MGSM
98%
MGSM: Matematika SD Multibahasa. Benchmark GSM8k yang diterjemahkan ke 10 bahasa termasuk Spanyol, Prancis, Jerman, Rusia, Cina, dan Jepang. Menguji penalaran matematika dalam berbagai bahasa. Qwen 3.7 Max meraih skor 98% pada benchmark ini.
SWE-Bench
60.6%
SWE-Bench: Benchmark Rekayasa Perangkat Lunak. Model AI mencoba menyelesaikan masalah GitHub nyata dalam proyek Python open-source dengan verifikasi manusia. Menguji keterampilan rekayasa perangkat lunak praktis pada codebase produksi. Model terbaik meningkat dari 4,4% di 2023 menjadi lebih dari 70% di 2024. Qwen 3.7 Max meraih skor 60.6% pada benchmark ini.
HumanEval
94.5%
HumanEval: Masalah Pemrograman Python. 164 masalah pemrograman yang ditulis tangan di mana model harus menghasilkan implementasi fungsi Python yang benar. Setiap solusi diverifikasi dengan unit test. Model terbaik sekarang mencapai akurasi lebih dari 90%. Qwen 3.7 Max meraih skor 94.5% pada benchmark ini.
LiveCodeBench
78.2%
LiveCodeBench: Benchmark Koding Langsung. Menguji kemampuan koding pada tantangan pemrograman dunia nyata yang terus diperbarui. Berbeda dengan benchmark statis, menggunakan masalah baru untuk mencegah kontaminasi data dan mengukur keterampilan koding yang sebenarnya. Qwen 3.7 Max meraih skor 78.2% pada benchmark ini.
Terminal-Bench
69.7%
Terminal-Bench: Tugas Terminal/CLI. Menguji kemampuan untuk melakukan operasi baris perintah, menulis skrip shell, dan menavigasi lingkungan terminal. Mengukur keterampilan administrasi sistem praktis dan alur kerja pengembangan. Qwen 3.7 Max meraih skor 69.7% pada benchmark ini.
ARC-AGI
12.4%
ARC-AGI: Abstraksi dan Penalaran. Abstraction and Reasoning Corpus untuk AGI - menguji kecerdasan fluida melalui teka-teki pengenalan pola baru. Setiap tugas membutuhkan penemuan aturan yang mendasari dari contoh, mengukur kemampuan penalaran umum daripada menghafal. Qwen 3.7 Max meraih skor 12.4% pada benchmark ini.

Tentang Qwen 3.7 Max

Pelajari tentang kemampuan, fitur, dan cara menggunakan Qwen 3.7 Max.

Mesin Reasoning Tingkat Tinggi

Qwen 3.7 Max adalah sistem Mixture-of-Experts masif yang berisi sekitar 1,6 triliun parameter. Model ini dirancang untuk beroperasi sebagai mesin yang mengutamakan logika untuk tugas-tugas rekayasa dan penelitian yang sangat kompleks. Model ini mengintegrasikan mode Always-On Thinking bawaan, yang memaksa model untuk memverifikasi logika dan merencanakan langkah-langkah sebelum menghasilkan respons. Pilihan arsitektur ini secara signifikan mengurangi pergeseran logis dalam output panjang dan memberikan fondasi yang andal untuk arsitektur perangkat lunak dan pembuktian matematika.

Dirancang untuk Agentic AI Otonom

Model ini berfungsi sebagai basis khusus untuk generasi agent otonom berikutnya. Fokusnya adalah pada manajemen tugas jangka panjang dan penggunaan tool yang kompleks. Selama evaluasi internal, model ini mempertahankan koherensi logis di seluruh sesi yang berlangsung lebih dari 30 jam, mengelola ribuan tool calls berurutan untuk memecahkan masalah rekayasa tingkat perangkat keras. Meskipun model ini dioptimalkan untuk teks dan kode guna mempertahankan kepadatan reasoning yang tinggi, model ini dengan mudah berintegrasi dengan modul visi atau audio eksternal melalui orkestrasi multi-agent.

Efisiensi dalam Konteks Besar

Dengan 256.000 tokens context window, model ini mendukung analisis repositori skala besar dan pengambilan dokumen yang kompleks. Model ini mempertahankan akurasi pengambilan yang tinggi bahkan saat window terisi penuh, menjadikannya ideal untuk penemuan hukum dan alur kerja RAG tingkat perusahaan. Struktur harga yang kompetitif memungkinkan pengembang untuk menyebarkan logika tingkat frontier dengan biaya yang jauh lebih murah daripada model serupa dari lab di Barat.

Qwen 3.7 Max

Kasus Penggunaan untuk Qwen 3.7 Max

Temukan berbagai cara menggunakan Qwen 3.7 Max untuk hasil yang luar biasa.

Rekayasa Kernel Otonom

Model menghasilkan dan mengoptimalkan kernel kode khusus perangkat keras untuk chip baru tanpa dokumentasi yang ada menggunakan tool calls rekursif.

Refactoring Repositori Perusahaan

Qwen 3.7 Max menganalisis seluruh repositori perangkat lunak lama untuk memperbarui framework dan menyelesaikan hutang teknis sambil memastikan paritas logika.

Perencanaan Agent Jangka Panjang

Model ini mengelola alur kerja multi-langkah yang memerlukan pengambilan keputusan otonom dan perencanaan selama sesi kontinu lebih dari 30 jam.

Verifikasi Penelitian Ilmiah

Para peneliti menggunakan model ini untuk memverifikasi bukti matematika yang kompleks dan menyelesaikan pertanyaan ilmiah multi-tahap dengan akurasi logis yang tinggi.

Pemodelan Risiko Keuangan Lanjutan

Model ini menyerap ribuan halaman data keuangan untuk mengidentifikasi anomali dan memproyeksikan ROI dengan reasoning terstruktur.

Rekayasa UI Lintas Framework

Model ini membangun prototipe frontend fungsional dengan manajemen status terintegrasi dan logika kompleks langsung dari instruksi bahasa alami tingkat tinggi.

Kelebihan

Keterbatasan

Efisiensi Reasoning Elit: Model ini memberikan skor 92,4% pada GPQA, menyamai atau melampaui model reasoning tingkat tertinggi dengan biaya yang jauh lebih terjangkau.
Flagship Khusus Teks: Varian Max tidak memiliki dukungan visi dan audio bawaan, sehingga memerlukan pergantian model untuk beban kerja multimodal.
Kecakapan Agent Otonom: Dengan skor 69,7 pada Terminal-Bench, model ini unggul dalam menavigasi lingkungan terminal nyata dan mengelola tool calls otonom.
Kesenjangan Desain Estetika: Meskipun logikanya kuat, UI dan aset kreatif yang dihasilkan seringkali kurang memiliki polesan visual seperti yang terlihat pada kompetitor seperti Claude.
MoE Skala Besar: Arsitektur Mixture-of-Experts dengan 1,6T parameter memastikan spesialisasi tinggi untuk berbagai tugas tanpa kehilangan logika umum.
Masalah Stabilitas Preview: Versi preview awal terkadang menunjukkan loop logika dalam ekstraksi dokumen yang sangat panjang dibandingkan dengan build 3.6 yang stabil.
Akurasi Mengikuti Instruksi: Skor 95,0% pada IFEval menunjukkan kemampuan superior untuk mengikuti pemformatan multi-batasan yang kompleks dan instruksi logis.
Bias Konteks Regional: Dokumentasi dan referensi budaya default terkadang lebih memprioritaskan pasar Timur, yang memengaruhi beberapa tugas kreatif Barat yang spesifik.

Mulai Cepat API

alibaba/qwen-3.7-max

Lihat Dokumentasi
alibaba SDK
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.QWEN_API_KEY,
  baseURL: "https://dashscope.aliyuncs.com/compatible-mode/v1",
});

async function runReasoningTask() {
  const completion = await client.chat.completions.create({
    model: "qwen-3.7-max",
    messages: [
      { role: "system", content: "You are a senior software architect." },
      { role: "user", content: "Analyze this legacy kernel for potential race conditions." }
    ],
    temperature: 0.1,
  });
  console.log(completion.choices[0].message.content);
}

runReasoningTask();

Instal SDK dan mulai melakukan panggilan API dalam hitungan menit.

Apa Kata Orang Tentang Qwen 3.7 Max

Lihat apa yang dipikirkan komunitas tentang Qwen 3.7 Max

Qwen 3.7 terbaru dari Tiongkok gila. Model ini membangun kalkulator ROI SEO dengan empat input kompleks dalam waktu kurang dari 5 menit. Silicon Valley mulai cemas.
Julian Goldie
youtube
Qwen3.7-Max adalah model dengan 1,6T parameter. Peningkatan kualitas hanya dalam satu bulan sejak 3.6 adalah iterasi tercepat yang pernah saya lihat.
AJ
twitter
Kemajuan dalam NL2Repo adalah cerita yang sebenarnya. Mereka mengklaim telah menyamai Claude Opus dalam coding tingkat repositori.
TeortaxesTex
twitter
Qwen akhirnya mulai beralih dari loop berpikir berlebihan di versi 3.5. Preview 3.7 Max jauh lebih tegas sambil tetap mempertahankan kedalaman logika.
LocalLLaMA
reddit
Qwen 3.7 Max baru saja menjadi model pertama yang secara serius menyaingi, dan dalam beberapa kasus mengalahkan, Claude Opus 4.6 dalam tugas teknis.
TechInsights
twitter
Berhasil menjalankan QWEN 3.6 27B secara lokal, tetapi performa cloud 3.7 Max berada di level lain untuk reasoning yang kompleks.
DevArchitect
hackernews

Video Tentang Qwen 3.7 Max

Tonton tutorial, ulasan, dan diskusi tentang Qwen 3.7 Max

Proses Chain of Thought sangat cepat dibandingkan iterasi sebelumnya.

Ini baru kedua kalinya saya melihat model mengimplementasikan bekas benturan amunisi pada pemandangan dengan benar.

Konsistensi logika dalam debugging coding multi-turn secara nyata lebih stabil daripada versi preview 3.6.

Model ini menangani context window 256k dengan hampir nol kehilangan informasi (needle-in-a-haystack).

Model ini mewakili jembatan antara penyelesaian statis dan perencanaan otonom yang sesungguhnya.

Context window-nya 256K tokens untuk Max, dan penting untuk dicatat, ini khusus teks.

Kami mengamati jumlah berpikir atau berpikir berlebihan yang jauh lebih sedikit dibandingkan dengan 3.5.

Performa di lingkungan berbasis terminal menunjukkan bahwa model ini benar-benar bisa mengelola server.

Qwen 3.7 Max jauh lebih murah untuk beban kerja perusahaan yang membutuhkan logika kelas atas.

Model ini tidak mengalami masalah keselarasan budaya yang sama seperti yang terlihat pada beberapa model sebelumnya.

Qwen 3.7 Max Preview mendarat di peringkat ke-13 secara keseluruhan di Text Arena.

Thinking mode berarti model memecah masalah menjadi langkah-langkah yang lebih kecil sebelum menjawab.

Model ini membangun kalkulator kompleks dalam waktu kurang dari lima menit dengan manajemen status yang sempurna.

Ini dioptimalkan khusus untuk Agentic AI, artinya model ini bertindak, bukan hanya berbicara.

Harganya adalah pukulan langsung terhadap dominasi OpenAI di pasar pengembang.

Lebih dari sekadar prompt

Tingkatkan alur kerja Anda dengan Otomatisasi AI

Automatio menggabungkan kekuatan agen AI, otomatisasi web, dan integrasi cerdas untuk membantu Anda mencapai lebih banyak dalam waktu lebih singkat.

Agen AI
Otomasi Web
Alur Kerja Cerdas

Tips Pro untuk Qwen 3.7 Max

Tips ahli untuk memaksimalkan Qwen 3.7 Max.

Terapkan Verifikasi Logika

Sertakan 'Verifikasi langkah-langkah berpikir Anda sebelum memberikan kode akhir' untuk memicu mode reasoning deliberatif bawaan model.

Manfaatkan Context Caching

Untuk tugas yang melibatkan codebase besar yang sama, gunakan context caching untuk mengurangi latency dan menurunkan pengeluaran input tokens Anda.

Definisikan Daftar Periksa Fase

Berikan daftar periksa bernomor untuk tugas panjang guna memastikan model tidak melewatkan langkah tengah selama generasi berdurasi panjang.

Desain Parameter Batasan

Saat membuat UI, berikan variabel CSS khusus untuk styling guna mengimbangi fokus model pada logika daripada estetika.

Testimoni

Apa Kata Pengguna Kami

Bergabunglah dengan ribuan pengguna puas yang telah mengubah alur kerja mereka

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Terkait AI Models

google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
openai

GPT-5.5

OpenAI

GPT-5.5 is OpenAI's flagship frontier model with a 1M context window and five reasoning effort levels, optimized for autonomous agentic workflows and coding.

1M context
$5.00/$30.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
anthropic

Claude Opus 4.7

Anthropic

Claude Opus 4.7 is Anthropic's flagship model with a 1-million-token context, adaptive reasoning, and 3.3x vision resolution for enterprise-scale agents.

1M context
$5.00/$25.00/1M
moonshot

Kimi k2.6

Moonshot

Kimi k2.6 is Moonshot AI's 1T-parameter MoE model featuring a 256K context window, native video input, and elite performance in autonomous agentic coding.

256K context
$0.95/$4.00/1M

Pertanyaan yang Sering Diajukan tentang Qwen 3.7 Max

Temukan jawaban untuk pertanyaan umum tentang Qwen 3.7 Max