alibaba

Qwen 3.7 Max

Qwen 3.7 Max er Alibabas flagship AI model til deep reasoning og autonome agent-opgaver, med et 256k context window og kodningsperformance i topklasse.

Thinking ModelCoding AssistantAgentic AIAlibaba CloudMoE Architecture
alibaba logoalibabaQwen320. maj 2026
Kontekst
256Ktokens
Maks output
66Ktokens
Input-pris
$1.20/ 1M
Output-pris
$6.00/ 1M
Modalitet:Text
Funktioner:VærktøjerStreamingRæsonnering
Benchmarks
GPQA
92.4%
GPQA: Spørgsmål og svar på kandidatniveau. En streng benchmark med 448 multiple choice-spørgsmål inden for biologi, fysik og kemi skabt af domæneeksperter. PhD-eksperter opnår kun 65-74% nøjagtighed, mens ikke-eksperter scorer kun 34% selv med ubegrænset webadgang (derfor 'Google-proof'). Qwen 3.7 Max scorede 92.4% på denne benchmark.
HLE
38.2%
HLE: Ekspertniveau-ræsonnering. Tester en models evne til at demonstrere ekspertniveau-ræsonnering på tværs af specialiserede domæner. Evaluerer dyb forståelse af komplekse emner, der kræver professionel viden. Qwen 3.7 Max scorede 38.2% på denne benchmark.
MMLU
92.8%
MMLU: Massiv flerfaglig sprogforståelse. En omfattende benchmark med 16.000 multiple choice-spørgsmål på tværs af 57 akademiske fag, herunder matematik, filosofi, jura og medicin. Tester bred viden og ræsonneringsevner. Qwen 3.7 Max scorede 92.8% på denne benchmark.
MMLU Pro
82%
MMLU Pro: MMLU Professionel udgave. En forbedret version af MMLU med 12.032 spørgsmål i et sværere format med 10 svarmuligheder. Dækker matematik, fysik, kemi, jura, ingeniørvidenskab, økonomi, sundhed, psykologi, business, biologi, filosofi og datalogi. Qwen 3.7 Max scorede 82% på denne benchmark.
SimpleQA
45%
SimpleQA: Faktuel nøjagtighedsbenchmark. Tester en models evne til at give nøjagtige, faktuelle svar på ligetil spørgsmål. Måler pålidelighed og reducerer hallucinationer i vidensindhentningstasks. Qwen 3.7 Max scorede 45% på denne benchmark.
IFEval
95%
IFEval: Instruktionsfølgningsevaluering. Måler, hvor godt en model følger specifikke instruktioner og begrænsninger. Tester evnen til at overholde formateringsregler, længdegrænser og andre eksplicitte krav. Qwen 3.7 Max scorede 95% på denne benchmark.
AIME 2025
99.7%
AIME 2025: American Invitational Math Exam. Konkurrence-niveau matematikopgaver fra den prestigefyldte AIME-eksamen designet til talentfulde gymnasieelever. Tester avanceret matematisk problemløsning, der kræver abstrakt tænkning, ikke kun mønstergenkendelse. Qwen 3.7 Max scorede 99.7% på denne benchmark.
MATH
94.8%
MATH: Matematisk problemløsning. En omfattende matematikbenchmark, der tester problemløsning inden for algebra, geometri, calculus og andre matematiske domæner. Kræver flertrinssværsonnering og formel matematisk viden. Qwen 3.7 Max scorede 94.8% på denne benchmark.
GSM8k
99.2%
GSM8k: Folkeskole matematik 8K. 8.500 folkeskole-niveau matematiske tekstopgaver, der kræver flertrinssræsonnering. Tester grundlæggende aritmetik og logisk tænkning gennem virkelige scenarier som shopping eller tidsberegninger. Qwen 3.7 Max scorede 99.2% på denne benchmark.
MGSM
98%
MGSM: Flersproget folkeskolematematik. GSM8k-benchmarken oversat til 10 sprog, herunder spansk, fransk, tysk, russisk, kinesisk og japansk. Tester matematisk ræsonnering på tværs af forskellige sprog. Qwen 3.7 Max scorede 98% på denne benchmark.
SWE-Bench
60.6%
SWE-Bench: Softwareingeniør-benchmark. AI-modeller forsøger at løse rigtige GitHub-issues i open source Python-projekter med menneskelig verifikation. Tester praktiske softwareingeniørfærdigheder på produktionskodebaser. Topmodeller gik fra 4,4% i 2023 til over 70% i 2024. Qwen 3.7 Max scorede 60.6% på denne benchmark.
HumanEval
94.5%
HumanEval: Python-programmeringsopgaver. 164 håndskrevne programmeringsopgaver, hvor modeller skal generere korrekte Python-funktionsimplementeringer. Hver løsning verificeres mod unit tests. Topmodeller opnår nu 90%+ nøjagtighed. Qwen 3.7 Max scorede 94.5% på denne benchmark.
LiveCodeBench
78.2%
LiveCodeBench: Live kodningsbenchmark. Tester kodningsevner på løbende opdaterede, virkelige programmeringsudfordringer. I modsætning til statiske benchmarks bruger den friske problemer for at forhindre dataforurening og måle ægte kodningsevner. Qwen 3.7 Max scorede 78.2% på denne benchmark.
Terminal-Bench
69.7%
Terminal-Bench: Terminal/CLI-opgaver. Tester evnen til at udføre kommandolinjeopgaver, skrive shell-scripts og navigere i terminalmiljøer. Måler praktiske systemadministrations- og udviklingsworkflow-færdigheder. Qwen 3.7 Max scorede 69.7% på denne benchmark.
ARC-AGI
12.4%
ARC-AGI: Abstraktion og ræsonnering. Abstraction and Reasoning Corpus for AGI - tester flydende intelligens gennem nye mønstergenkendelsespuslespil. Hver opgave kræver opdagelse af den underliggende regel fra eksempler, der måler generel ræsonneringsevne snarere end memorering. Qwen 3.7 Max scorede 12.4% på denne benchmark.

Om Qwen 3.7 Max

Lær om Qwen 3.7 Maxs muligheder, funktioner og hvordan den kan hjælpe dig med at opnå bedre resultater.

High-Order Reasoning Engine

Qwen 3.7 Max er et massivt Mixture-of-Experts-system med ca. 1,6 billioner parametre. Den er designet til at fungere som en logik-først-motor til ingeniørmæssige og forskningsmæssige opgaver med høj kompleksitet. Modellen integrerer en indbygget Always-On Thinking-tilstand, som tvinger modellen til at verificere logik og planlægge trin, før der genereres et svar. Dette arkitektoniske valg reducerer logisk drift i lange output betydeligt og giver et pålideligt fundament for softwarearkitektur og matematiske beviser.

Arkitektur for autonom agency

Denne model fungerer som en specialiseret base for næste generation af autonome agenter. Den fokuserer på langsigtede opgavestyring og kompleks værktøjsanvendelse. Under interne evalueringer opretholdt modellen logisk sammenhæng over sessioner, der varede over 30 timer, og administrerede tusindvis af sekventielle tool calls for at løse ingeniørmæssige problemer på hardware-niveau. Selvom modellen er optimeret til tekst og kode for at opretholde en høj reasoning-densitet, integreres den nemt med eksterne vision- eller lydmoduler via multi-agent orkestrering.

Effektivitet i store kontekster

Med et context window på 256.000 tokens understøtter modellen analyse af store repositories og kompleks dokumenthentning. Den bevarer en høj præcision, selv når vinduet fyldes, hvilket gør den ideel til juridisk undersøgelse og enterprise-level RAG-workflows. Den konkurrencedygtige prisstruktur gør det muligt for udviklere at implementere frontier-level logik til en brøkdel af prisen for sammenlignelige modeller fra vestlige laboratorier.

Qwen 3.7 Max

Anvendelser for Qwen 3.7 Max

Opdag de forskellige måder, du kan bruge Qwen 3.7 Max til at opnå gode resultater.

Autonom kernel-udvikling

Modellen genererer og optimerer hardware-specifikke kode-kernels til nye chips uden eksisterende dokumentation ved hjælp af rekursive tool calls.

Refaktorering af enterprise-repositories

Qwen 3.7 Max analyserer hele software-repositories for at opdatere frameworks og løse teknisk gæld, mens logisk paritet sikres.

Langsigtede agent-planlægningsopgaver

Den administrerer workflows i flere trin, der kræver autonom beslutningstagning og planlægning over sessioner på 30+ timer.

Verificering af videnskabelig forskning

Forskere bruger modellen til at verificere komplekse matematiske beviser og løse videnskabelige forespørgsler i flere faser med høj logisk præcision.

Avanceret finansiel risikomodellering

Modellen indtager tusindvis af siders finansielle data for at identificere anomalier og projicere ROI med struktureret reasoning.

UI-udvikling på tværs af frameworks

Den bygger funktionelle frontend-prototyper med integreret state management og kompleks logik direkte ud fra naturlige sproginstruktioner.

Styrker

Begrænsninger

Effektiv reasoning i topklasse: Modellen leverer 92,4 % på GPQA, hvilket matcher eller overgår de mest avancerede reasoning-modeller til en brøkdel af prisen.
Flagship kun til tekst: Max-varianten mangler indbygget understøttelse af vision og lyd, hvilket kræver et skift af model til multimodale workflows.
Kompetencer inden for autonome agenter: Med en score på 69,7 på Terminal-Bench udmærker den sig ved at navigere i rigtige terminalmiljøer og administrere autonome tool calls.
Udfordringer med æstetisk design: Selvom den er logisk velfunderet, mangler genereret UI og kreative aktiver ofte den visuelle finish, man ser hos konkurrenter som Claude.
Massiv MoE-skalering: 1,6T parameter Mixture-of-Experts-arkitekturen sikrer høj specialisering til forskellige opgaver uden at miste generel logisk evne.
Stabilitetsproblemer i preview-versioner: Tidlige preview-versioner har vist lejlighedsvise logiske loops ved ekstremt lange dokumentudtræk sammenlignet med stabile 3.6-builds.
Præcision i følge af instruktioner: En score på 95,0 % på IFEval demonstrerer en overlegen evne til at følge komplekse formaterings- og logiske instruktioner med flere begrænsninger.
Regional bias i kontekst: Dokumentation og standard kulturelle referencer kan lejlighedsvis prioritere østlige markeder, hvilket påvirker visse nicheprægede vestlige kreative opgaver.

API hurtig start

alibaba/qwen-3.7-max

Se dokumentation
alibaba SDK
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.QWEN_API_KEY,
  baseURL: "https://dashscope.aliyuncs.com/compatible-mode/v1",
});

async function runReasoningTask() {
  const completion = await client.chat.completions.create({
    model: "qwen-3.7-max",
    messages: [
      { role: "system", content: "You are a senior software architect." },
      { role: "user", content: "Analyze this legacy kernel for potential race conditions." }
    ],
    temperature: 0.1,
  });
  console.log(completion.choices[0].message.content);
}

runReasoningTask();

Installér SDK'et og begynd at foretage API-kald på få minutter.

Hvad folk siger om Qwen 3.7 Max

Se hvad fællesskabet mener om Qwen 3.7 Max

Kinas nye Qwen 3.7 er vanvittig. Den byggede en SEO ROI-beregner med fire komplekse inputs på under 5 minutter. Silicon Valley er nervøse.
Julian Goldie
youtube
Qwen3.7-Max er en 1,6T parameter model. Kvalitetsforbedringen på bare én måned siden 3.6 er den hurtigste iteration, jeg nogensinde har set.
AJ
twitter
Fremgangen i NL2Repo er den rigtige historie her. De hævder at have matchet Claude Opus på repository-niveau kodning.
TeortaxesTex
twitter
Qwen er endelig ved at bevæge sig væk fra 3.5-modellens over-tænkende loops. 3.7 Max previewen er meget mere beslutsom, mens den bevarer logikdybden.
LocalLLaMA
reddit
Qwen 3.7 Max blev netop den første model til seriøst at udfordre, og i visse tilfælde slå, Claude Opus 4.6 i tekniske opgaver.
TechInsights
twitter
Det lykkedes mig at få QWEN 3.6 27B til at køre lokalt, men 3.7 Max cloud-performance er på et andet niveau til kompleks reasoning.
DevArchitect
hackernews

Videoer om Qwen 3.7 Max

Se vejledninger, anmeldelser og diskussioner om Qwen 3.7 Max

Chain of Thought-processen er usædvanlig hurtig sammenlignet med tidligere versioner.

Dette er kun anden gang, jeg har set en model korrekt implementere ammunitionsskader i landskaber.

Den logiske sammenhæng i kodnings-debugging over flere omgange er mærkbart mere stabil end i 3.6-previewen.

Den håndterer et 256k context window med næsten nul tab af information.

Denne model repræsenterer broen mellem statisk færdiggørelse og ægte autonom planlægning.

Context windowet er på 256K tokens for Max, og vigtigst af alt er den kun til tekst.

Vi observerer en væsentlig mindre mængde tænkning eller over-tænkning sammenlignet med 3.5.

Præstationen i terminal-baserede miljøer tyder på, at den faktisk kan administrere en server.

Qwen 3.7 Max er betydeligt billigere til enterprise-workflows, der har brug for high-end logik.

Den kæmper ikke med de samme kulturelle tilpasningsproblemer, som vi så i tidligere modeller.

Qwen 3.7 Max Preview landede på en samlet 13. plads på Text Arena.

Thinking mode betyder, at modellen opdeler problemer i mindre trin, før den svarer.

Den bygger komplekse lommeregnere på under fem minutter med perfekt state management.

Denne er specifikt optimeret til Agentic AI, hvilket betyder, at den handler frem for blot at tale.

Prissætningen er et direkte angreb på OpenAIs dominans på udviklermarkedet.

Mere end bare prompts

Supercharg din arbejdsgang med AI-automatisering

Automatio kombinerer kraften fra AI-agenter, webautomatisering og smarte integrationer for at hjælpe dig med at udrette mere på kortere tid.

AI-agenter
Webautomatisering
Smarte arbejdsgange

Pro-tips til Qwen 3.7 Max

Eksperttips til at hjælpe dig med at få mest muligt ud af Qwen 3.7 Max og opnå bedre resultater.

Gennemtving logik-verificering

Inkluder 'Verificer dine tanketrin, før du leverer den endelige kode' for at aktivere modellens indbyggede deliberative reasoning-tilstand.

Udnyt context caching

Til opgaver, der involverer den samme massive kodebase, kan du bruge context caching for at reducere latency og sænke dit forbrug af input tokens.

Definer tjeklister for faser

Angiv en nummereret tjekliste til lange opgaver for at sikre, at modellen ikke udelader mellemtrin under langvarige generationer.

Designparametre for begrænsninger

Når du genererer UI, bør du angive specifikke CSS-variabler for styling for at kompensere for modellens fokus på logik frem for æstetik.

Anmeldelser

Hvad vores brugere siger

Slut dig til tusindvis af tilfredse brugere, der har transformeret deres arbejdsgang

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relateret AI Models

google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
openai

GPT-5.5

OpenAI

GPT-5.5 is OpenAI's flagship frontier model with a 1M context window and five reasoning effort levels, optimized for autonomous agentic workflows and coding.

1M context
$5.00/$30.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
anthropic

Claude Opus 4.7

Anthropic

Claude Opus 4.7 is Anthropic's flagship model with a 1-million-token context, adaptive reasoning, and 3.3x vision resolution for enterprise-scale agents.

1M context
$5.00/$25.00/1M
moonshot

Kimi k2.6

Moonshot

Kimi k2.6 is Moonshot AI's 1T-parameter MoE model featuring a 256K context window, native video input, and elite performance in autonomous agentic coding.

256K context
$0.95/$4.00/1M

Ofte stillede spørgsmål om Qwen 3.7 Max

Find svar på almindelige spørgsmål om Qwen 3.7 Max