alibaba

Qwen 3.7 Max

Qwen 3.7 Max 是阿里巴巴的 flagship AI 模型,专注于深度 reasoning 和自主 agent 任务,拥有 256k context window 和顶尖的编码性能。

Thinking Model编程助手Agentic AI阿里云MoE Architecture
alibaba logoalibabaQwen32026年5月20日
上下文
256Ktokens
最大输出
66Ktokens
输入价格
$1.20/ 1M
输出价格
$6.00/ 1M
模态:Text
能力:工具流式传输推理
基准测试
GPQA
92.4%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 Qwen 3.7 Max 在此基准测试中得分 92.4%。
HLE
38.2%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 Qwen 3.7 Max 在此基准测试中得分 38.2%。
MMLU
92.8%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 Qwen 3.7 Max 在此基准测试中得分 92.8%。
MMLU Pro
82%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 Qwen 3.7 Max 在此基准测试中得分 82%。
SimpleQA
45%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 Qwen 3.7 Max 在此基准测试中得分 45%。
IFEval
95%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 Qwen 3.7 Max 在此基准测试中得分 95%。
AIME 2025
99.7%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 Qwen 3.7 Max 在此基准测试中得分 99.7%。
MATH
94.8%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 Qwen 3.7 Max 在此基准测试中得分 94.8%。
GSM8k
99.2%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 Qwen 3.7 Max 在此基准测试中得分 99.2%。
MGSM
98%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 Qwen 3.7 Max 在此基准测试中得分 98%。
SWE-Bench
60.6%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 Qwen 3.7 Max 在此基准测试中得分 60.6%。
HumanEval
94.5%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 Qwen 3.7 Max 在此基准测试中得分 94.5%。
LiveCodeBench
78.2%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 Qwen 3.7 Max 在此基准测试中得分 78.2%。
Terminal-Bench
69.7%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 Qwen 3.7 Max 在此基准测试中得分 69.7%。
ARC-AGI
12.4%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 Qwen 3.7 Max 在此基准测试中得分 12.4%。

关于 Qwen 3.7 Max

了解 Qwen 3.7 Max 的功能、特性以及它如何帮助您获得更好的效果。

高阶 Reasoning 引擎

Qwen 3.7 Max 是一个巨大的 Mixture-of-Experts 系统,包含约 1.6 万亿个 parameters。它被设计为用于高复杂度工程和研究任务的逻辑优先引擎。该模型集成了原生的 Always-On Thinking 模式,强制模型在生成回复前验证逻辑并规划步骤。这种架构选择显著减少了长文本输出中的逻辑漂移,为软件架构和数学证明提供了可靠的基础。

为自主 Agent 而生

该模型可作为下一代自主 agent 的专用基础,专注于长周期任务管理和复杂的 tool usage。在内部评估中,该模型在持续 30 小时以上的会话中保持了逻辑连贯性,通过管理数千个顺序 tool call 来解决硬件级工程问题。虽然模型为保持高 reasoning 密度而针对文本和代码进行了优化,但它也可以通过多 agent 编排轻松集成外部视觉或音频模块。

大规模上下文中的效率

凭借 256,000 token 的 context window,该模型支持大规模代码库分析和复杂的文档检索。即使在窗口填满的情况下,它仍保持较高的检索准确率,使其成为法律证据搜集和企业级 RAG 工作流的理想选择。这种具有竞争力的定价结构,让开发者能够以仅相当于西方实验室同类模型极小一部分的成本,部署 frontier-level 的逻辑能力。

Qwen 3.7 Max

Qwen 3.7 Max 的使用案例

发现使用 Qwen 3.7 Max 获得出色效果的不同方式。

自主内核工程

该模型利用递归 tool call,无需现有文档即可为新芯片生成并优化特定于硬件的代码内核。

企业级代码库重构

Qwen 3.7 Max 分析整个遗留软件库,在确保逻辑对等的同时更新框架并解决技术债务。

长周期 Agent 规划

它能够管理需要自主决策和规划的多步骤工作流,支持持续 30 小时以上的会话。

科学研究验证

研究人员利用该模型验证复杂的数学证明,并以极高的逻辑准确性解决多阶段的科学查询。

高级金融风险建模

模型摄取数千页的金融数据,以结构化的 reasoning 识别异常并预测投资回报率 (ROI)。

跨框架 UI 工程

它能直接根据高级自然语言指令,构建具备集成状态管理和复杂逻辑的功能性前端原型。

优势

局限性

精英级的 Reasoning 效率: 该模型在 GPQA 上达到 92.4% 的准确率,以极低的成本匹配甚至超越了顶级 reasoning model。
仅限文本的 flagship: Max 版本缺乏原生的视觉和音频支持,多模态工作负载需要切换模型。
自主 Agent 熟练度: 凭借在 Terminal-Bench 上 69.7 的得分,它在操控真实终端环境和管理自主 tool call 方面表现卓越。
美学设计的短板: 虽然逻辑严密,但生成的 UI 和创意资产往往缺乏像 Claude 那样的视觉精致感。
大规模 MoE 架构: 1.6T parameter 的 Mixture-of-Experts 架构确保了在不损失通用逻辑的情况下,对多样化任务的高专业性。
预览版的稳定性问题: 与稳定的 3.6 版本相比,早期预览版本在极长文档提取中偶尔会出现逻辑死循环。
指令遵循准确性: 在 IFEval 上 95.0% 的得分展示了其卓越的能力,能够遵循复杂的、多约束的格式和逻辑指令。
地域环境偏差: 文档和默认的文化参考有时会偏向东部市场,这可能会影响某些细分的西部创意任务。

API快速入门

alibaba/qwen-3.7-max

查看文档
alibaba SDK
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.QWEN_API_KEY,
  baseURL: "https://dashscope.aliyuncs.com/compatible-mode/v1",
});

async function runReasoningTask() {
  const completion = await client.chat.completions.create({
    model: "qwen-3.7-max",
    messages: [
      { role: "system", content: "You are a senior software architect." },
      { role: "user", content: "Analyze this legacy kernel for potential race conditions." }
    ],
    temperature: 0.1,
  });
  console.log(completion.choices[0].message.content);
}

runReasoningTask();

安装SDK并在几分钟内开始进行API调用。

人们对 Qwen 3.7 Max 的评价

看看社区对 Qwen 3.7 Max 的看法

中国的新模型 Qwen 3.7 太疯狂了。它在不到 5 分钟内构建了一个带有四个复杂输入的 SEO ROI 计算器。硅谷感到紧张了。
Julian Goldie
youtube
Qwen 3.7-Max 是一款 1.6T parameter 的模型。自 3.6 发布以来,仅一个月内质量就有如此提升,这是我见过迭代速度最快的。
AJ
twitter
在 NL2Repo 方面的进展才是重点。他们声称已经达到了 Claude Opus 在仓库级代码编写方面的水平。
TeortaxesTex
twitter
Qwen 终于摆脱了 3.5 中过度思考的循环。3.7 Max 预览版在保持逻辑深度的同时,表现得果断多了。
LocalLLaMA
reddit
Qwen 3.7 Max 成为第一个在技术任务上真正能与 Claude Opus 4.6 匹敌,甚至在某些情况下超越它的模型。
TechInsights
twitter
成功在本地运行了 QWEN 3.6 27B,但 3.7 Max 的云端性能在复杂 reasoning 方面处于另一个水平。
DevArchitect
hackernews

关于 Qwen 3.7 Max 的视频

观看关于 Qwen 3.7 Max 的教程、评测和讨论

与之前的版本相比,其 Chain of Thought 处理过程异常迅速。

这是我第二次看到模型在场景中正确实现弹道冲击痕迹。

在多轮代码调试中,逻辑一致性明显比 3.6 预览版更稳定。

它几乎零丢失地处理了 256k 的 context window。

该模型架起了从静态补全到真正自主规划之间的桥梁。

Max 的 context window 为 256K token,且重要的一点是,它仅支持文本。

与 3.5 相比,我们观察到它的思考过程更少,也更不容易过度思考。

在基于终端的环境中的表现表明,它可以真正管理一台服务器。

对于需要高端逻辑的企业工作负载,Qwen 3.7 Max 的性价比显著更高。

它没有遇到早期某些模型中出现的文化对齐问题。

Qwen 3.7 Max 预览版在 Text Arena 总排名中位列第 13。

Thinking 模式意味着模型在回答之前会将问题分解为更小的步骤。

它在五分钟内就构建了具有完美状态管理的复杂计算器。

这是专门针对 Agentic AI 进行优化的,意味着它不仅仅是对话,更是在执行任务。

这种定价是对 OpenAI 在开发者市场主导地位的直接冲击。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

Qwen 3.7 Max专业提示

专家提示助您充分利用Qwen 3.7 Max。

强制逻辑验证

在 prompt 中加入“在提供最终代码之前验证你的思考步骤”,以触发模型的原生深思熟虑的 reasoning 模式。

利用上下文缓存 (Context Caching)

对于涉及相同庞大代码库的任务,请使用上下文缓存来减少 latency 并降低输入 token 的开销。

定义阶段性检查清单

为长任务提供带编号的检查清单,以确保模型在长周期的生成过程中不会遗漏中间步骤。

约束设计参数

生成 UI 时,提供具体的 CSS 变量进行样式设定,以弥补模型在审美与逻辑之间的重心偏移。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
openai

GPT-5.5

OpenAI

GPT-5.5 is OpenAI's flagship frontier model with a 1M context window and five reasoning effort levels, optimized for autonomous agentic workflows and coding.

1M context
$5.00/$30.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
anthropic

Claude Opus 4.7

Anthropic

Claude Opus 4.7 is Anthropic's flagship model with a 1-million-token context, adaptive reasoning, and 3.3x vision resolution for enterprise-scale agents.

1M context
$5.00/$25.00/1M
moonshot

Kimi k2.6

Moonshot

Kimi k2.6 is Moonshot AI's 1T-parameter MoE model featuring a 256K context window, native video input, and elite performance in autonomous agentic coding.

256K context
$0.95/$4.00/1M

关于Qwen 3.7 Max的常见问题

查找关于Qwen 3.7 Max的常见问题答案