alibaba

Qwen3.6-Max-Preview

Qwen3.6-Max-Preview 是阿里巴巴的旗舰 MoE 模型,具备 1M context window、原生 Thinking Mode,并在 agentic 编码和推理领域取得了 SOTA 分数。

MoEAgentic Coding1M ContextFrontier ModelAlibaba Qwen
alibaba logoalibabaQwen 3.62026年4月20日
上下文
1.0Mtokens
最大输出
8Ktokens
输入价格
$1.25/ 1M
输出价格
$10.00/ 1M
模态:TextImageVideo
能力:视觉工具流式传输推理
基准测试
GPQA
86%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 Qwen3.6-Max-Preview 在此基准测试中得分 86%。
HLE
51%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 Qwen3.6-Max-Preview 在此基准测试中得分 51%。
MMLU
83%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 Qwen3.6-Max-Preview 在此基准测试中得分 83%。
MMLU Pro
79%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 Qwen3.6-Max-Preview 在此基准测试中得分 79%。
SimpleQA
52%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 Qwen3.6-Max-Preview 在此基准测试中得分 52%。
IFEval
75%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 Qwen3.6-Max-Preview 在此基准测试中得分 75%。
AIME 2025
93%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 Qwen3.6-Max-Preview 在此基准测试中得分 93%。
MATH
95%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 Qwen3.6-Max-Preview 在此基准测试中得分 95%。
GSM8k
98%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 Qwen3.6-Max-Preview 在此基准测试中得分 98%。
MGSM
92%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 Qwen3.6-Max-Preview 在此基准测试中得分 92%。
MathVista
86%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 Qwen3.6-Max-Preview 在此基准测试中得分 86%。
SWE-Bench
73%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 Qwen3.6-Max-Preview 在此基准测试中得分 73%。
HumanEval
91%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 Qwen3.6-Max-Preview 在此基准测试中得分 91%。
LiveCodeBench
79%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 Qwen3.6-Max-Preview 在此基准测试中得分 79%。
MMMU
82%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 Qwen3.6-Max-Preview 在此基准测试中得分 82%。
MMMU Pro
75%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 Qwen3.6-Max-Preview 在此基准测试中得分 75%。
ChartQA
85%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 Qwen3.6-Max-Preview 在此基准测试中得分 85%。
DocVQA
89%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 Qwen3.6-Max-Preview 在此基准测试中得分 89%。
Terminal-Bench
65%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 Qwen3.6-Max-Preview 在此基准测试中得分 65%。
ARC-AGI
14%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 Qwen3.6-Max-Preview 在此基准测试中得分 14%。

关于 Qwen3.6-Max-Preview

了解 Qwen3.6-Max-Preview 的功能、特性以及它如何帮助您获得更好的效果。

Qwen3.6-Max-Preview 是阿里巴巴的旗舰级闭源 LLM,代表了其高性能 AI 系列的最新进展。该模型采用了稀疏 Mixture-of-Experts (MoE) 架构,实现了万亿参数系统的推理深度,同时保持了显著的运营效率。它专门针对 agentic 编码、世界知识和复杂指令遵循进行了优化。

该模型最突出的功能是其原生的 Thinking Mode,允许系统在给出最终回答之前生成可见的内部 chain-of-thought。这种透明度对于构建自主 agent 的开发者来说非常有价值,因为它为逻辑规划和错误修正步骤提供了清晰的窗口。结合 100 万 tokens 的超长 context window,该模型可以在一次调用中摄入整个项目存储库或大量的文档库。

Qwen3.6-Max-Preview 托管在阿里云百炼上,支持行业标准协议,并兼容 OpenAI 风格的 API 规范。它旨在成为需要高性能 AI 功能进行多模态数据分析和稳健 agentic 工作流的企业首选,为西方闭源模型提供了一个高性能的替代方案。

Qwen3.6-Max-Preview

Qwen3.6-Max-Preview 的使用案例

发现使用 Qwen3.6-Max-Preview 获得出色效果的不同方式。

自主软件工程

将模型部署为编码 agent,使其能够导航整个代码库、规划架构变更并修复跨多个文件的 bug。

大规模技术分析

利用 1M tokens 的 context window 来摄入完整的文档集或法律框架,进行深度分析,无需受限于 RAG。

复杂推理与规划

利用原生的 Thinking Mode 来解决高阶数学问题,即需要多步内部规划以确保准确性的场景。

多模态内容理解

分析静态图像和复杂的视频序列,以提取数据并总结动态视觉事件。

交互式终端操作

构建允许 AI 直接与 shell 和 CLI 环境交互的工具,并受益于其优化的 Terminal-Bench 性能。

企业级 agentic 工作流

将模型集成到复杂的业务流程中,满足自动化所需的指令可靠性和复杂的工具调用需求。

优势

局限性

世界领先的编码能力: 在 SWE-bench Pro 上取得 57.3% 的评分,在自主软件任务方面超越了 Claude 4.5 Opus 等主要 frontier model。
闭源限制: 与 Qwen 3.6 的 Medium 版本不同,Max-Preview 是专有的,无法在本地硬件上部署。
超大 1M Token Context: 在单个 prompt 中处理海量数据集和完整的技术库,而不会出现旧架构中常见的上下文衰减问题。
高额输出 tokens 溢价: 每 100 万 tokens 10.00 美元的输出定价是输入价格的 8 倍,使得长推理链的成本高于数据摄入。
透明的原生推理: 内置的 Thinking Mode 可展示内部逻辑,从而在复杂问题解决中实现更高的可靠性,并便于调试。
知识截止日期限制: 作为静态预览模型,它缺乏 2026 年初训练截止日期之后的实时事件感知或库更新。
极具竞争力的定价: 每 100 万输入 tokens 仅需 1.25 美元,以远低于西方闭源竞品的价格提供 frontier 级的性能。
区域 API 延迟: 根据部署区域的不同,国际用户相比高度优化的本地变体可能会遇到更高的延迟。

API快速入门

alibaba/qwen3.6-max-preview

查看文档
alibaba SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.DASHSCOPE_API_KEY,
  base_url: 'https://dashscope-intl.aliyuncs.com/compatible-mode/v1',
});

async function main() {
  const completion = await client.chat.completions.create({
    model: 'qwen3.6-max-preview',
    messages: [{ role: 'user', content: 'Design a system architecture for a real-time AI agent.' }],
    extra_body: { enable_thinking: true },
    stream: true
  });

  for await (const chunk of completion) {
    process.stdout.write(chunk.choices[0]?.delta?.content || '');
  }
}

main();

安装SDK并在几分钟内开始进行API调用。

人们对 Qwen3.6-Max-Preview 的评价

看看社区对 Qwen3.6-Max-Preview 的看法

你期望在大型服务器集群上运行的模型所具备的性能,现在就在你的桌面上实现了。
softtechhubus
reddit
Qwen3.6-Max-Preview 刚刚在 SWE-Bench Pro 上击败了 Claude Opus 4.5。中国追赶的速度太快了。
BridgeMind
twitter
每 100 万 tokens 1.25 美元的定价,使 Qwen 在大规模数据摄入方面明显比 Claude 更便宜。
TechReviewer2026
reddit
Thinking Mode 作为默认状态内置其中,这对于提升 agentic 可靠性来说是一个非常有意义的设计决策。
DevGuru
twitter
Qwen 推出了 Qwen 3.6 Max Preview 作为全新的高端闭源旗舰模型。
AICodeKing
youtube
与 Plus 模型相比,它显示出改进的编码 agent 能力和更好的真实世界 agent 可靠性。
Codedigipt
youtube

关于 Qwen3.6-Max-Preview 的视频

观看关于 Qwen3.6-Max-Preview 的教程、评测和讨论

Qwen 推出了 Qwen 3.6 Max Preview 作为全新的高端闭源旗舰模型。

该模型在 SkillsBench 和 Terminal-Bench 2.0 等编码 agent benchmark 中展现了显著飞跃。

Qwen 显然正在高端领域与 Claude 4.5 Opus 等模型展开正面竞争。

该模型在世界知识和指令遵循方面代表了实质性的改进。

在 SWE-bench 上的性能跳跃使其与 Plus 版本拉开了差距。

benchmark 的核心在于将托管的 Max Preview 与开源权重系列区分开来。

除了模型权重,我们还使用 Qwen 代码页面和 repo 表面来判断生态系统的深度。

与去年的 o1 风格模型相比,Thinking Mode 的速度出人意料地快。

这显然是为需要可靠 API 来完成 agentic 任务的企业开发者设计的。

其多模态视觉性能在某些文档分析测试中正在赶上 Gemini 2。

本视频介绍了 Qwen3.6-Max-Preview,这是 Qwen 下一代旗舰模型的抢先体验。

与 Plus 模型相比,它显示出改进的编码 agent 能力和更好的真实世界 agent 可靠性。

1M 的 context window 比我们在早期 Qwen 2 版本中看到的要稳定得多。

如果你正在进行大量编码工作,Qwen 3.6 Max 目前是 benchmark 的领先者。

即使是旗舰级的闭源模型,其定价仍然非常有竞争力。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

Qwen3.6-Max-Preview专业提示

专家提示助您充分利用Qwen3.6-Max-Preview。

启用内部推理 (Internal Reasoning)

在 API 请求中将 'enable_thinking' 参数设置为 true,以查看模型的内部逻辑,从而调试复杂的推理过程。

保留长序列逻辑 (Long-Horizon Logic)

在多轮对话中使用 'preserve_thinking' 功能,以确保模型在整个会话中保持逻辑连贯性。

输入完整代码库

充分利用 1M 的 context window,直接提供完整的源码资料而非分块数据,以获得更好的跨文件理解能力。

使用兼容的端点

对于全球应用,请使用阿里云新加坡或美国弗吉尼亚节点,以最大限度减少国际用户的 regional latency。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
zhipu

GLM-5.1

Zhipu (GLM)

GLM-5.1 is Zhipu AI's flagship reasoning model, featuring a 202K context window and an autonomous 8-hour execution loop for complex agentic engineering.

203K context
$1.40/$4.40/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M

关于Qwen3.6-Max-Preview的常见问题

查找关于Qwen3.6-Max-Preview的常见问题答案