alibaba

Qwen3.5-397B-A17B

Qwen3.5-397B-A17B 是阿里旗下的 flagship open-weight MoE 模型。具备原生 multimodal reasoning、1M context window 及 19 倍解码吞吐量提升...

MultimodalMoEOpen-WeightsAgentic AIReasoning
alibaba logoalibabaQwen3.5February 16, 2026
上下文
1.0Mtokens
最大输出
8Ktokens
输入价格
$0.60/ 1M
输出价格
$3.60/ 1M
模态:TextImageVideo
能力:视觉工具流式传输推理
基准测试
GPQA
88.4%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 Qwen3.5-397B-A17B 在此基准测试中得分 88.4%。
HLE
28.7%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 Qwen3.5-397B-A17B 在此基准测试中得分 28.7%。
MMLU
88.6%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 Qwen3.5-397B-A17B 在此基准测试中得分 88.6%。
MMLU Pro
87.8%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 Qwen3.5-397B-A17B 在此基准测试中得分 87.8%。
SimpleQA
48%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 Qwen3.5-397B-A17B 在此基准测试中得分 48%。
IFEval
92.6%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 Qwen3.5-397B-A17B 在此基准测试中得分 92.6%。
AIME 2025
91.3%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 Qwen3.5-397B-A17B 在此基准测试中得分 91.3%。
MATH
74.1%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 Qwen3.5-397B-A17B 在此基准测试中得分 74.1%。
GSM8k
93.7%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 Qwen3.5-397B-A17B 在此基准测试中得分 93.7%。
MGSM
92.1%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 Qwen3.5-397B-A17B 在此基准测试中得分 92.1%。
MathVista
90.3%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 Qwen3.5-397B-A17B 在此基准测试中得分 90.3%。
SWE-Bench
76.4%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 Qwen3.5-397B-A17B 在此基准测试中得分 76.4%。
HumanEval
79.3%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 Qwen3.5-397B-A17B 在此基准测试中得分 79.3%。
LiveCodeBench
83.6%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 Qwen3.5-397B-A17B 在此基准测试中得分 83.6%。
MMMU
85%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 Qwen3.5-397B-A17B 在此基准测试中得分 85%。
MMMU Pro
79%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 Qwen3.5-397B-A17B 在此基准测试中得分 79%。
ChartQA
86.5%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 Qwen3.5-397B-A17B 在此基准测试中得分 86.5%。
DocVQA
93.2%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 Qwen3.5-397B-A17B 在此基准测试中得分 93.2%。
Terminal-Bench
52.5%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 Qwen3.5-397B-A17B 在此基准测试中得分 52.5%。
ARC-AGI
12%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 Qwen3.5-397B-A17B 在此基准测试中得分 12%。

关于 Qwen3.5-397B-A17B

了解 Qwen3.5-397B-A17B 的功能、特性以及它如何帮助您获得更好的效果。

高效 Mixture-of-Experts

Qwen3.5-397B-A17B 是一款 flagship 原生 multimodal 模型,采用了一种创新的混合架构,将 Gated Delta Networks 的线性 attention 与稀疏 Mixture-of-Experts (MoE) 相融合。尽管总参数达到 3970 亿,但其稀疏设计在每次前向传播时仅激活 170 亿参数,在不牺牲庞大 reasoning 能力的前提下实现了极高的推理效率和速度。它针对语言和视觉任务进行了优化,支持 25 万 tokens 的词汇量,并支持超过 201 种语言和方言。

原生 Multimodal Agentic 工作流

该模型作为原生 multimodal agent 表现优异,能够处理高达 100 万 tokens 的 context,相当于约两小时的视频内容。它引入了专门的 Thinking Mode 以用于复杂的逻辑 reasoning,并原生适配 agentic 工作流,包括 Web 开发、GUI 导航和现实世界的空间智能。其架构支持 FP8 端到端训练和训练-推理分离框架,使其成为企业级 AI 应用中最具扩展性和效率的模型之一。

助力全球可访问性的 Open Weights

该模型在 Apache 2.0 协议下发布,为开源社区提供了此前仅限于专有系统的 frontier-level 能力。它弥合了庞大参数量与实际部署之间的差距,允许企业在私有基础设施上运行最先进的 reasoning 任务,且计算开销远低于传统的 400B 密集型模型。

Qwen3.5-397B-A17B

Qwen3.5-397B-A17B 的使用案例

发现使用 Qwen3.5-397B-A17B 获得出色效果的不同方式。

长跨度视频分析

分析长达两小时的视频内容,提取逻辑、根据画面进行代码反向工程或生成结构化摘要。

博士级 STEM 研究

利用其自适应深度思考模式,解决研究生级别的科学问题和奥赛级别的数学难题。

自主 GUI Agent

自动化与手机和电脑的交互,处理办公流程及跨应用的移动导航。

视觉软件工程

通过自然语言指令和 UI 草图生成功能性前端代码,实现“vibe coding”。

文档智能

处理复杂的文档、图表和手写草图,提取结构化数据并进行版式反向工程。

空间 AI 应用

理解像素级的关系,用于具身 AI 任务,如自动驾驶场景分析和机器人导航。

优势

局限性

卓越的视频支持: 支持 100 万 tokens,允许原生处理长达 120 分钟的视频,适用于 agentic 和编程任务。
极高的硬件门槛: 完整部署需要企业级 GPU 服务器集群,且未压缩的 16-bit 精度需 800GB 以上 VRAM。
MoE 推理效率: 397B 总参数/17B 激活参数的架构,相比以往的密集型 flagship model 提升了 19 倍的解码吞吐量。
HLE 知识差距: 尽管在科学和数学 benchmark 上表现优异,但在 Humanity's Last Exam (HLE) 上仅得 28.7%,显示出在绝对专家事实性方面仍有差距。
State-of-the-art reasoning: 在 AIME 上达到 91.3%,GPQA 上达到 88.4%,在博士级科学和数学能力上媲美顶尖的 closed-source model。
工具使用过度自信: 在自主 Agent 场景中,该 model 有时会产生 hallucinated 的工具输出,或忽略结果而倾向于其内部预测。
Apache 2.0 Open Weights: 提供 frontier-level 的智能,同时具备 Open Weights 的自由度,支持私有化部署。
终端任务表现: 在 Terminal-Bench 2.0 上得分为 52.5%,在复杂的命令行交互任务中落后于竞争对手。

API快速入门

alibaba/qwen3.5-plus

查看文档
alibaba SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.DASHSCOPE_API_KEY,
  baseURL: 'https://dashscope-intl.aliyuncs.com/compatible-mode/v1',
});

async function main() {
  const completion = await client.chat.completions.create({
    model: 'qwen3.5-plus',
    messages: [{ role: 'user', content: 'Analyze the logic of this MoE architecture.' }],
    extra_body: { enable_thinking: true },
  });
  console.log(completion.choices[0].message.content);
}

main();

安装SDK并在几分钟内开始进行API调用。

人们对 Qwen3.5-397B-A17B 的评价

看看社区对 Qwen3.5-397B-A17B 的看法

Qwen3.5-397B 本质上是一个 GPT-5 级别的模型但属于 open-weight。DeltaNet 架构完美解决了 MoE 的 latency 问题。
u/DeepLearningLover
reddit
Qwen3.5 原生 multimodal reasoning 看起来太不可思议了。1M context + 视频分析将改变 Agent 工作流。
@AiDevDaily
twitter
在敏感层保持 BF16 的同时使用 FP8 端到端训练,这是稳定性优化方面的大师级作品。
cold_fusion
hackernews
这是我第一次看到 open 模型在复杂的 multimodal agent 任务上真正击败了 Gemini 1.5 Pro。
AI Revolution
youtube
相比 Qwen3-Max,19 倍的解码吞吐量提升使其成为生产级 Agent 的可行替代方案。
u/ModelTester2026
reddit
我很惊讶它在 4-bit 量化下的表现如此出色。在双 A100 设置上几乎保留了所有 reasoning 能力。
@GlobalTechReview
twitter

关于 Qwen3.5-397B-A17B 的视频

观看关于 Qwen3.5-397B-A17B 的教程、评测和讨论

一个拥有 3970 亿参数的模型,但激活参数仅 170 亿。

在 256K 解码时,该模型比 Qwen 3 Max 快 19 倍。

原生的视觉语言 reasoning 是其在 agentic 工作流中脱颖而出的关键。

它在标准数学 benchmark 上击败了大多数 closed 模型。

本地运行非常困难,但在高端 Mac 上可以使用量化版本。

3970 亿参数模型,激活参数 170 亿。它是原生的 multimodal。

它很可能是目前最好的 open-source multimodal 模型。

能够原生处理两小时视频是一个巨大的优势。

看看这些逻辑分数,它持续达到 GPT-4o 的水平。

Apache 协议使它在企业数据隐私方面非常有吸引力。

OCR 结构化提取。如果你有一个凌乱的 PDF……需要将其转为整洁的 JSON,该模型非常出色。

你获得了 4000 亿参数巨人的智能……但只需支付 170 亿参数模型的计算成本。

它处理长 context 检索的能力比前一版本更好。

工具使用集成直接内置于基础训练中,并非后期添加。

Thinking 模式允许它在输出前修正自身的逻辑。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

Qwen3.5-397B-A17B专业提示

专家提示助您充分利用Qwen3.5-397B-A17B。

开启 Thinking 模式

在 API 调用中传入 'enable_thinking: true' 参数,可激活深度 reasoning,适用于数学、编程及复杂逻辑谜题。

使用 Fast 模式

对于简单查询,使用 'Fast' 模式可获得即时回复,且无需消耗额外内部思考过程的 tokens。

优化视频 prompt

在分析视频时,prompt model 关注最终的动态结果而非逐帧分析,以获得更好的时间连贯性。

利用量化技术

如果您拥有充足的 VRAM(200GB+),可使用 4-bit 或 8-bit 量化(GGUF/EXL2)在消费级硬件上运行该 model。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M

关于Qwen3.5-397B-A17B的常见问题

查找关于Qwen3.5-397B-A17B的常见问题答案