alibaba

Qwen3.5-Omni

Qwen3.5-Omni 是由阿里云开发的原生 omnimodal AI,提供无缝的视听 reasoning、实时语音聊天以及为低延迟应用设计的 256k context。

Omnimodal实时语音视频视觉阿里云MoE
alibaba logoalibabaQwen3.52026年3月29日
上下文
256Ktokens
最大输出
8Ktokens
输入价格
$0.40/ 1M
输出价格
$4.80/ 1M
模态:TextImageAudioVideo
能力:视觉工具流式传输
基准测试
GPQA
83.9%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 Qwen3.5-Omni 在此基准测试中得分 83.9%。
HLE
34.2%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 Qwen3.5-Omni 在此基准测试中得分 34.2%。
MMLU
94.2%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 Qwen3.5-Omni 在此基准测试中得分 94.2%。
MMLU Pro
85.9%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 Qwen3.5-Omni 在此基准测试中得分 85.9%。
SimpleQA
48.2%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 Qwen3.5-Omni 在此基准测试中得分 48.2%。
IFEval
89.7%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 Qwen3.5-Omni 在此基准测试中得分 89.7%。
AIME 2025
81.6%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 Qwen3.5-Omni 在此基准测试中得分 81.6%。
MATH
90.4%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 Qwen3.5-Omni 在此基准测试中得分 90.4%。
GSM8k
94.5%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 Qwen3.5-Omni 在此基准测试中得分 94.5%。
MGSM
94.1%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 Qwen3.5-Omni 在此基准测试中得分 94.1%。
MathVista
86.1%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 Qwen3.5-Omni 在此基准测试中得分 86.1%。
SWE-Bench
75%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 Qwen3.5-Omni 在此基准测试中得分 75%。
HumanEval
91.2%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 Qwen3.5-Omni 在此基准测试中得分 91.2%。
LiveCodeBench
65.6%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 Qwen3.5-Omni 在此基准测试中得分 65.6%。
MMMU
80.1%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 Qwen3.5-Omni 在此基准测试中得分 80.1%。
MMMU Pro
73.9%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 Qwen3.5-Omni 在此基准测试中得分 73.9%。
ChartQA
85.3%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 Qwen3.5-Omni 在此基准测试中得分 85.3%。
DocVQA
95.2%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 Qwen3.5-Omni 在此基准测试中得分 95.2%。
Terminal-Bench
52.5%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 Qwen3.5-Omni 在此基准测试中得分 52.5%。
ARC-AGI
12.5%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 Qwen3.5-Omni 在此基准测试中得分 12.5%。

关于 Qwen3.5-Omni

了解 Qwen3.5-Omni 的功能、特性以及它如何帮助您获得更好的效果。

统一的 Omnimodal 架构

Qwen3.5-Omni 是由阿里云开发的 natively omnimodal 模型,建立在统一的架构之上,旨在同时处理文本、图像、音频和视频输入。与以往依赖独立 encoder 的模型不同,Qwen3.5-Omni 采用了 Thinker-Talker 架构。Thinker 组件在交错的信号间执行复杂的 multimodal reasoning,而 Talker 组件则生成高质量、低延迟的流式语音。这使得模型能够处理海量 context,包括在单个 prompt 中处理长达 10 小时的音频或近 7 分钟的 720p 视频。

先进的同步与性能

该模型的一个核心技术特征是自适应速率交错对齐(ARIA)系统,它同步文本和语音 token 以确保语音响应自然。模型支持实时语义打断,允许用户在对话过程中随时打断 AI。它针对企业级 multimodal 分析和面向消费者的实时语音助手进行了优化,在视觉和音频任务上的表现媲美甚至超过了 proprietary flagship 模型。

专为低延迟交互打造

该模型的架构经过专门调优,适用于延迟至关重要的实时应用。通过使用带有门控增量网络架构的 Mixture-of-Experts (MoE) 方法,该模型保持了极高的计算效率。这种效率使其能够在管理 256k token context window 的同时提供实时语音交互,使其非常适合会议记录和影视视频索引等长内容分析任务。

Qwen3.5-Omni

Qwen3.5-Omni 的使用案例

发现使用 Qwen3.5-Omni 获得出色效果的不同方式。

实时语音助手

该模型可构建交互式 AI 化身,通过语义打断支持进行自然的语音对话。

影视级视频标注

它为高清长视频内容生成剧本级的描述和带时间戳的注释。

视听同步实时编码

开发者可以通过展示屏幕并口头解释逻辑,实时地与模型进行代码修复。

企业音频存档

系统可一次性处理长达 10 小时的会议记录或播客,并提取核心洞察。

多语言翻译服务

它提供跨越 113 种语言和多种中国地方方言的端到端语音到语音翻译。

内容审核

该模型通过同时识别视觉和语言违规内容,对视频和音频流进行安全审计。

优势

局限性

原生 Omnimodal 融合: 它将文本、视觉和音频集成在一个模型中,在 215 个 multimodal 子任务上均达到 state-of-the-art 水平。
高 GPU 要求: 与纯文本模型相比,本地部署该 omnimodal MoE 架构需要大量的 VRAM。
超广音频视野: 256k context window 允许在单次请求中处理超过 10 小时的连续音频数据。
区域 API 延迟: 实时性能目前针对靠近阿里云在亚洲的主要区域集群的用户进行了优化。
低延迟实时语音: Thinker-Talker 架构确保了交互式、可打断语音对话的亚秒级响应速度。
文本 reasoning 差距: 尽管在 multimodal 任务中表现出色,但其纯逻辑性能(GPQA 83.9)落后于专门的 reasoning 模型。
极具竞争力的定价: 输入价格为 $0.40/1M token,与竞争对手相比,以低成本提供了 flagship 级的 multimodal 能力。
实验性视觉编码: Vibe coding 功能是一项新兴能力,在处理视频中复杂的空间 UI 坐标时可能会遇到困难。

API快速入门

alibaba/qwen3.5-omni-plus

查看文档
alibaba SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.DASHSCOPE_API_KEY,
  baseURL: 'https://dashscope-intl.aliyuncs.com/compatible-mode/v1',
});

const completion = await client.chat.completions.create({
  model: 'qwen3.5-omni-plus',
  messages: [{ role: 'user', content: 'Analyze this video content.' }],
  modalities: ['text'],
  stream: true,
});

for await (const chunk of completion) {
  process.stdout.write(chunk.choices[0]?.delta?.content || '');
}

安装SDK并在几分钟内开始进行API调用。

人们对 Qwen3.5-Omni 的评价

看看社区对 Qwen3.5-Omni 的看法

视听 Vibe Coding 是一个游戏规则改变者;它终于能在我解释 bug 时理解我在屏幕上展示的内容了。
dev_mindset
reddit
Qwen3.5-Omni 在单个 context 内处理 10 小时音频的能力对于研究人员和播客博主来说太疯狂了。
AI_Explorer_01
twitter
与上一代相比,语音克隆听起来出奇地自然,在英语中几乎无法分辨。
TechGuru_Reviews
youtube
终于有一个不会在话说到一半时就把我截断的模型了;语义打断功能确实如宣传所说那样有效。
hacker_news_user
hackernews
新款 Qwen3.6 27B 的参数很惊人,但 Omni 版本才是每个人都会用于实际产品的那一个。
David Hendrickson
twitter
我试着打断了它五次,它每次都抓住了我的意图。
Matt Shumer
youtube

关于 Qwen3.5-Omni 的视频

观看关于 Qwen3.5-Omni 的教程、评测和讨论

Thinker-Talker 架构是实时延迟方面的一次巨大飞跃 [04:15]。

它能处理 400 秒的视频,这是我们通常所见的双倍 [07:22]。

该模型是原生端到端的 multilingual 和 multimodal [10:05]。

ARIA 系统防止了标准 TTS 中常见的发音错误 [15:30]。

你可以直接展示屏幕并就代码进行流畅的对话 [22:10]。

我试着打断了它五次,它每次都能精准捕捉我的意图 [08:30]。

它根据视频内容编写代码的方式简直令人毛骨悚然 [10:45]。

这是我们见过的第一个 GPT-4o 语音模式的真正竞争对手 [14:20]。

它支持 113 种语言的语音识别,这是一个巨大的优势 [18:55]。

对于复杂的 PDF 和视频,其视觉提取能力要强大得多 [25:15]。

10 小时的音频 context 是企业使用的真正亮点 [12:10]。

Qwen 在非英语语言方面的表现才是真正遥遥领先的地方 [15:40]。

它能够区分背景噪音和真实的用户打断 [19:22]。

价格非常有竞争力,特别是考虑到激活的 parameters 规模 [24:10]。

这是目前涉及可视化 UI 的 Python 自动化任务中最有能力的模型 [28:45]。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

Qwen3.5-Omni专业提示

专家提示助您充分利用Qwen3.5-Omni。

优化音频输入

对超过 10 小时的音频进行分段,以在 256k context window 内保持事实检索的准确性。

利用语义打断

在语音应用中启用原生轮次转换功能,以区分用户意图和背景噪音。

使用 ARIA 处理技术术语

利用流式语音模式以受益于 ARIA 对齐,从而确保技术数字发音准确。

视频帧率控制

以 1 FPS 上传标准视频,但对于高动态场景增加帧率,以确保视觉精度。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
alibaba

Qwen3.6-Max-Preview

alibaba

Qwen3.6-Max-Preview is Alibaba's flagship MoE model featuring 1M context, a native thinking mode, and SOTA scores in agentic coding and reasoning.

1M context
$1.25/$10.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
zhipu

GLM-5.1

Zhipu (GLM)

GLM-5.1 is Zhipu AI's flagship reasoning model, featuring a 202K context window and an autonomous 8-hour execution loop for complex agentic engineering.

203K context
$1.40/$4.40/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M

关于Qwen3.5-Omni的常见问题

查找关于Qwen3.5-Omni的常见问题答案