Qwen3.5-Omni 的最大 context length 是多少？

该模型支持 256,000 token 的 context window。这使其能够一次性处理约 10 小时的音频或 400 秒的 720p 视频。

Qwen3.5-Omni 是否支持实时语音交互？

是的，它配备了 Realtime API，支持流式语音和轮次转换（turn-taking）逻辑。这使得模型能够即时响应用户，并被用户随时打断。

使用 API 的成本是多少？

输入价格为每 100 万 token $0.40，输出价格为每 100 万 token $4.80。这使其在 multimodal 任务中极具竞争力。

该模型可以生成图像吗？

不，它是一个 omnimodal 模型，能够理解图像和视频，但仅产生文本和音频输出。

什么是 Thinker-Talker 架构？

这是一个双组件系统，其中 Thinker 负责对 multimodal 输入进行 reasoning，而 Talker 负责管理语音生成过程。

它支持 function calling 吗？

是的，Qwen3.5-Omni 支持工具使用，并能自主调用搜索引擎或自定义 API。

支持多少种语言？

它支持 113 种语言和方言的语音识别，以及 36 种全球语言的语音合成。

是否提供语音克隆功能？

是的，Realtime API 允许用户上传语音样本，从而自定义 AI 的语音身份。

Qwen3.5-Omni

Qwen3.5-Omni 是由阿里云开发的原生 omnimodal AI，提供无缝的视听 reasoning、实时语音聊天以及为低延迟应用设计的 256k context。

Omnimodal实时语音视频视觉阿里云MoE

alibabaQwen3.52026年3月29日

上下文

256Ktokens

最大输出

8Ktokens

输入价格

$0.40/ 1M

输出价格

$4.80/ 1M

模态:TextImageAudioVideo

能力:视觉工具流式传输

基准测试

GPQA

83.9%

HLE

34.2%

MMLU

94.2%

MMLU Pro

85.9%

SimpleQA

48.2%

IFEval

89.7%

AIME 2025

81.6%

MATH

90.4%

GSM8k

94.5%

MGSM

94.1%

MathVista

86.1%

SWE-Bench

75%

HumanEval

91.2%

LiveCodeBench

65.6%

MMMU

80.1%

MMMU Pro

73.9%

ChartQA

85.3%

DocVQA

95.2%

Terminal-Bench

52.5%

ARC-AGI

12.5%

查看API文档

关于 Qwen3.5-Omni

了解 Qwen3.5-Omni 的功能、特性以及它如何帮助您获得更好的效果。

统一的 Omnimodal 架构

Qwen3.5-Omni 是由阿里云开发的 natively omnimodal 模型，建立在统一的架构之上，旨在同时处理文本、图像、音频和视频输入。与以往依赖独立 encoder 的模型不同，Qwen3.5-Omni 采用了 Thinker-Talker 架构。Thinker 组件在交错的信号间执行复杂的 multimodal reasoning，而 Talker 组件则生成高质量、低延迟的流式语音。这使得模型能够处理海量 context，包括在单个 prompt 中处理长达 10 小时的音频或近 7 分钟的 720p 视频。

先进的同步与性能

该模型的一个核心技术特征是自适应速率交错对齐（ARIA）系统，它同步文本和语音 token 以确保语音响应自然。模型支持实时语义打断，允许用户在对话过程中随时打断 AI。它针对企业级 multimodal 分析和面向消费者的实时语音助手进行了优化，在视觉和音频任务上的表现媲美甚至超过了 proprietary flagship 模型。

专为低延迟交互打造

该模型的架构经过专门调优，适用于延迟至关重要的实时应用。通过使用带有门控增量网络架构的 Mixture-of-Experts (MoE) 方法，该模型保持了极高的计算效率。这种效率使其能够在管理 256k token context window 的同时提供实时语音交互，使其非常适合会议记录和影视视频索引等长内容分析任务。

Qwen3.5-Omni 的使用案例

发现使用 Qwen3.5-Omni 获得出色效果的不同方式。

实时语音助手

该模型可构建交互式 AI 化身，通过语义打断支持进行自然的语音对话。

影视级视频标注

它为高清长视频内容生成剧本级的描述和带时间戳的注释。

视听同步实时编码

开发者可以通过展示屏幕并口头解释逻辑，实时地与模型进行代码修复。

企业音频存档

系统可一次性处理长达 10 小时的会议记录或播客，并提取核心洞察。

多语言翻译服务

它提供跨越 113 种语言和多种中国地方方言的端到端语音到语音翻译。

内容审核

该模型通过同时识别视觉和语言违规内容，对视频和音频流进行安全审计。

优势

局限性

原生 Omnimodal 融合: 它将文本、视觉和音频集成在一个模型中，在 215 个 multimodal 子任务上均达到 state-of-the-art 水平。

高 GPU 要求: 与纯文本模型相比，本地部署该 omnimodal MoE 架构需要大量的 VRAM。

超广音频视野: 256k context window 允许在单次请求中处理超过 10 小时的连续音频数据。

区域 API 延迟: 实时性能目前针对靠近阿里云在亚洲的主要区域集群的用户进行了优化。

低延迟实时语音: Thinker-Talker 架构确保了交互式、可打断语音对话的亚秒级响应速度。

文本 reasoning 差距: 尽管在 multimodal 任务中表现出色，但其纯逻辑性能（GPQA 83.9）落后于专门的 reasoning 模型。

极具竞争力的定价: 输入价格为 $0.40/1M token，与竞争对手相比，以低成本提供了 flagship 级的 multimodal 能力。

实验性视觉编码: Vibe coding 功能是一项新兴能力，在处理视频中复杂的空间 UI 坐标时可能会遇到困难。

API快速入门

alibaba/qwen3.5-omni-plus

查看文档

alibaba SDK

import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.DASHSCOPE_API_KEY,
  baseURL: 'https://dashscope-intl.aliyuncs.com/compatible-mode/v1',
});

const completion = await client.chat.completions.create({
  model: 'qwen3.5-omni-plus',
  messages: [{ role: 'user', content: 'Analyze this video content.' }],
  modalities: ['text'],
  stream: true,
});

for await (const chunk of completion) {
  process.stdout.write(chunk.choices[0]?.delta?.content || '');
}

安装SDK并在几分钟内开始进行API调用。

人们对 Qwen3.5-Omni 的评价

看看社区对 Qwen3.5-Omni 的看法

“视听 Vibe Coding 是一个游戏规则改变者；它终于能在我解释 bug 时理解我在屏幕上展示的内容了。”

— dev_mindset

“Qwen3.5-Omni 在单个 context 内处理 10 小时音频的能力对于研究人员和播客博主来说太疯狂了。”

— AI_Explorer_01

twitter

“与上一代相比，语音克隆听起来出奇地自然，在英语中几乎无法分辨。”

— TechGuru_Reviews

youtube

“终于有一个不会在话说到一半时就把我截断的模型了；语义打断功能确实如宣传所说那样有效。”

— hacker_news_user

hackernews

“新款 Qwen3.6 27B 的参数很惊人，但 Omni 版本才是每个人都会用于实际产品的那一个。”

— David Hendrickson

twitter

“我试着打断了它五次，它每次都抓住了我的意图。”

— Matt Shumer

youtube

关于 Qwen3.5-Omni 的视频

观看关于 Qwen3.5-Omni 的教程、评测和讨论

“Thinker-Talker 架构是实时延迟方面的一次巨大飞跃 [04:15]。”

“它能处理 400 秒的视频，这是我们通常所见的双倍 [07:22]。”

“该模型是原生端到端的 multilingual 和 multimodal [10:05]。”

“ARIA 系统防止了标准 TTS 中常见的发音错误 [15:30]。”

“你可以直接展示屏幕并就代码进行流畅的对话 [22:10]。”

“我试着打断了它五次，它每次都能精准捕捉我的意图 [08:30]。”

“它根据视频内容编写代码的方式简直令人毛骨悚然 [10:45]。”

“这是我们见过的第一个 GPT-4o 语音模式的真正竞争对手 [14:20]。”

“它支持 113 种语言的语音识别，这是一个巨大的优势 [18:55]。”

“对于复杂的 PDF 和视频，其视觉提取能力要强大得多 [25:15]。”

“10 小时的音频 context 是企业使用的真正亮点 [12:10]。”

“Qwen 在非英语语言方面的表现才是真正遥遥领先的地方 [15:40]。”

“它能够区分背景噪音和真实的用户打断 [19:22]。”

“价格非常有竞争力，特别是考虑到激活的 parameters 规模 [24:10]。”

“这是目前涉及可视化 UI 的 Python 自动化任务中最有能力的模型 [28:45]。”

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量，帮助您在更短的时间内完成更多工作。

AI代理

网页自动化

智能工作流

免费开始

Qwen3.5-Omni专业提示

专家提示助您充分利用Qwen3.5-Omni。

优化音频输入

对超过 10 小时的音频进行分段，以在 256k context window 内保持事实检索的准确性。

利用语义打断

在语音应用中启用原生轮次转换功能，以区分用户意图和背景噪音。

使用 ARIA 处理技术术语

利用流式语音模式以受益于 ARIA 对齐，从而确保技术数字发音准确。

视频帧率控制

以 1 FPS 上传标准视频，但对于高动态场景增加帧率，以确保视觉精度。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.