alibaba

Qwen3.5-Omni

Qwen3.5-Omni — это нативный omnimodal AI от Alibaba Cloud, предлагающий бесшовный аудиовизуальный reasoning, голосовой чат в реальном времени и 256k контекст...

OmnimodalReal-time VoiceVideo VisionAlibaba CloudMoE
alibaba logoalibabaQwen3.529 марта 2026 г.
Контекст
256Kтокенов
Макс. вывод
8Kтокенов
Цена ввода
$0.40/ 1M
Цена вывода
$4.80/ 1M
Модальность:TextImageAudioVideo
Возможности:ЗрениеИнструментыПотоковая передача
Бенчмарки
GPQA
83.9%
GPQA: Научные вопросы уровня докторантуры. Строгий бенчмарк с 448 вопросами с множественным выбором по биологии, физике и химии, созданными экспертами в данных областях. Эксперты с PhD достигают лишь 65-74% точности, в то время как неспециалисты набирают только 34% даже при неограниченном доступе в интернет (отсюда название 'устойчивый к Google'). Qwen3.5-Omni набрал 83.9% в этом бенчмарке.
HLE
34.2%
HLE: Рассуждение высокого уровня экспертизы. Тестирует способность модели демонстрировать рассуждения экспертного уровня в специализированных областях. Оценивает глубокое понимание сложных тем, требующих знаний профессионального уровня. Qwen3.5-Omni набрал 34.2% в этом бенчмарке.
MMLU
94.2%
MMLU: Массовое многозадачное языковое понимание. Комплексный бенчмарк с 16 000 вопросами с множественным выбором по 57 академическим предметам, включая математику, философию, право и медицину. Тестирует широкие знания и способности к рассуждению. Qwen3.5-Omni набрал 94.2% в этом бенчмарке.
MMLU Pro
85.9%
MMLU Pro: MMLU профессиональная версия. Улучшенная версия MMLU с 12 032 вопросами в более сложном формате с 10 вариантами ответа. Охватывает математику, физику, химию, право, инженерию, экономику, здравоохранение, психологию, бизнес, биологию, философию и информатику. Qwen3.5-Omni набрал 85.9% в этом бенчмарке.
SimpleQA
48.2%
SimpleQA: Бенчмарк фактической точности. Тестирует способность модели давать точные, фактические ответы на прямые вопросы. Измеряет надежность и снижает галлюцинации в задачах извлечения знаний. Qwen3.5-Omni набрал 48.2% в этом бенчмарке.
IFEval
89.7%
IFEval: Оценка следования инструкциям. Измеряет, насколько хорошо модель следует конкретным инструкциям и ограничениям. Тестирует способность соблюдать правила форматирования, ограничения длины и другие явные требования. Qwen3.5-Omni набрал 89.7% в этом бенчмарке.
AIME 2025
81.6%
AIME 2025: Американский пригласительный математический экзамен. Математические задачи соревновательного уровня с престижного экзамена AIME, предназначенного для талантливых старшеклассников. Тестирует продвинутое математическое решение задач, требующее абстрактного мышления, а не просто сопоставления паттернов. Qwen3.5-Omni набрал 81.6% в этом бенчмарке.
MATH
90.4%
MATH: Решение математических задач. Комплексный математический бенчмарк, тестирующий решение задач по алгебре, геометрии, анализу и другим математическим областям. Требует многошагового рассуждения и формальных математических знаний. Qwen3.5-Omni набрал 90.4% в этом бенчмарке.
GSM8k
94.5%
GSM8k: Математика начальной школы 8K. 8 500 математических задач уровня начальной школы, требующих многошагового рассуждения. Тестирует базовую арифметику и логическое мышление через жизненные сценарии, такие как покупки или расчет времени. Qwen3.5-Omni набрал 94.5% в этом бенчмарке.
MGSM
94.1%
MGSM: Многоязычная математика начальной школы. Бенчмарк GSM8k, переведенный на 10 языков, включая испанский, французский, немецкий, русский, китайский и японский. Тестирует математическое рассуждение на разных языках. Qwen3.5-Omni набрал 94.1% в этом бенчмарке.
MathVista
86.1%
MathVista: Математическое визуальное рассуждение. Тестирует способность решать математические задачи, включающие визуальные элементы, такие как графики, геометрические диаграммы и научные рисунки. Сочетает визуальное понимание с математическим рассуждением. Qwen3.5-Omni набрал 86.1% в этом бенчмарке.
SWE-Bench
75%
SWE-Bench: Бенчмарк программной инженерии. ИИ-модели пытаются решить реальные проблемы GitHub в проектах Python с открытым исходным кодом с человеческой верификацией. Тестирует практические навыки программной инженерии на производственных кодовых базах. Лучшие модели улучшились с 4,4% в 2023 до более 70% в 2024. Qwen3.5-Omni набрал 75% в этом бенчмарке.
HumanEval
91.2%
HumanEval: Задачи программирования на Python. 164 вручную написанные задачи программирования, где модели должны генерировать правильные реализации функций Python. Каждое решение проверяется юнит-тестами. Лучшие модели теперь достигают более 90% точности. Qwen3.5-Omni набрал 91.2% в этом бенчмарке.
LiveCodeBench
65.6%
LiveCodeBench: Бенчмарк живого кодирования. Тестирует навыки программирования на постоянно обновляемых задачах из реального мира. В отличие от статических бенчмарков, использует свежие задачи для предотвращения загрязнения данных и измерения реальных навыков кодирования. Qwen3.5-Omni набрал 65.6% в этом бенчмарке.
MMMU
80.1%
MMMU: Мультимодальное понимание. Массовый мультидисциплинарный мультимодальный бенчмарк понимания, тестирующий модели зрения и языка на задачах университетского уровня по 30 предметам, требующим понимания изображений и экспертных знаний. Qwen3.5-Omni набрал 80.1% в этом бенчмарке.
MMMU Pro
73.9%
MMMU Pro: MMMU профессиональная версия. Улучшенная версия MMMU с более сложными вопросами и строгой оценкой. Тестирует продвинутое мультимодальное рассуждение на профессиональном и экспертном уровнях. Qwen3.5-Omni набрал 73.9% в этом бенчмарке.
ChartQA
85.3%
ChartQA: Вопросы и ответы по диаграммам. Тестирует способность понимать и рассуждать об информации, представленной в диаграммах и графиках. Требует извлечения данных, сравнения значений и выполнения вычислений из визуальных представлений данных. Qwen3.5-Omni набрал 85.3% в этом бенчмарке.
DocVQA
95.2%
DocVQA: Визуальные Q&A по документам. Бенчмарк визуальных вопросов и ответов по документам, тестирующий способность извлекать и рассуждать об информации из изображений документов, включая формы, отчеты и отсканированный текст. Qwen3.5-Omni набрал 95.2% в этом бенчмарке.
Terminal-Bench
52.5%
Terminal-Bench: Задачи Terminal/CLI. Тестирует способность выполнять операции командной строки, писать shell-скрипты и работать в терминальных средах. Измеряет практические навыки системного администрирования и рабочих процессов разработки. Qwen3.5-Omni набрал 52.5% в этом бенчмарке.
ARC-AGI
12.5%
ARC-AGI: Абстракция и рассуждение. Корпус абстракции и рассуждения для AGI - тестирует флюидный интеллект через новые головоломки распознавания паттернов. Каждая задача требует обнаружения базового правила из примеров, измеряя общую способность к рассуждению, а не запоминание. Qwen3.5-Omni набрал 12.5% в этом бенчмарке.

О модели Qwen3.5-Omni

Узнайте о возможностях, функциях и способах использования Qwen3.5-Omni.

Унифицированная omnimodal архитектура

Qwen3.5-Omni, это нативная omnimodal модель, разработанная Alibaba Cloud и построенная на унифицированной архитектуре, предназначенной для одновременной обработки текстовых, визуальных, аудио- и видеовходов. В отличие от предыдущих моделей, полагавшихся на отдельные энкодеры, Qwen3.5-Omni использует архитектуру Thinker-Talker. Компонент Thinker выполняет сложный multimodal reasoning по чередующимся сигналам, в то время как компонент Talker генерирует качественную потоковую речь с низкой latency. Это позволяет модели обрабатывать огромный контекст, включая до 10 часов аудио или почти семь минут видео в разрешении 720p в рамках одного prompt.

Продвинутая синхронизация и производительность

Технической особенностью этой модели является система Adaptive Rate Interleave Alignment (ARIA), которая синхронизирует текстовые и речевые tokens для обеспечения естественного звучания ответов. Модель поддерживает семантические прерывания в реальном времени, позволяя пользователям перебивать AI во время беседы. Она оптимизирована как для корпоративного multimodal анализа, так и для потребительских голосовых ассистентов, предлагая производительность в задачах с визуальными данными и аудио, которая соответствует или превосходит проприетарные flagship модели.

Специализация на взаимодействии с низкой latency

Архитектура модели специально настроена для приложений, где важна latency. Используя подход Mixture-of-Experts (MoE) с архитектурой gated delta networks, модель поддерживает высокую вычислительную эффективность. Эта эффективность позволяет ей обеспечивать взаимодействие с аудио в реальном времени, удерживая context window в 256k, что делает ее подходящей для анализа длинного контента, такого как транскрипты встреч и индексация кинематографического видео.

Qwen3.5-Omni

Варианты использования Qwen3.5-Omni

Откройте для себя различные способы использования Qwen3.5-Omni для достижения отличных результатов.

Голосовые ассистенты в реальном времени

Модель создает интерактивных AI-аватаров, которые участвуют в естественных голосовых диалогах с поддержкой семантических прерываний.

Кинематографические видео-описания

Модель генерирует описания уровня сценария и аннотации с временными метками для видеоконтента высокой четкости.

Аудиовизуальное лайв-кодинг

Разработчики могут исправлять код, демонстрируя экран и устно объясняя логику модели в режиме реального времени.

Корпоративное архивирование аудио

Система обрабатывает до 10 часов записей встреч или подкастов для извлечения инсайтов за один проход.

Услуги многоязычного перевода

Обеспечивает сквозной перевод речи в речь на 113 языках и различных региональных диалектах китайского языка.

Модерация контента

Модель проверяет видео- и аудиопотоки на безопасность, одновременно выявляя визуальный и вербальный запрещенный контент.

Преимущества

Ограничения

Нативная omnimodal интеграция: Интегрирует текст, визуальные данные и аудио в одну модель, достигая SOTA результатов по 215 multimodal задачам.
Высокие требования к GPU: Локальное развертывание omnimodal MoE архитектуры требует значительного объема VRAM по сравнению с чисто текстовыми моделями.
Огромный аудио-горизонт: Context window в 256k позволяет обрабатывать более 10 часов непрерывных аудиоданных в рамках одного запроса.
Региональная latency API: Производительность в реальном времени в настоящее время оптимизирована для пользователей, находящихся рядом с основными региональными кластерами Alibaba Cloud в Азии.
Голос в реальном времени с низкой latency: Архитектура Thinker-Talker обеспечивает время отклика менее секунды для интерактивных, прерываемых голосовых диалогов.
Отставание в текстовом reasoning: Несмотря на превосходство в multimodal задачах, показатели чистой логики (GPQA 83.9) уступают специализированным моделям для reasoning.
Агрессивное ценообразование: При стоимости $0.40 за 1M входных tokens модель предоставляет flagship-уровень multimodal возможностей по низкой цене по сравнению с конкурентами.
Экспериментальный визуальный кодинг: Функция vibe coding является развивающейся возможностью и может испытывать трудности со сложными пространственными координатами UI в видео.

Быстрый старт API

alibaba/qwen3.5-omni-plus

Посмотреть документацию
alibaba SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.DASHSCOPE_API_KEY,
  baseURL: 'https://dashscope-intl.aliyuncs.com/compatible-mode/v1',
});

const completion = await client.chat.completions.create({
  model: 'qwen3.5-omni-plus',
  messages: [{ role: 'user', content: 'Analyze this video content.' }],
  modalities: ['text'],
  stream: true,
});

for await (const chunk of completion) {
  process.stdout.write(chunk.choices[0]?.delta?.content || '');
}

Установите SDK и начните делать API-запросы за несколько минут.

Что люди говорят о Qwen3.5-Omni

Посмотрите, что думает сообщество о Qwen3.5-Omni

Аудиовизуальный Vibe Coding меняет правила игры; модель наконец понимает, что я показываю на экране, пока я объясняю баг.
dev_mindset
reddit
Способность Qwen3.5-Omni обрабатывать 10 часов аудио в одном контексте, это безумие для исследователей и подкастеров.
AI_Explorer_01
twitter
Клонирование голоса звучит на удивление естественно по сравнению с предыдущим поколением, на английском почти не отличить.
TechGuru_Reviews
youtube
Наконец-то модель, которая не просто обрывает меня на полуслове; семантическое прерывание работает именно так, как заявлено.
hacker_news_user
hackernews
Впечатляющие цифры у новой Qwen3.6 27B, но Omni-версия, это то, что все будут использовать для реальных продуктов.
David Hendrickson
twitter
Я пытался перебить её пять раз, и она каждый раз улавливала мой замысел.
Matt Shumer
youtube

Видео о Qwen3.5-Omni

Смотрите обучающие материалы, обзоры и обсуждения о Qwen3.5-Omni

Архитектура Thinker-Talker, это огромный скачок вперед для latency в реальном времени [04:15].

Модель обрабатывает 400 секунд видео, что вдвое больше, чем мы обычно видим [07:22].

Эта модель изначально является сквозной многоязычной и multimodal [10:05].

Система ARIA предотвращает ошибки произношения, характерные для стандартного TTS [15:30].

Вы буквально можете показать экран и вести плавный диалог о коде [22:10].

Я пытался перебить её пять раз, и она каждый раз улавливала мой замысел [08:30].

То, как она пишет код, основываясь на увиденном в видео, просто пугает [10:45].

Это первый настоящий конкурент голосовому режиму GPT-4o из всех, что мы видели [14:20].

Она поддерживает 113 языков для распознавания речи, что является огромным преимуществом [18:55].

Извлечение визуальных данных намного надежнее для сложных PDF и видео [25:15].

10-часовой аудио-контекст, настоящая жемчужина для корпоративного использования [12:10].

Производительность на неанглоязычных языках, то, где Qwen действительно вырывается вперед [15:40].

Она умеет различать фоновый шум и реальное прерывание пользователем [19:22].

Ценообразование очень конкурентоспособно, особенно для масштаба активных parameters [24:10].

На данный момент это самая способная модель для Python-автоматизации, связанной с визуальным UI [28:45].

Больше чем просто промпты

Улучшите свой рабочий процесс с ИИ-Автоматизацией

Automatio объединяет мощь ИИ-агентов, веб-автоматизации и умных интеграций, чтобы помочь вам достигать большего за меньшее время.

ИИ Агенты
Веб Автоматизация
Умные Процессы

Советы для Qwen3.5-Omni

Экспертные советы для максимальной эффективности Qwen3.5-Omni.

Оптимизация обработки аудио

Разбивайте аудиофайлы длиннее 10 часов для поддержания точности извлечения фактов в рамках 256k context window.

Использование семантических прерываний

Включайте встроенные функции соблюдения очередности реплик в голосовых приложениях, чтобы отделять намерения пользователя от фонового шума.

Использование ARIA для технических терминов

Применяйте потоковый режим речи для использования преимуществ выравнивания ARIA, которое обеспечивает точное произношение технических чисел.

Контроль частоты кадров видео

Загружайте стандартное видео с частотой 1 FPS, но увеличивайте этот показатель для динамичных сцен для обеспечения визуальной точности.

Отзывы

Что Говорят Наши Пользователи

Присоединяйтесь к тысячам довольных пользователей, которые трансформировали свой рабочий процесс

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Похожие AI Models

openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
alibaba

Qwen3.6-Max-Preview

alibaba

Qwen3.6-Max-Preview is Alibaba's flagship MoE model featuring 1M context, a native thinking mode, and SOTA scores in agentic coding and reasoning.

1M context
$1.25/$10.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
zhipu

GLM-5.1

Zhipu (GLM)

GLM-5.1 is Zhipu AI's flagship reasoning model, featuring a 202K context window and an autonomous 8-hour execution loop for complex agentic engineering.

203K context
$1.40/$4.40/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M

Часто задаваемые вопросы о Qwen3.5-Omni

Найдите ответы на частые вопросы о Qwen3.5-Omni