alibaba

Qwen3.5-Omni

Qwen3.5-Omni es una IA omnimodal nativa de Alibaba Cloud que ofrece razonamiento audiovisual fluido, chat de voz en tiempo real y 256k de contexto para apps de...

OmnimodalVoz en tiempo realVisión por videoAlibaba CloudMoE
alibaba logoalibabaQwen3.529 de marzo de 2026
Contexto
256Ktokens
Salida máx.
8Ktokens
Precio entrada
$0.40/ 1M
Precio salida
$4.80/ 1M
Modalidad:TextImageAudioVideo
Capacidades:VisiónHerramientasStreaming
Benchmarks
GPQA
83.9%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). Qwen3.5-Omni obtuvo 83.9% en este benchmark.
HLE
34.2%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. Qwen3.5-Omni obtuvo 34.2% en este benchmark.
MMLU
94.2%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. Qwen3.5-Omni obtuvo 94.2% en este benchmark.
MMLU Pro
85.9%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. Qwen3.5-Omni obtuvo 85.9% en este benchmark.
SimpleQA
48.2%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. Qwen3.5-Omni obtuvo 48.2% en este benchmark.
IFEval
89.7%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. Qwen3.5-Omni obtuvo 89.7% en este benchmark.
AIME 2025
81.6%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. Qwen3.5-Omni obtuvo 81.6% en este benchmark.
MATH
90.4%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. Qwen3.5-Omni obtuvo 90.4% en este benchmark.
GSM8k
94.5%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. Qwen3.5-Omni obtuvo 94.5% en este benchmark.
MGSM
94.1%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. Qwen3.5-Omni obtuvo 94.1% en este benchmark.
MathVista
86.1%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. Qwen3.5-Omni obtuvo 86.1% en este benchmark.
SWE-Bench
75%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). Qwen3.5-Omni obtuvo 75% en este benchmark.
HumanEval
91.2%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. Qwen3.5-Omni obtuvo 91.2% en este benchmark.
LiveCodeBench
65.6%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. Qwen3.5-Omni obtuvo 65.6% en este benchmark.
MMMU
80.1%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. Qwen3.5-Omni obtuvo 80.1% en este benchmark.
MMMU Pro
73.9%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. Qwen3.5-Omni obtuvo 73.9% en este benchmark.
ChartQA
85.3%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. Qwen3.5-Omni obtuvo 85.3% en este benchmark.
DocVQA
95.2%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. Qwen3.5-Omni obtuvo 95.2% en este benchmark.
Terminal-Bench
52.5%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. Qwen3.5-Omni obtuvo 52.5% en este benchmark.
ARC-AGI
12.5%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. Qwen3.5-Omni obtuvo 12.5% en este benchmark.

Acerca de Qwen3.5-Omni

Conoce las capacidades, características y formas de uso de Qwen3.5-Omni.

Arquitectura omnimodal unificada

Qwen3.5-Omni es un modelo omnimodal nativo desarrollado por Alibaba Cloud, construido sobre una arquitectura unificada diseñada para procesar entradas de texto, imagen, audio y video simultáneamente. A diferencia de modelos previos que dependían de codificadores separados, Qwen3.5-Omni utiliza una arquitectura Thinker-Talker. El componente Thinker realiza un razonamiento multimodal complejo a través de señales intercaladas, mientras que el componente Talker genera voz en streaming de alta calidad y baja latencia. Esto permite al modelo manejar un contexto masivo, incluyendo hasta 10 horas de audio o casi siete minutos de video en 720p en un solo prompt.

Sincronización y rendimiento avanzados

Una característica técnica de este modelo es el sistema Adaptive Rate Interleave Alignment (ARIA), que sincroniza tokens de texto y voz para asegurar respuestas de voz naturales. El modelo admite interrupción semántica en tiempo real, permitiendo a los usuarios interrumpir a la IA durante la conversación. Está optimizado tanto para análisis multimodal de nivel empresarial como para asistentes de voz en tiempo real enfocados al consumidor, ofreciendo un rendimiento en tareas de visión y audio que iguala o supera a modelos flagship propietarios.

Especializado para interacción de baja latencia

La arquitectura del modelo está ajustada específicamente para aplicaciones en tiempo real donde la latencia es crítica. Al utilizar un enfoque Mixture-of-Experts (MoE) con una arquitectura de redes delta con puerta, el modelo mantiene una alta eficiencia computacional. Esta eficiencia le permite proporcionar interacción de audio en tiempo real mientras gestiona una context window de 256k tokens, haciéndolo adecuado para análisis de contenido de larga duración como transcripciones de reuniones e indexación de video cinematográfico.

Qwen3.5-Omni

Casos de uso de Qwen3.5-Omni

Descubre las diferentes formas de usar Qwen3.5-Omni para lograr excelentes resultados.

Asistentes de voz en tiempo real

El modelo crea avatares de IA interactivos que participan en conversaciones de voz naturales con soporte para interrupción semántica.

Subtitulado de video cinematográfico

Genera descripciones a nivel de guion y anotaciones con marcas de tiempo para contenido de video de alta definición de larga duración.

Live coding audiovisual

Los desarrolladores corrigen código mostrando su pantalla y explicando verbalmente la lógica al modelo en tiempo real.

Archivado de audio empresarial

El sistema procesa hasta 10 horas de grabaciones de reuniones o podcasts para extraer información en una sola pasada.

Servicios de traducción multilingüe

Proporciona traducción de voz a voz de extremo a extremo en 113 idiomas y varios dialectos regionales chinos.

Moderación de contenido

El modelo audita transmisiones de video y audio en busca de seguridad identificando contenido visual y verbal prohibido simultáneamente.

Fortalezas

Limitaciones

Fusión omnimodal nativa: Integra texto, visión y audio en un solo modelo, logrando resultados state-of-the-art en 215 subtareas multimodal.
Alto requerimiento de GPU: El despliegue local de la arquitectura omnimodal MoE requiere una cantidad significativa de VRAM en comparación con los modelos de solo texto.
Vasto horizonte de audio: La context window de 256k permite procesar más de 10 horas de datos de audio continuos en una sola solicitud.
Latencia de API regional: El rendimiento en tiempo real está optimizado actualmente para usuarios cercanos a los clústeres regionales principales de Alibaba Cloud en Asia.
Voz en tiempo real de baja latencia: La arquitectura Thinker-Talker asegura tiempos de respuesta inferiores a un segundo para conversaciones de voz interactivas e interrumpibles.
Brecha en razonamiento de texto: Aunque es excelente en tareas multimodal, su rendimiento en lógica pura (GPQA 83.9) se queda atrás respecto a los modelos de reasoning especializados.
Precios de eficiencia agresivos: A $0.40/1M de tokens de entrada, ofrece capacidades multimodal de nivel flagship a un costo bajo comparado con la competencia.
Codificación visual experimental: La función de "vibe coding" es una capacidad emergente y puede tener dificultades con coordenadas complejas de IU espacial en video.

Inicio rápido de API

alibaba/qwen3.5-omni-plus

Ver documentación
alibaba SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.DASHSCOPE_API_KEY,
  baseURL: 'https://dashscope-intl.aliyuncs.com/compatible-mode/v1',
});

const completion = await client.chat.completions.create({
  model: 'qwen3.5-omni-plus',
  messages: [{ role: 'user', content: 'Analyze this video content.' }],
  modalities: ['text'],
  stream: true,
});

for await (const chunk of completion) {
  process.stdout.write(chunk.choices[0]?.delta?.content || '');
}

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre Qwen3.5-Omni

Mira lo que la comunidad piensa sobre Qwen3.5-Omni

El "Audio-Visual Vibe Coding" cambia las reglas del juego; finalmente entiende lo que estoy mostrando en pantalla mientras explico el bug.
dev_mindset
reddit
La capacidad de Qwen3.5-Omni para manejar 10 horas de audio en un solo contexto es una locura para investigadores y podcasters.
AI_Explorer_01
twitter
La clonación de voz suena sorprendentemente natural comparada con la generación anterior, casi indistinguible en inglés.
TechGuru_Reviews
youtube
Finalmente, un modelo que no solo me corta a mitad de la oración; la interrupción semántica funciona según lo anunciado.
hacker_news_user
hackernews
Números impresionantes en el nuevo Qwen3.6 27B, pero la versión Omni es la que todos usarán para productos reales.
David Hendrickson
twitter
Intenté interrumpirlo cinco veces y captó mi intención cada vez.
Matt Shumer
youtube

Videos sobre Qwen3.5-Omni

Mira tutoriales, reseñas y discusiones sobre Qwen3.5-Omni

La arquitectura Thinker-Talker es un salto gigantesco para la latencia en tiempo real [04:15].

Maneja 400 segundos de video, que es el doble de lo que solemos ver [07:22].

Este modelo es multilingüe y multimodal nativo de extremo a extremo [10:05].

El sistema ARIA evita los errores de pronunciación encontrados en TTS estándar [15:30].

Puedes mostrar literalmente tu pantalla y tener una conversación fluida sobre el código [22:10].

Intenté interrumpirlo cinco veces y captó mi intención cada vez [08:30].

La forma en que escribe código basado en lo que ve en el video es asombrosa [10:45].

Este es el primer competidor real del modo de voz de GPT-4o que hemos visto [14:20].

Admite 113 idiomas para reconocimiento de voz, lo cual es una gran ventaja [18:55].

La extracción de visión es mucho más robusta para PDFs complejos y video [25:15].

El contexto de audio de 10 horas es la verdadera estrella aquí para uso empresarial [12:10].

El rendimiento en idiomas distintos al inglés es donde Qwen realmente toma la delantera [15:40].

Puede distinguir entre ruido de fondo y una interrupción real del usuario [19:22].

El precio es muy competitivo, especialmente por la escala de parameters activos [24:10].

Es actualmente el modelo más capaz para la automatización en Python que involucra IU visual [28:45].

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes

Consejos Pro para Qwen3.5-Omni

Consejos de expertos para ayudarte a sacar el máximo provecho de Qwen3.5-Omni.

Optimizar la ingesta de audio

Segmenta el audio de más de 10 horas para mantener la precisión de recuperación factual dentro de la context window de 256k.

Aprovechar la interrupción semántica

Habilita las funciones nativas de turnos en las aplicaciones de voz para distinguir la intención del usuario del ruido de fondo.

Usar ARIA para términos técnicos

Utiliza el modo de voz en streaming para beneficiarte de la alineación ARIA, lo cual asegura que los números técnicos se pronuncien con precisión.

Control de frecuencia de fotogramas en video

Sube videos estándar a 1 FPS, pero aumenta la tasa en escenas de mucha acción para asegurar la precisión visual.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
alibaba

Qwen3.6-Max-Preview

alibaba

Qwen3.6-Max-Preview is Alibaba's flagship MoE model featuring 1M context, a native thinking mode, and SOTA scores in agentic coding and reasoning.

1M context
$1.25/$10.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
zhipu

GLM-5.1

Zhipu (GLM)

GLM-5.1 is Zhipu AI's flagship reasoning model, featuring a 202K context window and an autonomous 8-hour execution loop for complex agentic engineering.

203K context
$1.40/$4.40/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M

Preguntas Frecuentes Sobre Qwen3.5-Omni

Encuentra respuestas a preguntas comunes sobre Qwen3.5-Omni