alibaba

Qwen3.5-Omni

Qwen3.5-Omni è un'AI nativamente omnimodal di Alibaba Cloud, che offre reasoning audio-visivo fluido, chat vocale in tempo reale e 256k di contesto per app a...

OmnimodalReal-time VoiceVideo VisionAlibaba CloudMoE
alibaba logoalibabaQwen3.529 marzo 2026
Contesto
256Ktoken
Output max
8Ktoken
Prezzo input
$0.40/ 1M
Prezzo output
$4.80/ 1M
Modalita:TextImageAudioVideo
Capacita:VisioneStrumentiStreaming
Benchmark
GPQA
83.9%
GPQA: Domande scientifiche livello laurea. Un benchmark rigoroso con 448 domande su biologia, fisica e chimica. Gli esperti PhD raggiungono solo il 65-74% di accuratezza. Qwen3.5-Omni ha ottenuto 83.9% in questo benchmark.
HLE
34.2%
HLE: Ragionamento esperto di alto livello. Testa la capacita di un modello di dimostrare ragionamento a livello esperto in domini specializzati. Qwen3.5-Omni ha ottenuto 34.2% in questo benchmark.
MMLU
94.2%
MMLU: Comprensione linguistica multitask massiva. Un benchmark completo con 16.000 domande su 57 materie accademiche. Qwen3.5-Omni ha ottenuto 94.2% in questo benchmark.
MMLU Pro
85.9%
MMLU Pro: MMLU Edizione Professionale. Una versione migliorata di MMLU con 12.032 domande e un formato piu difficile a 10 opzioni. Qwen3.5-Omni ha ottenuto 85.9% in questo benchmark.
SimpleQA
48.2%
SimpleQA: Benchmark di accuratezza fattuale. Testa la capacita di un modello di fornire risposte accurate e fattuali. Qwen3.5-Omni ha ottenuto 48.2% in questo benchmark.
IFEval
89.7%
IFEval: Valutazione del seguire istruzioni. Misura quanto bene un modello segue istruzioni e vincoli specifici. Qwen3.5-Omni ha ottenuto 89.7% in questo benchmark.
AIME 2025
81.6%
AIME 2025: Esame di matematica invitazionale americano. Problemi matematici a livello competitivo dal prestigioso esame AIME. Qwen3.5-Omni ha ottenuto 81.6% in questo benchmark.
MATH
90.4%
MATH: Risoluzione di problemi matematici. Un benchmark matematico completo che testa la risoluzione di problemi in algebra, geometria, calcolo. Qwen3.5-Omni ha ottenuto 90.4% in questo benchmark.
GSM8k
94.5%
GSM8k: Matematica scuola elementare 8K. 8.500 problemi matematici a parole di livello scuola elementare. Qwen3.5-Omni ha ottenuto 94.5% in questo benchmark.
MGSM
94.1%
MGSM: Matematica multilingue scuola elementare. Il benchmark GSM8k tradotto in 10 lingue. Qwen3.5-Omni ha ottenuto 94.1% in questo benchmark.
MathVista
86.1%
MathVista: Ragionamento visivo matematico. Testa la capacita di risolvere problemi matematici con elementi visivi. Qwen3.5-Omni ha ottenuto 86.1% in questo benchmark.
SWE-Bench
75%
SWE-Bench: Benchmark ingegneria software. I modelli AI tentano di risolvere veri problemi GitHub in progetti Python. Qwen3.5-Omni ha ottenuto 75% in questo benchmark.
HumanEval
91.2%
HumanEval: Problemi di programmazione Python. 164 problemi di programmazione dove i modelli devono generare implementazioni corrette di funzioni Python. Qwen3.5-Omni ha ottenuto 91.2% in questo benchmark.
LiveCodeBench
65.6%
LiveCodeBench: Benchmark di codifica live. Testa le capacita di codifica su sfide di programmazione reali continuamente aggiornate. Qwen3.5-Omni ha ottenuto 65.6% in questo benchmark.
MMMU
80.1%
MMMU: Comprensione multimodale. Benchmark di comprensione multimodale su 30 materie universitarie. Qwen3.5-Omni ha ottenuto 80.1% in questo benchmark.
MMMU Pro
73.9%
MMMU Pro: MMMU Edizione Professionale. Versione migliorata di MMMU con domande piu impegnative. Qwen3.5-Omni ha ottenuto 73.9% in questo benchmark.
ChartQA
85.3%
ChartQA: Domande e risposte su grafici. Testa la capacita di comprendere e analizzare informazioni da grafici e diagrammi. Qwen3.5-Omni ha ottenuto 85.3% in questo benchmark.
DocVQA
95.2%
DocVQA: Domande visive su documenti. Testa la capacita di estrarre informazioni da immagini di documenti. Qwen3.5-Omni ha ottenuto 95.2% in questo benchmark.
Terminal-Bench
52.5%
Terminal-Bench: Attivita terminale/CLI. Testa la capacita di eseguire operazioni da linea di comando. Qwen3.5-Omni ha ottenuto 52.5% in questo benchmark.
ARC-AGI
12.5%
ARC-AGI: Astrazione e ragionamento. Testa l'intelligenza fluida attraverso nuovi puzzle di riconoscimento di pattern. Qwen3.5-Omni ha ottenuto 12.5% in questo benchmark.

Informazioni su Qwen3.5-Omni

Scopri le capacita di Qwen3.5-Omni, le funzionalita e come puo aiutarti a ottenere risultati migliori.

Architettura Omnimodal Unificata

Qwen3.5-Omni è un model nativamente omnimodal sviluppato da Alibaba Cloud, costruito su un'architettura unificata progettata per elaborare simultaneamente input di testo, immagini, audio e video. A differenza dei model precedenti che si basavano su encoder separati, Qwen3.5-Omni utilizza un'architettura Thinker-Talker. La componente Thinker esegue un reasoning multimodal complesso attraverso segnali intrecciati, mentre la componente Talker genera uno streaming vocale di alta qualità e a bassa latenza. Ciò consente al model di gestire un contesto massiccio, incluse fino a 10 ore di audio o quasi sette minuti di video a 720p in un unico prompt.

Sincronizzazione avanzata e prestazioni

Una caratteristica tecnica di questo model è il sistema Adaptive Rate Interleave Alignment (ARIA), che sincronizza i token di testo e vocali per garantire risposte vocali naturali. Il model supporta l'interruzione semantica in tempo reale, consentendo agli utenti di interrompere l'AI durante la conversazione. È ottimizzato sia per l'analisi multimodal di livello enterprise che per gli assistenti vocali in tempo reale rivolti al consumatore, offrendo prestazioni nei task di visione e audio che eguagliano o superano i model flagship proprietari.

Specializzato per interazioni a bassa latenza

L'architettura del model è specificamente ottimizzata per applicazioni in tempo reale dove la latenza è critica. Utilizzando un approccio Mixture-of-Experts (MoE) con un'architettura di gated delta networks, il model mantiene un'elevata efficienza computazionale. Questa efficienza gli consente di fornire un'interazione audio in tempo reale gestendo una context window da 256k, rendendolo adatto all'analisi di contenuti long-form come trascrizioni di meeting e indicizzazione di video cinematografici.

Qwen3.5-Omni

Casi d'uso per Qwen3.5-Omni

Scopri i diversi modi in cui puoi usare Qwen3.5-Omni per ottenere ottimi risultati.

Assistenti vocali in tempo reale

Il model crea avatar AI interattivi che intrattengono conversazioni vocali naturali con supporto all'interruzione semantica.

Sottotitoli video cinematografici

Genera descrizioni a livello di sceneggiatura e annotazioni temporizzate per contenuti video long-form ad alta definizione.

Live coding audio-visivo

Gli sviluppatori risolvono i problemi di codice mostrando lo schermo e spiegando verbalmente la logica al model in tempo reale.

Archiviazione audio aziendale

Il sistema elabora fino a 10 ore di registrazioni di meeting o podcast per estrarre insight in un unico passaggio.

Servizi di traduzione multilingua

Fornisce traduzione speech-to-speech end-to-end in 113 lingue e vari dialetti regionali cinesi.

Moderazione dei contenuti

Il model controlla flussi video e audio per la sicurezza identificando simultaneamente contenuti vietati visivi e verbali.

Punti di forza

Limitazioni

Fusione omnimodal nativa: Integra testo, visione e audio in un unico model, ottenendo risultati state-of-the-art su 215 sottotask multimodal.
Elevato requisito di GPU: Il deployment locale dell'architettura MoE omnimodal richiede una VRAM significativa rispetto ai model basati solo su testo.
Vasto orizzonte audio: La context window da 256k consente l'elaborazione di oltre 10 ore di dati audio continui in una singola richiesta.
Latenza API regionale: Le prestazioni in tempo reale sono attualmente ottimizzate per gli utenti vicini ai cluster regionali primari di Alibaba Cloud in Asia.
Voice in tempo reale a bassa latenza: L'architettura Thinker-Talker garantisce tempi di risposta inferiori al secondo per conversazioni vocali interattive e interrompibili.
Gap nel reasoning testuale: Sebbene eccellente nei task multimodal, le sue prestazioni di logica pura (GPQA 83.9) sono inferiori rispetto ai model specializzati nel reasoning.
Prezzi aggressivi e competitivi: A $0,40/1M di input tokens, offre funzionalità multimodal di livello flagship a un costo ridotto rispetto ai competitor.
Codifica visuale sperimentale: La funzione di vibe coding è una capacità emergente e può avere difficoltà con coordinate UI spaziali complesse nei video.

Avvio rapido API

alibaba/qwen3.5-omni-plus

Visualizza documentazione
alibaba SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.DASHSCOPE_API_KEY,
  baseURL: 'https://dashscope-intl.aliyuncs.com/compatible-mode/v1',
});

const completion = await client.chat.completions.create({
  model: 'qwen3.5-omni-plus',
  messages: [{ role: 'user', content: 'Analizza il contenuto di questo video.' }],
  modalities: ['text'],
  stream: true,
});

for await (const chunk of completion) {
  process.stdout.write(chunk.choices[0]?.delta?.content || '');
}

Installa l'SDK e inizia a fare chiamate API in pochi minuti.

Cosa dice la gente su Qwen3.5-Omni

Guarda cosa pensa la community di Qwen3.5-Omni

Il Vibe Coding Audio-Visivo è una svolta; finalmente capisce cosa sto mostrando sullo schermo mentre spiego il bug.
dev_mindset
reddit
La capacità di Qwen3.5-Omni di gestire 10 ore di audio in un unico contesto è pazzesca per ricercatori e podcaster.
AI_Explorer_01
twitter
Il voice cloning sembra sorprendentemente naturale rispetto alla generazione precedente, quasi indistinguibile in inglese.
TechGuru_Reviews
youtube
Finalmente un model che non mi taglia la parola a metà frase; l'interruzione semantica funziona esattamente come pubblicizzato.
hacker_news_user
hackernews
Numeri impressionanti sul nuovo Qwen3.6 27B, ma la versione Omni è quella che tutti useranno per prodotti reali.
David Hendrickson
twitter
Ho provato a interromperlo cinque volte e ha colto il mio intento ogni singola volta.
Matt Shumer
youtube

Video su Qwen3.5-Omni

Guarda tutorial, recensioni e discussioni su Qwen3.5-Omni

L'architettura Thinker-Talker è un enorme passo avanti per la latenza in tempo reale [04:15].

Gestisce 400 secondi di video, il doppio di quanto vediamo solitamente [07:22].

Questo model è nativamente multilingua ed omnimodal end-to-end [10:05].

Il sistema ARIA previene gli errori di pronuncia riscontrati nel TTS standard [15:30].

Puoi letteralmente mostrare lo schermo e avere una conversazione fluida sul codice [22:10].

Ho provato a interromperlo cinque volte e ha colto il mio intento ogni singola volta [08:30].

Il modo in cui scrive codice basandosi su ciò che vede nel video è incredibile [10:45].

Questo è il primo vero competitor alla modalità vocale di GPT-4o che abbiamo visto [14:20].

Supporta 113 lingue per il riconoscimento vocale, il che è un vantaggio enorme [18:55].

L'estrazione visiva è molto più robusta per PDF complessi e video [25:15].

Il contesto audio da 10 ore è il vero punto di forza per l'uso aziendale [12:10].

Le prestazioni nelle lingue diverse dall'inglese sono dove Qwen fa davvero la differenza [15:40].

Può distinguere tra rumore di fondo e reale interruzione dell'utente [19:22].

Il prezzo è molto competitivo, specialmente per la scala di parameters attivi [24:10].

È attualmente il model più capace per l'automazione Python che coinvolge UI visive [28:45].

Piu di semplici prompt

Potenzia il tuo workflow con l'automazione AI

Automatio combina la potenza degli agenti AI, dell'automazione web e delle integrazioni intelligenti per aiutarti a fare di piu in meno tempo.

Agenti AI
Automazione web
Workflow intelligenti

Consigli Pro per Qwen3.5-Omni

Consigli esperti per aiutarti a ottenere il massimo da Qwen3.5-Omni e raggiungere risultati migliori.

Ottimizzazione dell'ingestione audio

Segmenta gli audio più lunghi di 10 ore per mantenere l'accuratezza del recupero fattuale all'interno della context window da 256k.

Sfrutta l'interruzione semantica

Abilita le funzionalità native di turn-taking nelle app vocali per distinguere l'intento dell'utente dal rumore di fondo.

Usa ARIA per i termini tecnici

Utilizza la modalità di streaming speech per beneficiare dell'allineamento ARIA, che garantisce la pronuncia accurata dei numeri tecnici.

Controllo del frame rate video

Carica video standard a 1 FPS, ma aumenta il rate per scene ad alta azione per garantire precisione visiva.

Testimonianze

Cosa dicono i nostri utenti

Unisciti a migliaia di utenti soddisfatti che hanno trasformato il loro workflow

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Correlati AI Models

openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
alibaba

Qwen3.6-Max-Preview

alibaba

Qwen3.6-Max-Preview is Alibaba's flagship MoE model featuring 1M context, a native thinking mode, and SOTA scores in agentic coding and reasoning.

1M context
$1.25/$10.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
zhipu

GLM-5.1

Zhipu (GLM)

GLM-5.1 is Zhipu AI's flagship reasoning model, featuring a 202K context window and an autonomous 8-hour execution loop for complex agentic engineering.

203K context
$1.40/$4.40/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M

Domande frequenti su Qwen3.5-Omni

Trova risposte alle domande comuni su Qwen3.5-Omni