alibaba

Qwen3.5-Omni

Qwen3.5-Omni je izvorni omnimodalni AI tvrtke Alibaba Cloud, koji nudi besprijekorno audio-vizualno zaključivanje, glasovni chat u stvarnom vremenu i 256k...

OmnimodalGlas u stvarnom vremenuVideo VisionAlibaba CloudMoE
alibaba logoalibabaQwen3.529. ožujka 2026.
Kontekst
256Ktokena
Maks. izlaz
8Ktokena
Ulazna cijena
$0.40/ 1M
Izlazna cijena
$4.80/ 1M
Modalitet:TextImageAudioVideo
Mogućnosti:VidAlatiStreaming
Benchmarks
GPQA
83.9%
GPQA: Znanstvena pitanja i odgovori na razini doktorata. Rigorozan benchmark s 448 pitanja višestrukog izbora iz biologije, fizike i kemije koje su kreirali stručnjaci. Doktori znanosti postižu samo 65-74% točnosti, dok nestručnjaci postižu samo 34% čak i s neograničenim pristupom internetu (otuda naziv 'otporan na Google'). Qwen3.5-Omni je postigao 83.9% na ovom benchmarku.
HLE
34.2%
HLE: Rasuđivanje visoke razine stručnosti. Testira sposobnost modela da demonstrira rasuđivanje na razini stručnjaka u specijaliziranim domenama. Procjenjuje duboko razumijevanje složenih tema koje zahtijevaju znanje na profesionalnoj razini. Qwen3.5-Omni je postigao 34.2% na ovom benchmarku.
MMLU
94.2%
MMLU: Masovno višezadaćno jezično razumijevanje. Sveobuhvatan benchmark s 16.000 pitanja višestrukog izbora iz 57 akademskih predmeta uključujući matematiku, filozofiju, pravo i medicinu. Testira široko znanje i sposobnosti rasuđivanja. Qwen3.5-Omni je postigao 94.2% na ovom benchmarku.
MMLU Pro
85.9%
MMLU Pro: MMLU profesionalno izdanje. Poboljšana verzija MMLU-a s 12.032 pitanja koristeći teži format s 10 opcija. Pokriva matematiku, fiziku, kemiju, pravo, inženjerstvo, ekonomiju, zdravstvo, psihologiju, poslovanje, biologiju, filozofiju i informatiku. Qwen3.5-Omni je postigao 85.9% na ovom benchmarku.
SimpleQA
48.2%
SimpleQA: Benchmark činjenične točnosti. Testira sposobnost modela da pruži točne, činjenične odgovore na jednostavna pitanja. Mjeri pouzdanost i smanjuje halucinacije u zadacima dohvaćanja znanja. Qwen3.5-Omni je postigao 48.2% na ovom benchmarku.
IFEval
89.7%
IFEval: Evaluacija praćenja uputa. Mjeri koliko dobro model slijedi specifične upute i ograničenja. Testira sposobnost pridržavanja pravila formatiranja, ograničenja duljine i drugih eksplicitnih zahtjeva. Qwen3.5-Omni je postigao 89.7% na ovom benchmarku.
AIME 2025
81.6%
AIME 2025: Američki pozivni matematički ispit. Matematički problemi natjecateljske razine s prestižnog AIME ispita dizajniranog za talentirane srednjoškolce. Testira naprednu matematičku sposobnost rješavanja problema koja zahtijeva apstraktno rasuđivanje, a ne samo prepoznavanje obrazaca. Qwen3.5-Omni je postigao 81.6% na ovom benchmarku.
MATH
90.4%
MATH: Rješavanje matematičkih problema. Sveobuhvatan matematički benchmark koji testira rješavanje problema iz algebre, geometrije, računa i drugih matematičkih domena. Zahtijeva rasuđivanje u više koraka i formalno matematičko znanje. Qwen3.5-Omni je postigao 90.4% na ovom benchmarku.
GSM8k
94.5%
GSM8k: Matematika osnovne škole 8K. 8.500 matematičkih zadataka osnovnoškolske razine koji zahtijevaju rasuđivanje u više koraka. Testira osnovnu aritmetiku i logičko razmišljanje kroz scenarije iz stvarnog života poput kupovine ili izračuna vremena. Qwen3.5-Omni je postigao 94.5% na ovom benchmarku.
MGSM
94.1%
MGSM: Višejezična matematika osnovne škole. GSM8k benchmark preveden na 10 jezika uključujući španjolski, francuski, njemački, ruski, kineski i japanski. Testira matematičko rasuđivanje na različitim jezicima. Qwen3.5-Omni je postigao 94.1% na ovom benchmarku.
MathVista
86.1%
MathVista: Matematičko vizualno rasuđivanje. Testira sposobnost rješavanja matematičkih problema koji uključuju vizualne elemente poput grafikona, geometrijskih dijagrama i znanstvenih figura. Kombinira vizualno razumijevanje s matematičkim rasuđivanjem. Qwen3.5-Omni je postigao 86.1% na ovom benchmarku.
SWE-Bench
75%
SWE-Bench: Benchmark softverskog inženjerstva. AI modeli pokušavaju riješiti stvarne GitHub probleme u Python projektima otvorenog koda s ljudskom verifikacijom. Testira praktične vještine softverskog inženjerstva na produkcijskim kodnim bazama. Najbolji modeli su napredovali s 4,4% u 2023. na preko 70% u 2024. Qwen3.5-Omni je postigao 75% na ovom benchmarku.
HumanEval
91.2%
HumanEval: Python programerski problemi. 164 ručno napisana programerska problema gdje modeli moraju generirati ispravne implementacije Python funkcija. Svako rješenje se verificira jediničnim testovima. Najbolji modeli sada postižu preko 90% točnosti. Qwen3.5-Omni je postigao 91.2% na ovom benchmarku.
LiveCodeBench
65.6%
LiveCodeBench: Benchmark živog kodiranja. Testira sposobnosti kodiranja na kontinuirano ažuriranim izazovima programiranja iz stvarnog svijeta. Za razliku od statičnih benchmarka, koristi svježe probleme za sprečavanje kontaminacije podataka i mjerenje pravih vještina kodiranja. Qwen3.5-Omni je postigao 65.6% na ovom benchmarku.
MMMU
80.1%
MMMU: Multimodalno razumijevanje. Masivni višedisciplinarni multimodalni benchmark razumijevanja koji testira modele vida i jezika na problemima sveučilišne razine iz 30 predmeta koji zahtijevaju razumijevanje slika i stručno znanje. Qwen3.5-Omni je postigao 80.1% na ovom benchmarku.
MMMU Pro
73.9%
MMMU Pro: MMMU profesionalno izdanje. Poboljšana verzija MMMU-a s težim pitanjima i strožom evaluacijom. Testira napredno multimodalno rasuđivanje na profesionalnoj i stručnoj razini. Qwen3.5-Omni je postigao 73.9% na ovom benchmarku.
ChartQA
85.3%
ChartQA: Pitanja i odgovori o grafikonima. Testira sposobnost razumijevanja i rasuđivanja o informacijama prikazanim u grafikonima i dijagramima. Zahtijeva ekstrakciju podataka, usporedbu vrijednosti i izvođenje izračuna iz vizualnih prikaza podataka. Qwen3.5-Omni je postigao 85.3% na ovom benchmarku.
DocVQA
95.2%
DocVQA: Vizualna Q&A o dokumentima. Benchmark vizualnih pitanja i odgovora o dokumentima koji testira sposobnost ekstrakcije i rasuđivanja o informacijama iz slika dokumenata uključujući obrasce, izvješća i skenirani tekst. Qwen3.5-Omni je postigao 95.2% na ovom benchmarku.
Terminal-Bench
52.5%
Terminal-Bench: Terminal/CLI zadaci. Testira sposobnost izvođenja operacija naredbenog retka, pisanja shell skripti i navigacije u terminalskim okruženjima. Mjeri praktične vještine administracije sustava i razvojnih radnih tokova. Qwen3.5-Omni je postigao 52.5% na ovom benchmarku.
ARC-AGI
12.5%
ARC-AGI: Apstrakcija i rasuđivanje. Korpus apstrakcije i rasuđivanja za AGI - testira fluidnu inteligenciju kroz nove zagonetke prepoznavanja obrazaca. Svaki zadatak zahtijeva otkrivanje temeljnog pravila iz primjera, mjereći opću sposobnost rasuđivanja umjesto memoriranja. Qwen3.5-Omni je postigao 12.5% na ovom benchmarku.

O modelu Qwen3.5-Omni

Saznajte o mogućnostima, značajkama i načinima korištenja modela Qwen3.5-Omni.

Jedinstvena omnimodalna arhitektura

Qwen3.5-Omni je izvorni omnimodalni model koji je razvio Alibaba Cloud, izgrađen na jedinstvenoj arhitekturi dizajniranoj za istovremenu obradu tekstualnih, slikovnih, audio i video unosa. Za razliku od prethodnih modela koji su se oslanjali na odvojene enkodere, Qwen3.5-Omni koristi Thinker-Talker arhitekturu. Komponenta Thinker provodi složeno multimodalno zaključivanje kroz isprepletene signale, dok Talker generira visokokvalitetni streaming govor s niskom latencijom. To modelu omogućuje rukovanje masivnim kontekstom, uključujući do 10 sati audija ili gotovo sedam minuta 720p videa u jednom promptu.

Napredna sinkronizacija i performanse

Tehnička značajka ovog modela je ARIA (Adaptive Rate Interleave Alignment) sustav, koji sinkronizira tekstualne i govorne tokene kako bi osigurao prirodne glasovne odgovore. Model podržava semantički prekid u stvarnom vremenu, dopuštajući korisnicima da prekinu AI tijekom razgovora. Optimiziran je kako za multimodalnu analizu na razini poduzeća tako i za glasovne asistente u stvarnom vremenu, nudeći performanse u vizualnim i audio zadacima koje odgovaraju ili nadmašuju vlasničke flagship modele.

Specijaliziran za interakciju s niskom latencijom

Arhitektura modela posebno je prilagođena za primjene u stvarnom vremenu gdje je latencija kritična. Korištenjem MoE (Mixture-of-Experts) pristupa s arhitekturom gated delta mreža, model održava visoku računalnu učinkovitost. Ova učinkovitost mu omogućuje pružanje audio interakcije u stvarnom vremenu uz upravljanje context windowom od 256k tokena, što ga čini prikladnim za analizu dugih formata poput transkripata sastanaka i indeksiranja kinematografskih videozapisa.

Qwen3.5-Omni

Slučajevi korištenja za Qwen3.5-Omni

Otkrijte različite načine korištenja modela Qwen3.5-Omni za postizanje izvrsnih rezultata.

Glasovni asistenti u stvarnom vremenu

Model gradi interaktivne AI avatare koji vode prirodne glasovne razgovore s podrškom za semantički prekid.

Kinematografsko označavanje videa

Generira opise na razini scenarija i vremenski označene anotacije za dugometražni video sadržaj visoke razlučivosti.

Audio-vizualno kodiranje uživo

Programeri popravljaju kod pokazujući svoj zaslon i verbalno objašnjavajući logiku modelu u stvarnom vremenu.

Arhiviranje audio zapisa u tvrtkama

Sustav obrađuje do 10 sati snimki sastanaka ili podcasta kako bi izvukao uvide u jednom prolazu.

Višejezične usluge prevođenja

Pruža end-to-end govor-u-govor prevođenje na 113 jezika i razne regionalne kineske dijalekte.

Moderacija sadržaja

Model istovremeno revidira video i audio streamove radi sigurnosti prepoznavanjem zabranjenog vizualnog i verbalnog sadržaja.

Prednosti

Ograničenja

Izvorna omnimodalna fuzija: Integrira tekst, vizualne elemente i audio u jedan model, postižući state-of-the-art rezultate u 215 multimodalnih podzadataka.
Visoki zahtjevi za GPU: Lokalna implementacija omnimodalne MoE arhitekture zahtijeva značajnu količinu VRAM-a u usporedbi s modelima koji rade samo s tekstom.
Prostrani audio horizont: Context window od 256k omogućuje obradu preko 10 sati kontinuiranih audio podataka u jednom zahtjevu.
Regionalna latencija API-ja: Performanse u stvarnom vremenu trenutno su optimizirane za korisnike u blizini glavnih regionalnih klastera Alibaba Clouda u Aziji.
Glas niske latencije u stvarnom vremenu: Thinker-Talker arhitektura osigurava vrijeme odziva ispod sekunde za interaktivne, prekidive glasovne razgovore.
Jaz u tekstualnom zaključivanju: Iako izvrstan u multimodalnim zadacima, njegove performanse čiste logike (GPQA 83.9) zaostaju za specijaliziranim modelima za reasoning.
Konkurentno određivanje cijena: Uz 0,40 USD za 1M input tokena, pruža flagship-level multimodalne mogućnosti uz niske troškove u usporedbi s konkurentima.
Eksperimentalno vizualno kodiranje: Značajka vibe codinga je emergentna sposobnost i može se mučiti s kompleksnim prostornim UI koordinatama u videu.

API brzi početak

alibaba/qwen3.5-omni-plus

Pogledaj dokumentaciju
alibaba SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.DASHSCOPE_API_KEY,
  baseURL: 'https://dashscope-intl.aliyuncs.com/compatible-mode/v1',
});

const completion = await client.chat.completions.create({
  model: 'qwen3.5-omni-plus',
  messages: [{ role: 'user', content: 'Analyze this video content.' }],
  modalities: ['text'],
  stream: true,
});

for await (const chunk of completion) {
  process.stdout.write(chunk.choices[0]?.delta?.content || '');
}

Instalirajte SDK i počnite s API pozivima za nekoliko minuta.

Što ljudi kažu o modelu Qwen3.5-Omni

Pogledajte što zajednica misli o modelu Qwen3.5-Omni

Audio-vizualni Vibe Coding mijenja pravila igre; konačno razumije što pokazujem na ekranu dok objašnjavam bug.
dev_mindset
reddit
Sposobnost Qwen3.5-Omni modela da obradi 10 sati audija u jednom kontekstu je nevjerojatna za istraživače i podcastere.
AI_Explorer_01
twitter
Kloniranje glasa zvuči iznenađujuće prirodno u usporedbi s prethodnom generacijom, gotovo nerazlučivo u engleskom jeziku.
TechGuru_Reviews
youtube
Konačno, model koji me ne prekida usred rečenice; semantički prekid radi baš kako je oglašeno.
hacker_news_user
hackernews
Impresivne brojke na novom Qwen3.6 27B, ali Omni verzija je ona koju će svi koristiti za stvarne proizvode.
David Hendrickson
twitter
Pokušao sam ga prekinuti pet puta i svaki put je uhvatio moju namjeru.
Matt Shumer
youtube

Videozapisi o modelu Qwen3.5-Omni

Gledajte tutorijale, recenzije i diskusije o modelu Qwen3.5-Omni

Thinker-Talker arhitektura je veliki iskorak za latenciju u stvarnom vremenu [04:15].

Obrađuje 400 sekundi videa, što je dvostruko više od onoga što obično vidimo [07:22].

Ovaj model je izvorno end-to-end višejezičan i multimodalan [10:05].

ARIA sustav sprječava pogreške u izgovoru koje se nalaze u standardnom TTS-u [15:30].

Doslovno možete pokazati svoj zaslon i imati fluidan razgovor o kodu [22:10].

Pokušao sam ga prekinuti pet puta i svaki put je uhvatio moju namjeru [08:30].

Način na koji piše kod na temelju onoga što vidi u videu je jeziv [10:45].

Ovo je prvi pravi konkurent glasovnom modu modela GPT-4o koji smo vidjeli [14:20].

Podržava 113 jezika za prepoznavanje govora, što je ogromna prednost [18:55].

Ekstrakcija vizualnih informacija je puno robusnija za složene PDF-ove i video [25:15].

Audio kontekst od 10 sati je prava zvijezda ovdje za poslovnu upotrebu [12:10].

Performanse na neengleskim jezicima su gdje Qwen zaista prednjači [15:40].

Može razlikovati pozadinsku buku od stvarnog prekida korisnika [19:22].

Cijene su vrlo konkurentne, posebno za razmjer aktivnih parameters [24:10].

Ovo je trenutno najsposobniji model za Python automatizaciju koja uključuje vizualno korisničko sučelje [28:45].

Vise od samo promptova

Poboljšajte svoj radni tijek sa AI Automatizacijom

Automatio kombinira moc AI agenata, web automatizacije i pametnih integracija kako bi vam pomogao postici vise za manje vremena.

AI Agenti
Web Automatizacija
Pametni Tokovi

Pro Savjeti za Qwen3.5-Omni

Stručni savjeti za maksimalno iskorištavanje Qwen3.5-Omni.

Optimizirajte unos audija

Segmentirajte audio duži od 10 sati kako biste održali točnost pronalaženja informacija unutar context windowa od 256k.

Iskoristite semantički prekid

Omogućite izvorne značajke izmjene govornika u glasovnim aplikacijama kako biste razlikovali namjeru korisnika od pozadinske buke.

Koristite ARIA za tehničke pojmove

Koristite način rada streaming govora kako biste imali koristi od ARIA poravnanja, koje osigurava točan izgovor tehničkih brojeva.

Kontrola broja sličica u videu

Učitajte standardni video pri 1 FPS, ali povećajte brzinu za akcijske scene kako biste osigurali vizualnu preciznost.

Svjedočanstva

Sto Kazu Nasi Korisnici

Pridruzite se tisucama zadovoljnih korisnika koji su transformirali svoj radni tijek

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Povezani AI Models

openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
alibaba

Qwen3.6-Max-Preview

alibaba

Qwen3.6-Max-Preview is Alibaba's flagship MoE model featuring 1M context, a native thinking mode, and SOTA scores in agentic coding and reasoning.

1M context
$1.25/$10.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
zhipu

GLM-5.1

Zhipu (GLM)

GLM-5.1 is Zhipu AI's flagship reasoning model, featuring a 202K context window and an autonomous 8-hour execution loop for complex agentic engineering.

203K context
$1.40/$4.40/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M

Često Postavljana Pitanja o Qwen3.5-Omni

Pronađite odgovore na česta pitanja o Qwen3.5-Omni