alibaba

Qwen3.5-Omni

Qwen3.5-Omni adalah AI omnimodal native dari Alibaba Cloud, menawarkan reasoning audio-visual yang mulus, chat suara real-time, dan konteks 256k untuk aplikasi...

OmnimodalSuara Real-timeVisi VideoAlibaba CloudMoE
alibaba logoalibabaQwen3.529 Maret 2026
Konteks
256Ktoken
Output maks.
8Ktoken
Harga input
$0.40/ 1M
Harga output
$4.80/ 1M
Modalitas:TextImageAudioVideo
Kemampuan:VisiAlatStreaming
Benchmarks
GPQA
83.9%
GPQA: Tanya Jawab Sains Tingkat Doktoral. Benchmark ketat dengan 448 pertanyaan pilihan ganda dalam biologi, fisika, dan kimia yang dibuat oleh pakar domain. Para ahli PhD hanya mencapai akurasi 65-74%, sementara non-ahli hanya mendapat 34% bahkan dengan akses web tak terbatas (sehingga disebut 'tahan Google'). Qwen3.5-Omni meraih skor 83.9% pada benchmark ini.
HLE
34.2%
HLE: Penalaran Keahlian Tingkat Tinggi. Menguji kemampuan model untuk mendemonstrasikan penalaran tingkat ahli di domain khusus. Mengevaluasi pemahaman mendalam tentang topik kompleks yang membutuhkan pengetahuan tingkat profesional. Qwen3.5-Omni meraih skor 34.2% pada benchmark ini.
MMLU
94.2%
MMLU: Pemahaman Bahasa Multitugas Masif. Benchmark komprehensif dengan 16.000 pertanyaan pilihan ganda meliputi 57 mata pelajaran akademik termasuk matematika, filsafat, hukum, dan kedokteran. Menguji pengetahuan luas dan kemampuan penalaran. Qwen3.5-Omni meraih skor 94.2% pada benchmark ini.
MMLU Pro
85.9%
MMLU Pro: MMLU Edisi Profesional. Versi MMLU yang ditingkatkan dengan 12.032 pertanyaan menggunakan format 10 pilihan yang lebih sulit. Mencakup Matematika, Fisika, Kimia, Hukum, Teknik, Ekonomi, Kesehatan, Psikologi, Bisnis, Biologi, Filsafat, dan Ilmu Komputer. Qwen3.5-Omni meraih skor 85.9% pada benchmark ini.
SimpleQA
48.2%
SimpleQA: Benchmark Akurasi Faktual. Menguji kemampuan model untuk memberikan respons yang akurat dan faktual terhadap pertanyaan langsung. Mengukur keandalan dan mengurangi halusinasi dalam tugas pengambilan pengetahuan. Qwen3.5-Omni meraih skor 48.2% pada benchmark ini.
IFEval
89.7%
IFEval: Evaluasi Kepatuhan Instruksi. Mengukur seberapa baik model mengikuti instruksi dan batasan tertentu. Menguji kemampuan untuk mematuhi aturan format, batas panjang, dan persyaratan eksplisit lainnya. Qwen3.5-Omni meraih skor 89.7% pada benchmark ini.
AIME 2025
81.6%
AIME 2025: Ujian Matematika Undangan Amerika. Soal matematika tingkat kompetisi dari ujian AIME bergengsi yang dirancang untuk siswa SMA berbakat. Menguji pemecahan masalah matematika tingkat lanjut yang membutuhkan penalaran abstrak, bukan sekadar pencocokan pola. Qwen3.5-Omni meraih skor 81.6% pada benchmark ini.
MATH
90.4%
MATH: Pemecahan Masalah Matematika. Benchmark matematika komprehensif yang menguji pemecahan masalah dalam aljabar, geometri, kalkulus, dan domain matematika lainnya. Membutuhkan penalaran multi-langkah dan pengetahuan matematika formal. Qwen3.5-Omni meraih skor 90.4% pada benchmark ini.
GSM8k
94.5%
GSM8k: Matematika SD 8K. 8.500 soal cerita matematika tingkat SD yang membutuhkan penalaran multi-langkah. Menguji aritmatika dasar dan pemikiran logis melalui skenario dunia nyata seperti belanja atau perhitungan waktu. Qwen3.5-Omni meraih skor 94.5% pada benchmark ini.
MGSM
94.1%
MGSM: Matematika SD Multibahasa. Benchmark GSM8k yang diterjemahkan ke 10 bahasa termasuk Spanyol, Prancis, Jerman, Rusia, Cina, dan Jepang. Menguji penalaran matematika dalam berbagai bahasa. Qwen3.5-Omni meraih skor 94.1% pada benchmark ini.
MathVista
86.1%
MathVista: Penalaran Matematika Visual. Menguji kemampuan untuk menyelesaikan masalah matematika yang melibatkan elemen visual seperti grafik, diagram geometri, dan figur ilmiah. Menggabungkan pemahaman visual dengan penalaran matematika. Qwen3.5-Omni meraih skor 86.1% pada benchmark ini.
SWE-Bench
75%
SWE-Bench: Benchmark Rekayasa Perangkat Lunak. Model AI mencoba menyelesaikan masalah GitHub nyata dalam proyek Python open-source dengan verifikasi manusia. Menguji keterampilan rekayasa perangkat lunak praktis pada codebase produksi. Model terbaik meningkat dari 4,4% di 2023 menjadi lebih dari 70% di 2024. Qwen3.5-Omni meraih skor 75% pada benchmark ini.
HumanEval
91.2%
HumanEval: Masalah Pemrograman Python. 164 masalah pemrograman yang ditulis tangan di mana model harus menghasilkan implementasi fungsi Python yang benar. Setiap solusi diverifikasi dengan unit test. Model terbaik sekarang mencapai akurasi lebih dari 90%. Qwen3.5-Omni meraih skor 91.2% pada benchmark ini.
LiveCodeBench
65.6%
LiveCodeBench: Benchmark Koding Langsung. Menguji kemampuan koding pada tantangan pemrograman dunia nyata yang terus diperbarui. Berbeda dengan benchmark statis, menggunakan masalah baru untuk mencegah kontaminasi data dan mengukur keterampilan koding yang sebenarnya. Qwen3.5-Omni meraih skor 65.6% pada benchmark ini.
MMMU
80.1%
MMMU: Pemahaman Multimodal. Benchmark Pemahaman Multimodal Multi-disiplin Masif yang menguji model penglihatan-bahasa pada masalah tingkat universitas di 30 mata pelajaran yang membutuhkan pemahaman gambar dan pengetahuan ahli. Qwen3.5-Omni meraih skor 80.1% pada benchmark ini.
MMMU Pro
73.9%
MMMU Pro: MMMU Edisi Profesional. Versi MMMU yang ditingkatkan dengan pertanyaan lebih sulit dan evaluasi lebih ketat. Menguji penalaran multimodal tingkat lanjut di tingkat profesional dan ahli. Qwen3.5-Omni meraih skor 73.9% pada benchmark ini.
ChartQA
85.3%
ChartQA: Tanya Jawab Grafik. Menguji kemampuan untuk memahami dan bernalar tentang informasi yang disajikan dalam grafik dan diagram. Membutuhkan ekstraksi data, perbandingan nilai, dan melakukan perhitungan dari representasi visual data. Qwen3.5-Omni meraih skor 85.3% pada benchmark ini.
DocVQA
95.2%
DocVQA: Tanya Jawab Visual Dokumen. Benchmark Tanya Jawab Visual Dokumen yang menguji kemampuan untuk mengekstrak dan bernalar tentang informasi dari gambar dokumen termasuk formulir, laporan, dan teks yang dipindai. Qwen3.5-Omni meraih skor 95.2% pada benchmark ini.
Terminal-Bench
52.5%
Terminal-Bench: Tugas Terminal/CLI. Menguji kemampuan untuk melakukan operasi baris perintah, menulis skrip shell, dan menavigasi lingkungan terminal. Mengukur keterampilan administrasi sistem praktis dan alur kerja pengembangan. Qwen3.5-Omni meraih skor 52.5% pada benchmark ini.
ARC-AGI
12.5%
ARC-AGI: Abstraksi dan Penalaran. Abstraction and Reasoning Corpus untuk AGI - menguji kecerdasan fluida melalui teka-teki pengenalan pola baru. Setiap tugas membutuhkan penemuan aturan yang mendasari dari contoh, mengukur kemampuan penalaran umum daripada menghafal. Qwen3.5-Omni meraih skor 12.5% pada benchmark ini.

Tentang Qwen3.5-Omni

Pelajari tentang kemampuan, fitur, dan cara menggunakan Qwen3.5-Omni.

Arsitektur Omnimodal Terpadu

Qwen3.5-Omni adalah model omnimodal native yang dikembangkan oleh Alibaba Cloud, dibangun di atas arsitektur terpadu yang dirancang untuk memproses input teks, gambar, audio, dan video secara bersamaan. Berbeda dengan model sebelumnya yang mengandalkan encoder terpisah, Qwen3.5-Omni menggunakan arsitektur Thinker-Talker. Komponen Thinker melakukan reasoning multimodal yang kompleks di seluruh sinyal yang saling terkait, sementara komponen Talker menghasilkan streaming speech berkualitas tinggi dengan latensi rendah. Hal ini memungkinkan model untuk menangani konteks yang masif, termasuk hingga 10 jam audio atau hampir tujuh menit video 720p dalam satu prompt.

Sinkronisasi dan Performa Lanjut

Fitur teknis dari model ini adalah sistem Adaptive Rate Interleave Alignment (ARIA), yang menyelaraskan token teks dan speech untuk memastikan respons suara yang terdengar alami. Model ini mendukung interupsi semantik real-time, memungkinkan pengguna untuk memotong AI saat percakapan berlangsung. Model ini dioptimalkan baik untuk analisis multimodal tingkat perusahaan maupun asisten suara real-time bagi konsumen, menawarkan performa dalam tugas visi dan audio yang setara atau melebihi model flagship berpemilik.

Spesialisasi untuk Interaksi Latensi Rendah

Arsitektur model secara khusus disetel untuk aplikasi real-time di mana latensi sangat krusial. Dengan menggunakan pendekatan Mixture-of-Experts (MoE) dengan arsitektur gated delta networks, model mempertahankan efisiensi komputasi yang tinggi. Efisiensi ini memungkinkannya untuk memberikan interaksi suara real-time sembari mengelola context window 256k token, menjadikannya cocok untuk analisis konten berdurasi panjang seperti transkrip rapat dan pengindeksan video sinematik.

Qwen3.5-Omni

Kasus Penggunaan untuk Qwen3.5-Omni

Temukan berbagai cara menggunakan Qwen3.5-Omni untuk hasil yang luar biasa.

Asisten Suara Real-time

Model ini membangun avatar AI interaktif yang terlibat dalam percakapan suara alami dengan dukungan interupsi semantik.

Captioning Video Sinematik

Model ini menghasilkan deskripsi setingkat skenario film dan anotasi bertanda waktu untuk konten video berdurasi panjang dengan definisi tinggi.

Live Coding Audio-Visual

Developer memperbaiki kode dengan menampilkan layar mereka dan menjelaskan logika secara verbal kepada model secara real-time.

Arsip Audio Perusahaan

Sistem ini memproses hingga 10 jam rekaman rapat atau podcast untuk mengekstrak wawasan dalam satu kali proses.

Layanan Terjemahan Multibahasa

Menyediakan terjemahan speech-to-speech end-to-end di 113 bahasa dan berbagai dialek regional Tiongkok.

Moderasi Konten

Model ini mengaudit stream video dan audio demi keamanan dengan mengidentifikasi konten visual dan verbal yang dilarang secara bersamaan.

Kelebihan

Keterbatasan

Fusi Omnimodal Native: Mengintegrasikan teks, visi, dan audio dalam satu model, mencapai hasil state-of-the-art di 215 sub-tugas multimodal.
Kebutuhan GPU Tinggi: Deployment lokal dari arsitektur MoE omnimodal memerlukan VRAM yang signifikan dibandingkan model teks saja.
Cakupan Audio yang Luas: Context window 256k memungkinkan pemrosesan lebih dari 10 jam data audio berkelanjutan dalam satu permintaan.
Latensi API Regional: Performa real-time saat ini dioptimalkan bagi pengguna yang dekat dengan klaster regional utama Alibaba Cloud di Asia.
Suara Real-time Latensi Rendah: Arsitektur Thinker-Talker memastikan waktu respons di bawah satu detik untuk percakapan suara interaktif yang dapat diinterupsi.
Kesenjangan Reasoning Teks: Meskipun sangat baik dalam tugas multimodal, performa logika murninya (GPQA 83.9) tertinggal dari model reasoning khusus.
Harga Efisiensi yang Agresif: Dengan $0,40/1M input tokens, model ini menyediakan kapabilitas multimodal sekelas flagship dengan biaya rendah dibandingkan kompetitor.
Coding Visual Eksperimental: Fitur vibe coding merupakan kapabilitas yang baru muncul dan terkadang kesulitan dengan koordinat UI spasial yang kompleks dalam video.

Mulai Cepat API

alibaba/qwen3.5-omni-plus

Lihat Dokumentasi
alibaba SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.DASHSCOPE_API_KEY,
  baseURL: 'https://dashscope-intl.aliyuncs.com/compatible-mode/v1',
});

const completion = await client.chat.completions.create({
  model: 'qwen3.5-omni-plus',
  messages: [{ role: 'user', content: 'Analyze this video content.' }],
  modalities: ['text'],
  stream: true,
});

for await (const chunk of completion) {
  process.stdout.write(chunk.choices[0]?.delta?.content || '');
}

Instal SDK dan mulai melakukan panggilan API dalam hitungan menit.

Apa Kata Orang Tentang Qwen3.5-Omni

Lihat apa yang dipikirkan komunitas tentang Qwen3.5-Omni

Audio-Visual Vibe Coding adalah terobosan besar; akhirnya model ini memahami apa yang saya tunjukkan di layar saat saya menjelaskan bug.
dev_mindset
reddit
Kemampuan Qwen3.5-Omni untuk menangani 10 jam audio dalam satu konteks sangat luar biasa bagi peneliti dan podcaster.
AI_Explorer_01
twitter
Voice cloning terdengar sangat alami dibandingkan generasi sebelumnya, hampir tak bisa dibedakan dalam bahasa Inggris.
TechGuru_Reviews
youtube
Akhirnya, model yang tidak sekadar memotong kalimat saya; interupsi semantik berfungsi sesuai yang diiklankan.
hacker_news_user
hackernews
Angka yang mengesankan pada Qwen3.6 27B yang baru, tetapi versi Omni adalah yang akan digunakan semua orang untuk produk nyata.
David Hendrickson
twitter
Saya mencoba menginterupsinya lima kali, dan ia menangkap maksud saya setiap saat.
Matt Shumer
youtube

Video Tentang Qwen3.5-Omni

Tonton tutorial, ulasan, dan diskusi tentang Qwen3.5-Omni

Arsitektur Thinker-Talker adalah lompatan besar untuk latensi real-time [04:15].

Dapat menangani 400 detik video, dua kali lipat dari yang biasanya kita lihat [07:22].

Model ini secara native multibahasa dan multimodal end-to-end [10:05].

Sistem ARIA mencegah kesalahan pelafalan yang ditemukan pada TTS standar [15:30].

Anda bisa menunjukkan layar Anda dan melakukan percakapan lancar tentang kode tersebut [22:10].

Saya mencoba menginterupsinya lima kali, dan ia menangkap maksud saya setiap saat [08:30].

Cara ia menulis kode berdasarkan apa yang ia lihat di video sungguh mencengangkan [10:45].

Ini adalah kompetitor nyata pertama untuk mode suara GPT-4o yang pernah kita lihat [14:20].

Mendukung 113 bahasa untuk pengenalan suara, yang merupakan keuntungan besar [18:55].

Ekstraksi visi jauh lebih tangguh untuk PDF dan video yang kompleks [25:15].

Konteks audio 10 jam adalah bintang utamanya untuk penggunaan perusahaan [12:10].

Performa dalam bahasa non-Inggris adalah tempat di mana Qwen benar-benar unggul [15:40].

Dapat membedakan antara kebisingan latar belakang dan interupsi pengguna yang sebenarnya [19:22].

Harga sangat kompetitif, terutama untuk skala parameter yang aktif [24:10].

Ini adalah model paling kapabel saat ini untuk otomatisasi Python yang melibatkan UI visual [28:45].

Lebih dari sekadar prompt

Tingkatkan alur kerja Anda dengan Otomatisasi AI

Automatio menggabungkan kekuatan agen AI, otomatisasi web, dan integrasi cerdas untuk membantu Anda mencapai lebih banyak dalam waktu lebih singkat.

Agen AI
Otomasi Web
Alur Kerja Cerdas

Tips Pro untuk Qwen3.5-Omni

Tips ahli untuk memaksimalkan Qwen3.5-Omni.

Optimalkan Ingesti Audio

Segmentasikan audio yang lebih panjang dari 10 jam untuk menjaga akurasi pengambilan fakta dalam context window 256k.

Manfaatkan Interupsi Semantik

Aktifkan fitur turn-taking bawaan di aplikasi suara untuk membedakan maksud pengguna dari kebisingan latar belakang.

Gunakan ARIA untuk Istilah Teknis

Manfaatkan mode streaming speech agar mendapatkan manfaat dari penyelarasan ARIA, yang memastikan angka teknis diucapkan dengan akurat.

Kontrol Frame Rate Video

Unggah video standar pada 1 FPS, tetapi tingkatkan rate untuk adegan aksi cepat guna memastikan presisi visual.

Testimoni

Apa Kata Pengguna Kami

Bergabunglah dengan ribuan pengguna puas yang telah mengubah alur kerja mereka

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Terkait AI Models

openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
alibaba

Qwen3.6-Max-Preview

alibaba

Qwen3.6-Max-Preview is Alibaba's flagship MoE model featuring 1M context, a native thinking mode, and SOTA scores in agentic coding and reasoning.

1M context
$1.25/$10.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
zhipu

GLM-5.1

Zhipu (GLM)

GLM-5.1 is Zhipu AI's flagship reasoning model, featuring a 202K context window and an autonomous 8-hour execution loop for complex agentic engineering.

203K context
$1.40/$4.40/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M

Pertanyaan yang Sering Diajukan tentang Qwen3.5-Omni

Temukan jawaban untuk pertanyaan umum tentang Qwen3.5-Omni