alibaba

Qwen3.5-Omni

Qwen3.5-Omni là một AI omnimodal từ Alibaba Cloud, mang đến khả năng suy luận âm thanh-hình ảnh mượt mà, trò chuyện giọng nói thời gian thực và 256k context...

OmnimodalReal-time VoiceVideo VisionAlibaba CloudMoE
alibaba logoalibabaQwen3.529 tháng 3, 2026
Ngu canh
256Ktoken
Dau ra toi da
8Ktoken
Gia dau vao
$0.40/ 1M
Gia dau ra
$4.80/ 1M
Phuong thuc:TextImageAudioVideo
Kha nang:Thi giacCong cuTruyen truc tiep
Diem chuan
GPQA
83.9%
GPQA: Cau hoi khoa hoc cap sau dai hoc. Benchmark nghiem ngat voi 448 cau hoi ve sinh hoc, vat ly va hoa hoc. Chuyen gia PhD chi dat 65-74% do chinh xac. Qwen3.5-Omni dat 83.9% trong benchmark nay.
HLE
34.2%
HLE: Suy luan cap chuyen gia. Kiem tra kha nang mo hinh the hien suy luan cap chuyen gia trong cac linh vuc chuyen mon. Qwen3.5-Omni dat 34.2% trong benchmark nay.
MMLU
94.2%
MMLU: Hieu ngon ngu da nhiem voc lon. Benchmark toan dien voi 16.000 cau hoi tren 57 mon hoc. Qwen3.5-Omni dat 94.2% trong benchmark nay.
MMLU Pro
85.9%
MMLU Pro: MMLU Phien ban chuyen nghiep. Phien ban nang cap cua MMLU voi 12.032 cau hoi va dinh dang 10 lua chon kho hon. Qwen3.5-Omni dat 85.9% trong benchmark nay.
SimpleQA
48.2%
SimpleQA: Benchmark do chinh xac thuc te. Kiem tra kha nang mo hinh cung cap cau tra loi chinh xac, thuc te. Qwen3.5-Omni dat 48.2% trong benchmark nay.
IFEval
89.7%
IFEval: Danh gia tuan theo huong dan. Do luong mo hinh tuan theo huong dan va rang buoc cu the tot nhu the nao. Qwen3.5-Omni dat 89.7% trong benchmark nay.
AIME 2025
81.6%
AIME 2025: Ky thi toan hoc moi My. Bai toan toan hoc cap do thi dau tu ky thi AIME uy tin. Qwen3.5-Omni dat 81.6% trong benchmark nay.
MATH
90.4%
MATH: Giai quyet van de toan hoc. Benchmark toan hoc toan dien kiem tra giai quyet van de trong dai so, hinh hoc, giai tich. Qwen3.5-Omni dat 90.4% trong benchmark nay.
GSM8k
94.5%
GSM8k: Toan tieu hoc 8K. 8.500 bai toan dang van ban cap tieu hoc. Qwen3.5-Omni dat 94.5% trong benchmark nay.
MGSM
94.1%
MGSM: Toan tieu hoc da ngon ngu. Benchmark GSM8k duoc dich sang 10 ngon ngu. Qwen3.5-Omni dat 94.1% trong benchmark nay.
MathVista
86.1%
MathVista: Suy luan thi giac toan hoc. Kiem tra kha nang giai quyet bai toan toan hoc voi cac yeu to thi giac. Qwen3.5-Omni dat 86.1% trong benchmark nay.
SWE-Bench
75%
SWE-Bench: Benchmark ky thuat phan mem. Cac mo hinh AI co gang giai quyet van de GitHub thuc trong cac du an Python. Qwen3.5-Omni dat 75% trong benchmark nay.
HumanEval
91.2%
HumanEval: Bai tap lap trinh Python. 164 bai tap lap trinh yeu cau mo hinh tao ra cac trien khai ham Python dung. Qwen3.5-Omni dat 91.2% trong benchmark nay.
LiveCodeBench
65.6%
LiveCodeBench: Benchmark lap trinh truc tiep. Kiem tra kha nang lap trinh tren cac thach thuc lap trinh thuc te cap nhat lien tuc. Qwen3.5-Omni dat 65.6% trong benchmark nay.
MMMU
80.1%
MMMU: Hieu da phuong thuc. Benchmark hieu da phuong thuc tren 30 mon hoc dai hoc. Qwen3.5-Omni dat 80.1% trong benchmark nay.
MMMU Pro
73.9%
MMMU Pro: MMMU Phien ban chuyen nghiep. Phien ban nang cap cua MMMU voi cac cau hoi kho hon. Qwen3.5-Omni dat 73.9% trong benchmark nay.
ChartQA
85.3%
ChartQA: Hoi dap bieu do. Kiem tra kha nang hieu va phan tich thong tin tu bieu do va do thi. Qwen3.5-Omni dat 85.3% trong benchmark nay.
DocVQA
95.2%
DocVQA: Hoi dap thi giac tai lieu. Kiem tra kha nang trich xuat thong tin tu hinh anh tai lieu. Qwen3.5-Omni dat 95.2% trong benchmark nay.
Terminal-Bench
52.5%
Terminal-Bench: Tac vu terminal/CLI. Kiem tra kha nang thuc hien cac thao tac dong lenh. Qwen3.5-Omni dat 52.5% trong benchmark nay.
ARC-AGI
12.5%
ARC-AGI: Truu tuong va suy luan. Kiem tra tri thong minh linh hoat thong qua cac cau do nhan dang mau moi. Qwen3.5-Omni dat 12.5% trong benchmark nay.

Ve Qwen3.5-Omni

Tim hieu ve kha nang cua Qwen3.5-Omni, tinh nang va cach no co the giup ban dat ket qua tot hon.

Kiến trúc Omnimodal hợp nhất

Qwen3.5-Omni là một mô hình omnimodal bản địa được phát triển bởi Alibaba Cloud, xây dựng trên kiến trúc hợp nhất được thiết kế để xử lý đồng thời văn bản, hình ảnh, âm thanh và đầu vào video. Không giống như các mô hình trước đây dựa trên các encoder riêng biệt, Qwen3.5-Omni sử dụng kiến trúc Thinker-Talker. Thành phần Thinker thực hiện suy luận multimodal phức tạp trên các tín hiệu đan xen, trong khi thành phần Talker tạo ra giọng nói streaming chất lượng cao, độ trễ thấp. Điều này cho phép mô hình xử lý context khổng lồ, bao gồm tối đa 10 giờ âm thanh hoặc gần bảy phút video 720p trong một prompt duy nhất.

Đồng bộ hóa và hiệu suất nâng cao

Một tính năng kỹ thuật của mô hình này là hệ thống Adaptive Rate Interleave Alignment (ARIA), giúp đồng bộ hóa các token văn bản và giọng nói để đảm bảo phản hồi giọng nói tự nhiên. Mô hình hỗ trợ ngắt quãng ngữ nghĩa thời gian thực, cho phép người dùng cắt ngang AI trong cuộc trò chuyện. Nó được tối ưu hóa cho cả phân tích multimodal cấp doanh nghiệp và các trợ lý giọng nói thời gian thực cho người dùng cuối, mang lại hiệu suất trong các tác vụ thị giác và âm thanh tương đương hoặc vượt trội so với các mô hình flagship độc quyền.

Chuyên biệt cho tương tác độ trễ thấp

Kiến trúc của mô hình được tinh chỉnh đặc biệt cho các ứng dụng thời gian thực nơi độ trễ là rất quan trọng. Bằng cách sử dụng phương pháp Mixture-of-Experts (MoE) với kiến trúc mạng gated delta, mô hình duy trì hiệu suất tính toán cao. Hiệu quả này cho phép nó cung cấp tương tác âm thanh thời gian thực trong khi quản lý context window 256k token, giúp nó phù hợp cho việc phân tích nội dung dài như bản ghi cuộc họp và lập chỉ mục video điện ảnh.

Qwen3.5-Omni

Truong hop su dung cho Qwen3.5-Omni

Kham pha cac cach khac nhau ban co the su dung Qwen3.5-Omni de dat ket qua tuyet voi.

Trợ lý giọng nói thời gian thực

Mô hình xây dựng các AI avatar tương tác, tham gia vào các cuộc trò chuyện giọng nói tự nhiên với khả năng hỗ trợ ngắt quãng ngữ nghĩa.

Tạo chú thích video chuẩn điện ảnh

Mô hình tạo ra các mô tả ở cấp độ kịch bản và chú thích có dấu thời gian cho nội dung video dài độ phân giải cao.

Lập trình trực tiếp qua âm thanh - hình ảnh

Các nhà phát triển sửa code bằng cách hiển thị màn hình và giải thích logic bằng lời nói cho mô hình theo thời gian thực.

Lưu trữ âm thanh doanh nghiệp

Hệ thống xử lý lên đến 10 giờ bản ghi cuộc họp hoặc podcast để trích xuất thông tin chi tiết chỉ trong một lần chạy.

Dịch vụ dịch thuật đa ngôn ngữ

Cung cấp khả năng dịch speech-to-speech toàn diện qua 113 ngôn ngữ và nhiều phương ngữ vùng miền của Trung Quốc.

Kiểm duyệt nội dung

Mô hình kiểm tra các luồng video và âm thanh để đảm bảo an toàn bằng cách xác định đồng thời nội dung bị cấm về mặt hình ảnh và ngôn từ.

Diem manh

Han che

Hợp nhất Omnimodal bản địa: Tích hợp văn bản, thị giác và âm thanh vào một mô hình duy nhất, đạt kết quả state-of-the-art trên 215 tác vụ multimodal con.
Yêu cầu GPU cao: Việc triển khai cục bộ kiến trúc MoE omnimodal đòi hỏi lượng VRAM đáng kể so với các mô hình chỉ xử lý văn bản.
Khả năng xử lý âm thanh quy mô lớn: Context window 256k cho phép xử lý hơn 10 giờ dữ liệu âm thanh liên tục trong một yêu cầu duy nhất.
Độ trễ API theo vùng: Hiệu suất thời gian thực hiện đang được tối ưu hóa cho người dùng gần các cụm khu vực chính của Alibaba Cloud tại Châu Á.
Giọng nói thời gian thực độ trễ thấp: Kiến trúc Thinker-Talker đảm bảo thời gian phản hồi dưới một giây cho các cuộc trò chuyện giọng nói tương tác và có thể bị ngắt quãng.
Khoảng cách về suy luận văn bản: Mặc dù xuất sắc trong các tác vụ multimodal, hiệu suất logic thuần túy (GPQA 83.9) vẫn còn sau các mô hình suy luận chuyên biệt.
Chi phí tối ưu hiệu quả: Với mức giá 0,40 USD/1M input tokens, mô hình mang đến khả năng multimodal cấp độ flagship với chi phí thấp so với các đối thủ.
Tính năng mã hóa hình ảnh thử nghiệm: Tính năng vibe coding là một khả năng mới nổi và có thể gặp khó khăn với các tọa độ UI phức tạp trong video.

Bat dau nhanh API

alibaba/qwen3.5-omni-plus

Xem tai lieu
alibaba SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.DASHSCOPE_API_KEY,
  baseURL: 'https://dashscope-intl.aliyuncs.com/compatible-mode/v1',
});

const completion = await client.chat.completions.create({
  model: 'qwen3.5-omni-plus',
  messages: [{ role: 'user', content: 'Analyze this video content.' }],
  modalities: ['text'],
  stream: true,
});

for await (const chunk of completion) {
  process.stdout.write(chunk.choices[0]?.delta?.content || '');
}

Cai dat SDK va bat dau thuc hien cac cuoc goi API trong vai phut.

Moi nguoi dang noi gi ve Qwen3.5-Omni

Xem cong dong nghi gi ve Qwen3.5-Omni

Audio-Visual Vibe Coding là một bước ngoặt; cuối cùng nó cũng hiểu những gì tôi đang hiển thị trên màn hình trong khi tôi giải thích lỗi.
dev_mindset
reddit
Khả năng xử lý 10 giờ âm thanh trong một context của Qwen3.5-Omni thật điên rồ đối với các nhà nghiên cứu và người làm podcast.
AI_Explorer_01
twitter
Tính năng voice cloning nghe tự nhiên một cách đáng ngạc nhiên so với thế hệ trước, gần như không thể phân biệt được bằng tiếng Anh.
TechGuru_Reviews
youtube
Cuối cùng cũng có một mô hình không chỉ cắt ngang lời tôi giữa chừng; tính năng ngắt quãng ngữ nghĩa hoạt động đúng như quảng cáo.
hacker_news_user
hackernews
Những con số ấn tượng trên Qwen3.6 27B mới, nhưng phiên bản Omni mới là thứ mọi người sẽ sử dụng cho các sản phẩm thực tế.
David Hendrickson
twitter
Tôi đã thử ngắt lời nó năm lần và nó nắm bắt được ý định của tôi trong mọi trường hợp.
Matt Shumer
youtube

Video ve Qwen3.5-Omni

Xem huong dan, danh gia va thao luan ve Qwen3.5-Omni

Kiến trúc Thinker-Talker là một bước tiến vượt bậc về độ trễ thời gian thực [04:15].

Nó xử lý 400 giây video, gấp đôi những gì chúng ta thường thấy [07:22].

Mô hình này có khả năng đa ngôn ngữ và multimodal ngay từ cốt lõi [10:05].

Hệ thống ARIA ngăn chặn các lỗi phát âm thường thấy trong TTS tiêu chuẩn [15:30].

Bạn thực sự có thể hiển thị màn hình của mình và thực hiện cuộc trò chuyện trôi chảy về code [22:10].

Tôi đã thử ngắt lời nó năm lần và nó nắm bắt được ý định của tôi trong mọi trường hợp [08:30].

Cách nó viết code dựa trên những gì nó nhìn thấy trong video thật đáng kinh ngạc [10:45].

Đây là đối thủ thực sự đầu tiên của chế độ giọng nói GPT-4o mà chúng ta từng thấy [14:20].

Nó hỗ trợ 113 ngôn ngữ để nhận dạng giọng nói, đây là một lợi thế rất lớn [18:55].

Khả năng trích xuất hình ảnh mạnh mẽ hơn nhiều đối với các tệp PDF và video phức tạp [25:15].

Context âm thanh 10 giờ là điểm sáng thực sự cho việc sử dụng trong doanh nghiệp [12:10].

Hiệu suất với các ngôn ngữ không phải tiếng Anh là nơi Qwen thực sự vượt lên [15:40].

Nó có thể phân biệt giữa tiếng ồn nền và sự ngắt lời thực sự của người dùng [19:22].

Giá cả rất cạnh tranh, đặc biệt là với quy mô tham số đang hoạt động [24:10].

Đây hiện là mô hình có khả năng nhất cho tự động hóa Python liên quan đến UI trực quan [28:45].

Hon ca prompt

Tang cuong quy trinh lam viec cua ban voi Tu dong hoa AI

Automatio ket hop suc manh cua cac AI agent, tu dong hoa web va tich hop thong minh de giup ban lam duoc nhieu hon trong thoi gian ngan hon.

AI Agent
Tu dong hoa web
Quy trinh thong minh

Meo chuyen nghiep cho Qwen3.5-Omni

Meo chuyen gia giup ban tan dung toi da Qwen3.5-Omni va dat ket qua tot hon.

Tối ưu hóa Ingestion âm thanh

Hãy phân đoạn các tệp âm thanh dài hơn 10 giờ để duy trì độ chính xác của truy xuất dữ liệu trong context window 256k.

Tận dụng ngắt quãng ngữ nghĩa

Bật các tính năng turn-taking gốc trong ứng dụng giọng nói để phân biệt ý định của người dùng với tiếng ồn nền.

Sử dụng ARIA cho các thuật ngữ kỹ thuật

Sử dụng chế độ phát âm thanh trực tuyến để hưởng lợi từ tính năng căn chỉnh ARIA, giúp đảm bảo các con số kỹ thuật được phát âm chính xác.

Kiểm soát tốc độ khung hình video

Tải lên video tiêu chuẩn ở mức 1 FPS, nhưng hãy tăng tốc độ cho các cảnh có hành động nhanh để đảm bảo độ chính xác về hình ảnh.

Danh gia

Nguoi dung cua chung toi noi gi

Tham gia cung hang nghin nguoi dung hai long da thay doi quy trinh lam viec cua ho

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Lien quan AI Models

openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
alibaba

Qwen3.6-Max-Preview

alibaba

Qwen3.6-Max-Preview is Alibaba's flagship MoE model featuring 1M context, a native thinking mode, and SOTA scores in agentic coding and reasoning.

1M context
$1.25/$10.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
zhipu

GLM-5.1

Zhipu (GLM)

GLM-5.1 is Zhipu AI's flagship reasoning model, featuring a 202K context window and an autonomous 8-hour execution loop for complex agentic engineering.

203K context
$1.40/$4.40/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M

Cau hoi thuong gap ve Qwen3.5-Omni

Tim cau tra loi cho cac cau hoi thuong gap ve Qwen3.5-Omni