alibaba

Qwen3.5-Omni

مدل Qwen3.5-Omni یک هوش مصنوعی omnimodal بومی از Alibaba Cloud است که استدلال صوتی-بصری یکپارچه، چت صوتی بلادرنگ و ۲۵۶ هزار توکن context را برای اپلیکیشن‌های...

Omnimodalصدای بلادرنگبینایی ویدیوییAlibaba CloudMoE
alibaba logoalibabaQwen3.5۲۹ مارس ۲۰۲۶
پنجره زمینه
256Kتوکن
حداکثر خروجی
8Kتوکن
قیمت ورودی
$0.40/ 1M
قیمت خروجی
$4.80/ 1M
حالت:TextImageAudioVideo
قابلیت‌ها:بیناییابزارهااستریمینگ
معیارها
GPQA
83.9%
GPQA: سوالات علمی سطح تحصیلات تکمیلی. معیار دقیق با 448 سوال از زیست‌شناسی، فیزیک و شیمی. کارشناسان دکترا فقط 65-74% دقت دارند. Qwen3.5-Omni امتیاز 83.9% در این معیار کسب کرد.
HLE
34.2%
HLE: استدلال سطح کارشناسی. توانایی مدل در نشان دادن استدلال سطح کارشناسی در حوزه‌های تخصصی را آزمایش می‌کند. Qwen3.5-Omni امتیاز 34.2% در این معیار کسب کرد.
MMLU
94.2%
MMLU: درک زبان چندوظیفه‌ای گسترده. معیار جامع با 16000 سوال در 57 موضوع دانشگاهی. Qwen3.5-Omni امتیاز 94.2% در این معیار کسب کرد.
MMLU Pro
85.9%
MMLU Pro: نسخه حرفه‌ای MMLU. نسخه بهبود یافته MMLU با 12032 سوال و فرمت 10 گزینه‌ای سخت‌تر. Qwen3.5-Omni امتیاز 85.9% در این معیار کسب کرد.
SimpleQA
48.2%
SimpleQA: معیار دقت واقعی. توانایی مدل در ارائه پاسخ‌های دقیق و واقعی را آزمایش می‌کند. Qwen3.5-Omni امتیاز 48.2% در این معیار کسب کرد.
IFEval
89.7%
IFEval: ارزیابی پیروی از دستورالعمل. اندازه‌گیری می‌کند مدل چقدر خوب از دستورالعمل‌ها و محدودیت‌های خاص پیروی می‌کند. Qwen3.5-Omni امتیاز 89.7% در این معیار کسب کرد.
AIME 2025
81.6%
AIME 2025: امتحان ریاضی دعوتی آمریکا. مسائل ریاضی سطح مسابقه از امتحان معتبر AIME. Qwen3.5-Omni امتیاز 81.6% در این معیار کسب کرد.
MATH
90.4%
MATH: حل مسئله ریاضی. معیار جامع ریاضی که حل مسئله در جبر، هندسه، حساب دیفرانسیل را آزمایش می‌کند. Qwen3.5-Omni امتیاز 90.4% در این معیار کسب کرد.
GSM8k
94.5%
GSM8k: ریاضی دبستان 8K. 8500 مسئله ریاضی کلامی سطح دبستان. Qwen3.5-Omni امتیاز 94.5% در این معیار کسب کرد.
MGSM
94.1%
MGSM: ریاضی دبستان چندزبانه. معیار GSM8k ترجمه شده به 10 زبان. Qwen3.5-Omni امتیاز 94.1% در این معیار کسب کرد.
MathVista
86.1%
MathVista: استدلال بصری ریاضی. توانایی حل مسائل ریاضی با عناصر بصری را آزمایش می‌کند. Qwen3.5-Omni امتیاز 86.1% در این معیار کسب کرد.
SWE-Bench
75%
SWE-Bench: معیار مهندسی نرم‌افزار. مدل‌های AI سعی می‌کنند مسائل واقعی GitHub را در پروژه‌های Python حل کنند. Qwen3.5-Omni امتیاز 75% در این معیار کسب کرد.
HumanEval
91.2%
HumanEval: مسائل برنامه‌نویسی Python. 164 مسئله برنامه‌نویسی که مدل‌ها باید پیاده‌سازی صحیح توابع Python تولید کنند. Qwen3.5-Omni امتیاز 91.2% در این معیار کسب کرد.
LiveCodeBench
65.6%
LiveCodeBench: معیار کدنویسی زنده. توانایی‌های کدنویسی را در چالش‌های برنامه‌نویسی واقعی به‌روز شده آزمایش می‌کند. Qwen3.5-Omni امتیاز 65.6% در این معیار کسب کرد.
MMMU
80.1%
MMMU: درک چندحالته. معیار درک چندحالته در 30 موضوع دانشگاهی. Qwen3.5-Omni امتیاز 80.1% در این معیار کسب کرد.
MMMU Pro
73.9%
MMMU Pro: نسخه حرفه‌ای MMMU. نسخه بهبود یافته MMMU با سوالات چالش‌برانگیزتر. Qwen3.5-Omni امتیاز 73.9% در این معیار کسب کرد.
ChartQA
85.3%
ChartQA: پرسش و پاسخ نمودار. توانایی درک و تحلیل اطلاعات از نمودارها را آزمایش می‌کند. Qwen3.5-Omni امتیاز 85.3% در این معیار کسب کرد.
DocVQA
95.2%
DocVQA: پرسش و پاسخ بصری سند. توانایی استخراج اطلاعات از تصاویر سند را آزمایش می‌کند. Qwen3.5-Omni امتیاز 95.2% در این معیار کسب کرد.
Terminal-Bench
52.5%
Terminal-Bench: وظایف ترمینال/CLI. توانایی انجام عملیات خط فرمان را آزمایش می‌کند. Qwen3.5-Omni امتیاز 52.5% در این معیار کسب کرد.
ARC-AGI
12.5%
ARC-AGI: انتزاع و استدلال. هوش سیال را از طریق پازل‌های تشخیص الگوی جدید آزمایش می‌کند. Qwen3.5-Omni امتیاز 12.5% در این معیار کسب کرد.

درباره Qwen3.5-Omni

درباره قابلیت‌های Qwen3.5-Omni، ویژگی‌ها و نحوه کمک به شما در دستیابی به نتایج بهتر بیاموزید.

معماری یکپارچه Omnimodal

Qwen3.5-Omni یک مدل omnimodal بومی است که توسط Alibaba Cloud توسعه یافته و بر روی معماری یکپارچه‌ای بنا شده که برای پردازش همزمان ورودی‌های متن، تصویر، صوت و ویدیو طراحی شده است. برخلاف مدل‌های قبلی که بر رمزگذارهای مجزا تکیه می‌کردند، Qwen3.5-Omni از معماری Thinker-Talker استفاده می‌کند. جزء Thinker استدلال‌های پیچیده multimodal را در میان سیگنال‌های ترکیبی انجام می‌دهد، در حالی که جزء Talker گفتار استریم با کیفیت بالا و تأخیر کم تولید می‌کند. این قابلیت به مدل اجازه می‌دهد تا contextهای بسیار بزرگ، شامل ۱۰ ساعت صوت یا تقریباً هفت دقیقه ویدیوی 720p را در یک پرامپت مدیریت کند.

همگام‌سازی و عملکرد پیشرفته

یک ویژگی فنی این مدل، سیستم Adaptive Rate Interleave Alignment (ARIA) است که توکن‌های متن و صدا را همگام‌سازی می‌کند تا پاسخ‌های صوتی طبیعی تولید شوند. این مدل از قطعِ معنایی (semantic interruption) بلادرنگ پشتیبانی می‌کند که به کاربران اجازه می‌دهد در حین مکالمه، AI را متوقف کنند. این مدل برای تحلیل‌های multimodal در سطح سازمانی و دستیارهای صوتی بلادرنگ مصرف‌کننده بهینه شده است و عملکردی در وظایف بینایی و صوتی ارائه می‌دهد که با مدل‌های اختصاصی flagship برابری می‌کند یا از آن‌ها فراتر می‌رود.

بهینه‌سازی شده برای تعامل بلادرنگ

معماری این مدل به طور خاص برای کاربردهای بلادرنگ که در آن‌ها تأخیر حیاتی است، تنظیم شده است. با استفاده از رویکرد Mixture-of-Experts (MoE) همراه با معماری شبکه‌های دلتای گیت‌بندی شده (gated delta networks)، این مدل کارایی محاسباتی بالایی را حفظ می‌کند. این کارایی به آن اجازه می‌دهد تا ضمن مدیریت context window ۲۵۶ هزار توکنی، تعامل صوتی بلادرنگ را فراهم کرده و برای تحلیل محتواهای طولانی مانند رونوشت جلسات و نمایه‌سازی ویدیویی سینمایی مناسب باشد.

Qwen3.5-Omni

موارد استفاده برای Qwen3.5-Omni

روش‌های مختلف استفاده از Qwen3.5-Omni برای دستیابی به نتایج عالی را کشف کنید.

دستیارهای صوتی بلادرنگ

این مدل آواتارهای AI تعاملی ایجاد می‌کند که با پشتیبانی از قطعِ معنایی (semantic interruption)، گفتگوهای صوتی طبیعی انجام می‌دهند.

زیرنویس‌گذاری سینمایی ویدیو

این مدل توضیحات سطح فیلم‌نامه و حاشیه‌نویسی‌های دارای تایم‌کد برای محتواهای ویدیویی طولانی و با کیفیت بالا تولید می‌کند.

کدنویسی زنده صوتی-تصویری

توسعه‌دهندگان با اشتراک‌گذاری صفحه نمایش و توضیح شفاهی منطق برنامه، به صورت بلادرنگ از مدل برای رفع باگ‌های کد استفاده می‌کنند.

آرشیو صوتی سازمانی

این سیستم تا ۱۰ ساعت ضبط جلسات یا پادکست را پردازش کرده و نکات کلیدی را در یک مرحله استخراج می‌کند.

خدمات ترجمه چندزبانه

این مدل ترجمه سرتاسری گفتار به گفتار (speech-to-speech) را برای ۱۱۳ زبان و لهجه‌های مختلف چینی ارائه می‌دهد.

نظارت بر محتوا

این مدل جریان‌های ویدیویی و صوتی را برای مسائل ایمنی بررسی کرده و محتوای غیرمجاز بصری و کلامی را به طور همزمان شناسایی می‌کند.

نقاط قوت

محدودیت‌ها

تلفیق بومی Omnimodal: این مدل متن، بینایی و صوت را در یک ساختار واحد ترکیب کرده و به نتایج SOTA در ۲۱۵ زیرمجموعه از وظایف multimodal دست می‌یابد.
نیاز به GPU بالا: اجرای محلی (Local deployment) معماری MoE در این مدل به دلیل ماهیت multimodal، در مقایسه با مدل‌های متنی نیاز به VRAM قابل‌توجهی دارد.
افق صوتی گسترده: ظرفیت context window ۲۵۶ هزار توکنی امکان پردازش بیش از ۱۰ ساعت داده صوتی مداوم را در یک درخواست فراهم می‌کند.
تأخیر API منطقه‌ای: عملکرد بلادرنگ این مدل در حال حاضر برای کاربرانی که به خوشه‌های منطقه‌ای اصلی Alibaba Cloud در آسیا نزدیک‌تر هستند، بهینه شده است.
صدای بلادرنگ با تأخیر کم: معماری Thinker-Talker زمان پاسخ‌دهی زیر یک ثانیه را برای گفتگوهای صوتی تعاملی و قابل قطع تضمین می‌کند.
شکاف در استدلال متنی: اگرچه این مدل در وظایف multimodal عالی است، عملکرد منطقی خالص آن (امتیاز ۸۳.۹ در GPQA) از مدل‌های تخصصی استدلال ضعیف‌تر است.
قیمت‌گذاری بهینه و رقابتی: با هزینه ۰.۴۰ دلار برای هر ۱ میلیون توکن ورودی، این مدل قابلیت‌های multimodal در سطح flagship را با هزینه بسیار کمتر نسبت به رقبا ارائه می‌دهد.
کدنویسی بصری آزمایشی: قابلیت Vibe Coding (کدنویسی با تحلیل بصری) یک قابلیت نوظهور است و ممکن است در مواجهه با مختصات رابط کاربری پیچیده در ویدیو دچار مشکل شود.

شروع سریع API

alibaba/qwen3.5-omni-plus

مشاهده مستندات
alibaba SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.DASHSCOPE_API_KEY,
  baseURL: 'https://dashscope-intl.aliyuncs.com/compatible-mode/v1',
});

const completion = await client.chat.completions.create({
  model: 'qwen3.5-omni-plus',
  messages: [{ role: 'user', content: 'Analyze this video content.' }],
  modalities: ['text'],
  stream: true,
});

for await (const chunk of completion) {
  process.stdout.write(chunk.choices[0]?.delta?.content || '');
}

SDK را نصب کنید و در عرض چند دقیقه شروع به فراخوانی API کنید.

مردم درباره Qwen3.5-Omni چه می‌گویند

ببینید جامعه درباره Qwen3.5-Omni چه فکر می‌کند

کدنویسی بصری-صوتی یک تغییر بزرگ است؛ بالاخره وقتی باگ را توضیح می‌دهم، می‌فهمد روی صفحه چه چیزی را نشان می‌دهم.
dev_mindset
reddit
توانایی Qwen3.5-Omni در پردازش ۱۰ ساعت صوت در یک context، برای محققان و پادکسترها فوق‌العاده است.
AI_Explorer_01
twitter
شبیه‌سازی صدا در مقایسه با نسل قبلی به طرز عجیبی طبیعی‌تر شده و در انگلیسی تقریباً غیرقابل تشخیص است.
TechGuru_Reviews
youtube
بالاخره مدلی که وسط جمله حرفم را قطع نمی‌کند؛ قطعِ معنایی واقعاً همان‌طور که تبلیغ شده عمل می‌کند.
hacker_news_user
hackernews
اعداد مدل جدید Qwen3.6 27B خیره‌کننده است، اما نسخه Omni مدلی است که همه برای محصولات واقعی از آن استفاده خواهند کرد.
David Hendrickson
twitter
پنج بار سعی کردم حرفش را قطع کنم و هر بار نیت مرا به درستی فهمید.
Matt Shumer
youtube

ویدیوهای درباره Qwen3.5-Omni

آموزش‌ها، بررسی‌ها و بحث‌های درباره Qwen3.5-Omni را تماشا کنید

معماری Thinker-Talker یک جهش بزرگ در کاهش تأخیر بلادرنگ است [04:15].

این مدل ۴۰۰ ثانیه ویدیو را پردازش می‌کند که دو برابر چیزی است که معمولاً می‌بینیم [07:22].

این مدل به طور بومی، چندزبانه و multimodal است [10:05].

سیستم ARIA از خطاهای تلفظی که در TTSهای استاندارد وجود دارد جلوگیری می‌کند [15:30].

شما می‌توانید صفحه نمایش خود را نشان دهید و یک گفتگوی روان درباره کد داشته باشید [22:10].

پنج بار سعی کردم حرفش را قطع کنم و هر بار نیت مرا به درستی فهمید [08:30].

نحوه کدنویسی بر اساس آنچه در ویدیو می‌بیند، شگفت‌انگیز است [10:45].

این اولین رقیب جدی برای حالت صوتی GPT-4o است که تا به حال دیده‌ایم [14:20].

این مدل از ۱۱۳ زبان برای تشخیص گفتار پشتیبانی می‌کند که یک مزیت بزرگ است [18:55].

استخراج بصری برای PDFهای پیچیده و ویدیو بسیار قوی‌تر شده است [25:15].

ظرفیت ۱۰ ساعته صوت، ستاره اصلی این مدل برای استفاده‌های سازمانی است [12:10].

عملکرد در زبان‌های غیر انگلیسی جایی است که Qwen واقعاً پیشتاز است [15:40].

این مدل می‌تواند تفاوت بین نویز پس‌زمینه و قطع کردن توسط کاربر را تشخیص دهد [19:22].

قیمت‌گذاری بسیار رقابتی است، به خصوص با توجه به تعداد پارامترهای فعال [24:10].

این در حال حاضر تواناترین مدل برای اتوماسیون پایتون است که شامل رابط کاربری بصری می‌شود [28:45].

بیشتر از فقط پرامپت

گردش کار خود را با اتوماسیون AI

Automatio قدرت عامل‌های AI، اتوماسیون وب و ادغام‌های هوشمند را ترکیب می‌کند تا به شما کمک کند در زمان کمتر بیشتر انجام دهید.

عامل‌های AI
اتوماسیون وب
گردش‌کارهای هوشمند

نکات حرفه‌ای برای Qwen3.5-Omni

نکات تخصصی برای کمک به شما در استفاده حداکثری از Qwen3.5-Omni و دستیابی به نتایج بهتر.

بهینه‌سازی ورودی صوتی

فایل‌های صوتی طولانی‌تر از ۱۰ ساعت را بخش‌بندی کنید تا دقت بازیابی اطلاعات در context window ۲۵۶ هزار توکنی حفظ شود.

استفاده از وقفه معنایی

قابلیت‌های بومی نوبت‌گیری را در اپلیکیشن‌های صوتی فعال کنید تا نیت کاربر از نویز پس‌زمینه تشخیص داده شود.

استفاده از ARIA برای اصطلاحات فنی

از حالت استریم صدا برای بهره‌مندی از هم‌ترازی ARIA استفاده کنید که تلفظ دقیق اعداد و اصطلاحات فنی را تضمین می‌کند.

کنترل نرخ فریم ویدیو

ویدیوهای استاندارد را با نرخ ۱ فریم بر ثانیه آپلود کنید، اما برای صحنه‌های پرتحرک، نرخ فریم را افزایش دهید تا دقت بصری حفظ شود.

نظرات

کاربران ما چه می‌گویند

به هزاران کاربر راضی که گردش کار خود را متحول کرده‌اند بپیوندید

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

مرتبط AI Models

openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
alibaba

Qwen3.6-Max-Preview

alibaba

Qwen3.6-Max-Preview is Alibaba's flagship MoE model featuring 1M context, a native thinking mode, and SOTA scores in agentic coding and reasoning.

1M context
$1.25/$10.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
zhipu

GLM-5.1

Zhipu (GLM)

GLM-5.1 is Zhipu AI's flagship reasoning model, featuring a 202K context window and an autonomous 8-hour execution loop for complex agentic engineering.

203K context
$1.40/$4.40/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M

سوالات متداول درباره Qwen3.5-Omni

پاسخ سوالات رایج درباره Qwen3.5-Omni را بیابید