alibaba

Qwen3.5-Omni

Qwen3.5-Omni هو AI متعدد الأنماط من Alibaba Cloud، يوفر استدلالاً سمعياً بصرياً سلساً، ومحادثة صوتية في الوقت الفعلي، و256k context للتطبيقات ذات الـ latency...

Omnimodalصوت في الوقت الفعليرؤية الفيديوAlibaba CloudMoE
alibaba logoalibabaQwen3.529 مارس 2026
نافذة السياق
256Kرموز
أقصى مخرج
8Kرموز
سعر الإدخال
$0.40/ 1M
سعر الإخراج
$4.80/ 1M
الوضع:TextImageAudioVideo
القدرات:الرؤيةالأدواتالبث
المعايير
GPQA
83.9%
GPQA: أسئلة علمية مستوى الدراسات العليا. معيار صارم مع 448 سؤالاً من الأحياء والفيزياء والكيمياء. خبراء الدكتوراه يحققون فقط 65-74% دقة. حقق Qwen3.5-Omni درجة 83.9% في هذا المعيار.
HLE
34.2%
HLE: استدلال مستوى الخبير. يختبر قدرة النموذج على إظهار استدلال مستوى الخبير في المجالات المتخصصة. حقق Qwen3.5-Omni درجة 34.2% في هذا المعيار.
MMLU
94.2%
MMLU: فهم اللغة متعدد المهام الضخم. معيار شامل مع 16,000 سؤال في 57 مادة أكاديمية. حقق Qwen3.5-Omni درجة 94.2% في هذا المعيار.
MMLU Pro
85.9%
MMLU Pro: MMLU النسخة المهنية. نسخة محسنة من MMLU مع 12,032 سؤالاً وتنسيق 10 خيارات أصعب. حقق Qwen3.5-Omni درجة 85.9% في هذا المعيار.
SimpleQA
48.2%
SimpleQA: معيار الدقة الواقعية. يختبر قدرة النموذج على تقديم إجابات دقيقة وواقعية. حقق Qwen3.5-Omni درجة 48.2% في هذا المعيار.
IFEval
89.7%
IFEval: تقييم اتباع التعليمات. يقيس مدى جودة اتباع النموذج للتعليمات والقيود المحددة. حقق Qwen3.5-Omni درجة 89.7% في هذا المعيار.
AIME 2025
81.6%
AIME 2025: امتحان الرياضيات الأمريكي بالدعوة. مسائل رياضيات مستوى المنافسة من امتحان AIME المرموق. حقق Qwen3.5-Omni درجة 81.6% في هذا المعيار.
MATH
90.4%
MATH: حل المسائل الرياضية. معيار رياضيات شامل يختبر حل المسائل في الجبر والهندسة والتفاضل والتكامل. حقق Qwen3.5-Omni درجة 90.4% في هذا المعيار.
GSM8k
94.5%
GSM8k: رياضيات المدرسة الابتدائية 8K. 8,500 مسألة رياضية كلامية مستوى المدرسة الابتدائية. حقق Qwen3.5-Omni درجة 94.5% في هذا المعيار.
MGSM
94.1%
MGSM: رياضيات ابتدائية متعددة اللغات. معيار GSM8k مترجم إلى 10 لغات. حقق Qwen3.5-Omni درجة 94.1% في هذا المعيار.
MathVista
86.1%
MathVista: الاستدلال البصري الرياضي. يختبر القدرة على حل المسائل الرياضية مع عناصر بصرية. حقق Qwen3.5-Omni درجة 86.1% في هذا المعيار.
SWE-Bench
75%
SWE-Bench: معيار هندسة البرمجيات. نماذج الذكاء الاصطناعي تحاول حل مشكلات GitHub حقيقية في مشاريع Python. حقق Qwen3.5-Omni درجة 75% في هذا المعيار.
HumanEval
91.2%
HumanEval: مسائل برمجة Python. 164 مسألة برمجة حيث يجب على النماذج إنشاء تنفيذات صحيحة لدوال Python. حقق Qwen3.5-Omni درجة 91.2% في هذا المعيار.
LiveCodeBench
65.6%
LiveCodeBench: معيار البرمجة المباشرة. يختبر قدرات البرمجة على تحديات برمجة واقعية محدثة باستمرار. حقق Qwen3.5-Omni درجة 65.6% في هذا المعيار.
MMMU
80.1%
MMMU: الفهم متعدد الوسائط. معيار الفهم متعدد الوسائط من 30 مادة جامعية. حقق Qwen3.5-Omni درجة 80.1% في هذا المعيار.
MMMU Pro
73.9%
MMMU Pro: MMMU النسخة المهنية. نسخة محسنة من MMMU مع أسئلة أكثر تحدياً. حقق Qwen3.5-Omni درجة 73.9% في هذا المعيار.
ChartQA
85.3%
ChartQA: أسئلة وأجوبة الرسوم البيانية. يختبر القدرة على فهم وتحليل المعلومات من الرسوم البيانية والمخططات. حقق Qwen3.5-Omni درجة 85.3% في هذا المعيار.
DocVQA
95.2%
DocVQA: أسئلة بصرية للمستندات. يختبر القدرة على استخراج المعلومات من صور المستندات. حقق Qwen3.5-Omni درجة 95.2% في هذا المعيار.
Terminal-Bench
52.5%
Terminal-Bench: مهام Terminal/CLI. يختبر القدرة على تنفيذ عمليات سطر الأوامر. حقق Qwen3.5-Omni درجة 52.5% في هذا المعيار.
ARC-AGI
12.5%
ARC-AGI: التجريد والاستدلال. يختبر الذكاء المرن من خلال ألغاز جديدة للتعرف على الأنماط. حقق Qwen3.5-Omni درجة 12.5% في هذا المعيار.

حول Qwen3.5-Omni

تعرف على قدرات Qwen3.5-Omni والميزات وكيف يمكن أن يساعدك في تحقيق نتائج أفضل.

بنية Omnimodal موحدة

Qwen3.5-Omni هو موديل omnimodal أصلي طورته Alibaba Cloud، ومبني على بنية موحدة مصممة لمعالجة مدخلات النص والصورة والصوت والفيديو في وقت واحد. على عكس الموديلات السابقة التي اعتمدت على encoders منفصلة، يستخدم Qwen3.5-Omni بنية Thinker-Talker. يقوم مكون Thinker بإجراء استدلال multimodal معقد عبر الإشارات المتداخلة، بينما يقوم مكون Talker بتوليد كلام متدفق عالي الجودة وبـ latency منخفض. هذا يسمح للموديل بالتعامل مع context هائل، بما في ذلك ما يصل إلى 10 ساعات من الصوت أو حوالي سبع دقائق من فيديو بدقة 720p في prompt واحد.

مزامنة وأداء متقدمان

إحدى الميزات التقنية لهذا الموديل هي نظام Adaptive Rate Interleave Alignment (ARIA)، الذي يزامن الـ tokens النصية والصوتية لضمان استجابات صوتية تبدو طبيعية. يدعم الموديل المقاطعة الدلالية في الوقت الفعلي، مما يسمح للمستخدمين بقطع كلام الـ AI أثناء المحادثة. تم تحسين الموديل لكل من التحليل الـ multimodal على مستوى المؤسسات والمساعدات الصوتية في الوقت الفعلي الموجهة للمستهلكين، مما يوفر أداءً في مهام الرؤية والصوت يضاهي أو يتجاوز الموديلات المملوكة للشركات الكبرى.

متخصص للتفاعل بـ latency منخفض

تم ضبط بنية الموديل خصيصاً للتطبيقات في الوقت الفعلي حيث يكون الـ latency أمراً حاسماً. باستخدام نهج Mixture-of-Experts (MoE) مع بنية شبكات gated delta، يحافظ الموديل على كفاءة حوسبية عالية. تمكن هذه الكفاءة الموديل من توفير تفاعل صوتي في الوقت الفعلي مع إدارة context window بسعة 256k token، مما يجعله مناسباً لتحليل المحتوى الطويل مثل نصوص الاجتماعات وفهرسة الفيديو السينمائي.

Qwen3.5-Omni

حالات استخدام Qwen3.5-Omni

اكتشف الطرق المختلفة لاستخدام Qwen3.5-Omni لتحقيق نتائج رائعة.

المساعدات الصوتية في الوقت الفعلي

يبني الموديل شخصيات AI تفاعلية تشارك في محادثات صوتية طبيعية مع دعم المقاطعة الدلالية.

التعليق السينمائي على الفيديو

يولد الموديل أوصافاً بمستوى سيناريو الأفلام وتعليقات زمنية لمحتوى الفيديو عالي الدقة والطويل.

البرمجة الحية المعتمدة على الصوت والصورة

يقوم المطورون بإصلاح الأكواد من خلال عرض شاشاتهم وشرح المنطق برمجياً للموديل في الوقت الفعلي.

أرشفة الصوت للمؤسسات

يعالج النظام ما يصل إلى 10 ساعات من تسجيلات الاجتماعات أو البودكاست لاستخراج الرؤى في تمريرة واحدة.

خدمات الترجمة متعددة اللغات

يوفر ترجمة شاملة من كلام إلى كلام عبر 113 لغة ولهجات صينية إقليمية مختلفة.

إدارة المحتوى

يقوم الموديل بفحص تدفقات الفيديو والصوت من أجل السلامة من خلال تحديد المحتوى المرئي واللفظي المحظور في وقت واحد.

نقاط القوة

القيود

دمج Omnimodal أصلي: يدمج النص والرؤية والصوت في موديل واحد، محققاً نتائج state-of-the-art عبر 215 مهمة فرعية multimodal.
متطلبات GPU عالية: يتطلب النشر المحلي لبنية الـ MoE الـ omnimodal ذاكرة VRAM كبيرة مقارنة بالموديلات النصية فقط.
أفق صوتي واسع: يسمح الـ context window بسعة 256k بمعالجة أكثر من 10 ساعات من البيانات الصوتية المتصلة في طلب واحد.
latency الـ API الإقليمي: الأداء في الوقت الفعلي مُحسن حالياً للمستخدمين القريبين من مراكز Alibaba Cloud الإقليمية الرئيسية في آسيا.
صوت في الوقت الفعلي بـ latency منخفض: تضمن بنية Thinker-Talker أوقات استجابة أقل من ثانية للمحادثات الصوتية التفاعلية القابلة للمقاطعة.
فجوة في الاستدلال النصي: على الرغم من تفوقه في مهام الـ multimodal، إلا أن أداء المنطق الصرف الخاص به (GPQA 83.9) يتأخر عن موديلات الاستدلال المتخصصة.
تسعير كفاءة تنافسي: بسعر 0.40 دولار لكل مليون input tokens، يوفر قدرات multimodal بمستوى flagship بتكلفة منخفضة مقارنة بالمنافسين.
البرمجة المرئية التجريبية: ميزة الـ vibe coding هي قدرة ناشئة وقد تواجه صعوبة مع إحداثيات واجهة المستخدم المكانية المعقدة في الفيديو.

البدء السريع API

alibaba/qwen3.5-omni-plus

عرض التوثيق
alibaba SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.DASHSCOPE_API_KEY,
  baseURL: 'https://dashscope-intl.aliyuncs.com/compatible-mode/v1',
});

const completion = await client.chat.completions.create({
  model: 'qwen3.5-omni-plus',
  messages: [{ role: 'user', content: 'Analyze this video content.' }],
  modalities: ['text'],
  stream: true,
});

for await (const chunk of completion) {
  process.stdout.write(chunk.choices[0]?.delta?.content || '');
}

ثبت SDK وابدأ في إجراء استدعاءات API في دقائق.

ماذا يقول الناس عن Qwen3.5-Omni

شاهد رأي المجتمع في Qwen3.5-Omni

تعد ميزة الـ Audio-Visual Vibe Coding تغييراً جذرياً؛ فهي تفهم أخيراً ما أعرضه على الشاشة أثناء شرحي للخطأ البرمجي.
dev_mindset
reddit
قدرة Qwen3.5-Omni على معالجة 10 ساعات من الصوت في context واحد أمر جنوني للباحثين وصناع البودكاست.
AI_Explorer_01
twitter
يبدو استنساخ الصوت طبيعياً بشكل مدهش مقارنة بالجيل السابق، لا يمكن تمييزه تقريباً في اللغة الإنجليزية.
TechGuru_Reviews
youtube
أخيراً، موديل لا يكتفي فقط بقطع كلامي في منتصف الجملة؛ تعمل المقاطعة الدلالية كما هو معلن عنها.
hacker_news_user
hackernews
أرقام مبهرة في Qwen3.6 27B الجديد، لكن نسخة Omni هي التي سيستخدمها الجميع في المنتجات الحقيقية.
David Hendrickson
twitter
حاولت مقاطعته خمس مرات، وفهم نيتي في كل مرة.
Matt Shumer
youtube

فيديوهات عن Qwen3.5-Omni

شاهد الدروس والمراجعات والنقاشات عن Qwen3.5-Omni

بنية الـ Thinker-Talker هي قفزة هائلة للأمام فيما يخص الـ latency في الوقت الفعلي [04:15].

يعالج 400 ثانية من الفيديو وهو ضعف ما نراه عادة [07:22].

هذا الموديل هو موديل متعدد اللغات و multimodal بشكل أصلي من البداية للنهاية [10:05].

نظام ARIA يمنع أخطاء النطق الموجودة في الـ TTS القياسي [15:30].

يمكنك حرفياً عرض شاشتك وإجراء محادثة سلسة حول الكود [22:10].

حاولت مقاطعته خمس مرات، وفهم نيتي في كل مرة [08:30].

الطريقة التي يكتب بها الكود بناءً على ما يراه في الفيديو مخيفة [10:45].

هذا هو أول منافس حقيقي لوضع الصوت في GPT-4o رأيناه [14:20].

يدعم 113 لغة للتعرف على الكلام، وهي ميزة هائلة [18:55].

استخراج الرؤية أكثر قوة بكثير لملفات PDF المعقدة والفيديو [25:15].

سعة الـ context البالغة 10 ساعات صوتية هي النجم الحقيقي هنا للاستخدام المؤسسي [12:10].

الأداء في اللغات غير الإنجليزية هو حيث يتفوق Qwen حقاً [15:40].

يمكنه التمييز بين الضوضاء في الخلفية ومقاطعة المستخدم الفعلية [19:22].

التسعير تنافسي للغاية، خاصة بالنسبة لحجم الـ parameters النشطة [24:10].

هذا هو حالياً الموديل الأكثر قدرة لـ Python automation الذي يتضمن واجهة مستخدم مرئية [28:45].

أكثر من مجرد برومبتات

عزز سير عملك مع أتمتة الذكاء الاصطناعي

يجمع Automatio بين قوة وكلاء الذكاء الاصطناعي وأتمتة الويب والتكاملات الذكية لمساعدتك على إنجاز المزيد في وقت أقل.

وكلاء الذكاء الاصطناعي
أتمتة الويب
سير عمل ذكي

نصائح احترافية لـ Qwen3.5-Omni

نصائح الخبراء لمساعدتك على تحقيق أقصى استفادة من Qwen3.5-Omni وتحقيق نتائج أفضل.

تحسين استيعاب الصوت

قم بتقسيم المقاطع الصوتية التي تزيد مدتها عن 10 ساعات للحفاظ على دقة استرجاع المعلومات داخل الـ context window البالغ 256k.

الاستفادة من المقاطعة الدلالية

فعّل ميزات تبادل الأدوار الأصلية في تطبيقات الصوت للتمييز بين نية المستخدم والضوضاء المحيطة.

استخدام ARIA للمصطلحات التقنية

استخدم وضع الكلام المتدفق للاستفادة من محاذاة ARIA، مما يضمن نطق الأرقام التقنية بدقة.

التحكم في معدل إطارات الفيديو

قم بتحميل الفيديو القياسي بمعدل 1 FPS، ولكن زد المعدل للمشاهد السريعة لضمان الدقة البصرية.

الشهادات

ماذا يقول مستخدمونا

انضم إلى الآلاف من المستخدمين الراضين الذين حولوا سير عملهم

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

ذو صلة AI Models

openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
alibaba

Qwen3.6-Max-Preview

alibaba

Qwen3.6-Max-Preview is Alibaba's flagship MoE model featuring 1M context, a native thinking mode, and SOTA scores in agentic coding and reasoning.

1M context
$1.25/$10.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
zhipu

GLM-5.1

Zhipu (GLM)

GLM-5.1 is Zhipu AI's flagship reasoning model, featuring a 202K context window and an autonomous 8-hour execution loop for complex agentic engineering.

203K context
$1.40/$4.40/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M

الأسئلة الشائعة حول Qwen3.5-Omni

ابحث عن إجابات للأسئلة الشائعة حول Qwen3.5-Omni