alibaba

Qwen3.5-Omni

Qwen3.5-OmniはAlibaba Cloudによるネイティブなomnimodal AIです。シームレスな映像・音声reasoning、リアルタイム音声対話、低latencyアプリ向けの256k contextを提供します。

Omnimodalリアルタイム音声動画認識Alibaba CloudMoE
alibaba logoalibabaQwen3.52026年3月29日
コンテキスト
256Kトークン
最大出力
8Kトークン
入力価格
$0.40/ 1M
出力価格
$4.80/ 1M
モダリティ:TextImageAudioVideo
機能:ビジョンツールストリーミング
ベンチマーク
GPQA
83.9%
GPQA: 大学院レベル科学Q&A. 生物学、物理学、化学の448問の選択問題からなる厳格なベンチマーク。博士号専門家でも65-74%の正解率。 Qwen3.5-Omniはこのベンチマークで83.9%を記録しました。
HLE
34.2%
HLE: 高レベル専門推論. 専門分野でエキスパートレベルの推論を示すモデルの能力をテスト。 Qwen3.5-Omniはこのベンチマークで34.2%を記録しました。
MMLU
94.2%
MMLU: 大規模多タスク言語理解. 57の学術科目にわたる16,000問の選択問題からなる包括的なベンチマーク。 Qwen3.5-Omniはこのベンチマークで94.2%を記録しました。
MMLU Pro
85.9%
MMLU Pro: MMLUプロフェッショナル版. より難しい10択形式の12,032問を含むMMLUの強化版。 Qwen3.5-Omniはこのベンチマークで85.9%を記録しました。
SimpleQA
48.2%
SimpleQA: 事実精度ベンチマーク. 直接的な質問に対して正確で事実に基づく回答を提供するモデルの能力をテスト。 Qwen3.5-Omniはこのベンチマークで48.2%を記録しました。
IFEval
89.7%
IFEval: 指示遵守評価. モデルが特定の指示と制約にどれだけ従うかを測定。 Qwen3.5-Omniはこのベンチマークで89.7%を記録しました。
AIME 2025
81.6%
AIME 2025: アメリカ招待数学試験. 名門AIME試験からの競技レベルの数学問題。 Qwen3.5-Omniはこのベンチマークで81.6%を記録しました。
MATH
90.4%
MATH: 数学問題解決. 代数、幾何、微積分などの分野をテストする包括的な数学ベンチマーク。 Qwen3.5-Omniはこのベンチマークで90.4%を記録しました。
GSM8k
94.5%
GSM8k: 小学校算数8K. 多段階推論を必要とする8,500問の小学校レベルの算数文章問題。 Qwen3.5-Omniはこのベンチマークで94.5%を記録しました。
MGSM
94.1%
MGSM: 多言語小学校算数. GSM8kベンチマークを10言語に翻訳したもの。 Qwen3.5-Omniはこのベンチマークで94.1%を記録しました。
MathVista
86.1%
MathVista: 数学的視覚推論. グラフや図などの視覚要素を含む数学問題を解く能力をテスト。 Qwen3.5-Omniはこのベンチマークで86.1%を記録しました。
SWE-Bench
75%
SWE-Bench: ソフトウェアエンジニアリングベンチマーク. AIモデルがオープンソースPythonプロジェクトの実際のGitHub課題を解決しようとする。 Qwen3.5-Omniはこのベンチマークで75%を記録しました。
HumanEval
91.2%
HumanEval: Pythonプログラミング問題. モデルが正しいPython関数実装を生成する必要がある164問の手書きプログラミング問題。 Qwen3.5-Omniはこのベンチマークで91.2%を記録しました。
LiveCodeBench
65.6%
LiveCodeBench: ライブコーディングベンチマーク. 継続的に更新される実世界のプログラミングチャレンジでコーディング能力をテスト。 Qwen3.5-Omniはこのベンチマークで65.6%を記録しました。
MMMU
80.1%
MMMU: マルチモーダル理解. 大学レベルの問題でビジョン言語モデルをテストする大規模多分野マルチモーダル理解ベンチマーク。 Qwen3.5-Omniはこのベンチマークで80.1%を記録しました。
MMMU Pro
73.9%
MMMU Pro: MMMUプロフェッショナル版. より挑戦的な問題とより厳格な評価を備えたMMMUの強化版。 Qwen3.5-Omniはこのベンチマークで73.9%を記録しました。
ChartQA
85.3%
ChartQA: チャート質問応答. チャートやグラフに表示された情報を理解し推論する能力をテスト。 Qwen3.5-Omniはこのベンチマークで85.3%を記録しました。
DocVQA
95.2%
DocVQA: ドキュメント視覚Q&A. ドキュメント画像から情報を抽出する能力をテストするドキュメント視覚質問応答ベンチマーク。 Qwen3.5-Omniはこのベンチマークで95.2%を記録しました。
Terminal-Bench
52.5%
Terminal-Bench: ターミナル/CLIタスク. コマンドライン操作を実行し、シェルスクリプトを書く能力をテスト。 Qwen3.5-Omniはこのベンチマークで52.5%を記録しました。
ARC-AGI
12.5%
ARC-AGI: 抽象化と推論. AGIのための抽象化と推論コーパス - 新しいパターン認識パズルで流動的知性をテスト。 Qwen3.5-Omniはこのベンチマークで12.5%を記録しました。

Qwen3.5-Omniについて

Qwen3.5-Omniの機能、特徴、そしてより良い結果を得るための方法について学びましょう。

統合されたOmnimodalアーキテクチャ

Qwen3.5-Omniは、Alibaba Cloudによって開発されたネイティブなomnimodalモデルです。テキスト、画像、音声、動画を同時に処理するよう設計された統合アーキテクチャ上に構築されています。個別のエンコーダーに依存していた従来のモデルとは異なり、Qwen3.5-OmniはThinker-Talkerアーキテクチャを採用しています。Thinkerコンポーネントがインターリーブされた信号全体で複雑なmultimodalなreasoningを実行し、Talkerコンポーネントが高品質で低latencyのストリーミング音声を生成します。これにより、最大10時間の音声や約7分間の720p動画を1つのpromptで扱うことが可能です。

高度な同期とパフォーマンス

このモデルの技術的特徴は、ARIA(Adaptive Rate Interleave Alignment)システムです。これによりテキストと音声のtokenが同期され、自然な音声応答が保証されます。このモデルはリアルタイムのセマンティックな割り込みをサポートしており、ユーザーは会話中にAIを遮ることが可能です。エンタープライズ向けのmultimodal分析と、コンシューマー向けのリアルタイム音声アシスタントの両方に最適化されており、映像および音声タスクにおいて、主要なプロプライエタリモデルと同等以上のパフォーマンスを発揮します。

低Latency対話への特化

このモデルのアーキテクチャは、latencyが重要なリアルタイムアプリケーションに特化して調整されています。MoE(Mixture-of-Experts)アプローチとゲート付きデルタネットワークアーキテクチャを採用することで、高い計算効率を維持しています。この効率性により、256kのcontext windowを管理しながらリアルタイムの音声対話を提供でき、会議のトランスクリプトや動画のインデックス作成といった長尺コンテンツの分析に適しています。

Qwen3.5-Omni

Qwen3.5-Omniのユースケース

Qwen3.5-Omniを使って素晴らしい結果を得るさまざまな方法を発見してください。

リアルタイム音声アシスタント

セマンティックな割り込み対応により、人間のように自然な音声会話を行うAIアバターを構築できます。

シネマティックな動画キャプション

長時間の高解像度動画コンテンツに対して、脚本レベルの記述とタイムスタンプ付きの注釈を生成します。

音声を伴うライブコーディング

画面を共有しながら、開発者がリアルタイムでロジックを説明し、モデルがコードを修正する環境を実現します。

企業向け音声アーカイブ

最大10時間の会議録音やポッドキャストを一度に処理し、インサイトを抽出します。

多言語翻訳サービス

113言語および様々な中国語方言を対象とした、エンドツーエンドの音声翻訳を提供します。

コンテンツモデレーション

動画と音声ストリームを同時に監視し、禁止されている視覚的・言語的コンテンツを特定して安全性を確保します。

強み

制限

ネイティブなOmnimodal融合: テキスト、映像、音声を単一のモデルに統合し、215のmultimodalサブタスクでstate-of-the-artの性能を達成しています。
高いGPU要件: omnimodalなMoEアーキテクチャをローカルでデプロイする場合、テキスト専用モデルと比較して大きなVRAMを消費します。
広大な音声コンテキスト: 256kのcontext windowにより、1回のリクエストで10時間以上の連続した音声データを処理可能です。
地域別APIのlatency: リアルタイム性能は現在、Alibaba Cloudの主要な地域クラスター(アジア)に近いユーザー向けに最適化されています。
低Latencyのリアルタイム音声: Thinker-Talkerアーキテクチャにより、会話の割り込みが可能な対話において1秒未満の応答時間を実現しています。
テキストreasoningのギャップ: multimodalタスクには優れていますが、純粋な論理推論性能(GPQA 83.9)は、特化型のreasoning modelには及びません。
非常に効率的な価格設定: 入力100万tokenあたり$0.40という価格で、競合モデルと比較して低コストかつflagshipレベルのmultimodal機能を提供します。
実験段階のVisual Coding: vibe coding機能は萌芽的な能力であり、動画内の複雑な空間UI座標の認識では苦戦することがあります。

APIクイックスタート

alibaba/qwen3.5-omni-plus

ドキュメントを見る
alibaba SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.DASHSCOPE_API_KEY,
  baseURL: 'https://dashscope-intl.aliyuncs.com/compatible-mode/v1',
});

const completion = await client.chat.completions.create({
  model: 'qwen3.5-omni-plus',
  messages: [{ role: 'user', content: 'Analyze this video content.' }],
  modalities: ['text'],
  stream: true,
});

for await (const chunk of completion) {
  process.stdout.write(chunk.choices[0]?.delta?.content || '');
}

SDKをインストールして、数分でAPIコールを開始しましょう。

Qwen3.5-Omniについてのユーザーの声

Qwen3.5-Omniについてコミュニティがどう思っているか見てください

Audio-Visual Vibe Codingはゲームチェンジャーです。バグを説明している最中に画面に映っているものを理解してくれます。
dev_mindset
reddit
Qwen3.5-Omniが10時間の音声を1つのcontextで扱えるのは、研究者やポッドキャスターにとって驚異的です。
AI_Explorer_01
twitter
ボイスクローニングは前世代と比較して驚くほど自然で、英語ではほとんど聞き分けられません。
TechGuru_Reviews
youtube
ようやく、話の途中で遮られても不自然にならないモデルが登場しました。セマンティックな割り込みは説明通りに機能します。
hacker_news_user
hackernews
Qwen3.6 27Bの数値も印象的ですが、実際の製品開発にはこのOmniバージョンが使われることになるでしょう。
David Hendrickson
twitter
5回連続で割り込んでみましたが、毎回こちらの意図を完璧にキャッチしました。
Matt Shumer
youtube

Qwen3.5-Omniについての動画

Qwen3.5-Omniについてのチュートリアル、レビュー、ディスカッションを見る

Thinker-Talkerアーキテクチャは、リアルタイムlatencyにおいて大きな飛躍を遂げています [04:15]。

通常のモデルの2倍となる400秒の動画を扱えます [07:22]。

このモデルは、エンドツーエンドで多言語かつmultimodalにネイティブ対応しています [10:05]。

ARIAシステムは、標準的なTTSに見られる発音ミスを防ぎます [15:30]。

画面を見せながらコードについて流暢に会話を交わすことができます [22:10]。

5回割り込んでみましたが、毎回こちらの意図を正確に捉えました [08:30]。

動画に映っているものに基づいてコードを書く能力には驚かされます [10:45]。

GPT-4oの音声モードの真のライバルとなる初めてのモデルです [14:20]。

113言語の音声認識に対応しているのは大きな強みです [18:55]。

複雑なPDFや動画からの視覚情報抽出が非常に堅牢です [25:15]。

10時間の音声contextは、企業利用において最大の魅力です [12:10]。

英語以外の言語性能でQwenは一歩先を行っています [15:40]。

背景ノイズとユーザーの実際の割り込みを区別できます [19:22]。

価格設定も、稼働パラメータの規模を考えると非常に競争力があります [24:10]。

視覚的なUIを伴うPython自動化において、現在最も有能なモデルです [28:45]。

プロンプト以上のもの

ワークフローを強化する AI自動化

AutomatioはAIエージェント、ウェブ自動化、スマート統合のパワーを組み合わせ、より短時間でより多くのことを達成するお手伝いをします。

AIエージェント
ウェブ自動化
スマートワークフロー

Qwen3.5-Omniのプロのヒント

Qwen3.5-Omniを最大限に活用し、より良い結果を得るための専門家のヒント。

音声データの取り込みを最適化する

256kのcontext window内で事実に基づく高い検索精度を維持するため、10時間を超える音声データはセグメント化してください。

セマンティックな割り込みを活用する

音声アプリでネイティブなターンテイキング機能を有効にすることで、ユーザーの意図と背景ノイズを区別します。

技術用語にARIAを使用する

ストリーミング音声モードを活用してARIAアライメントの利点を享受し、技術的な数値が正確に発音されるようにします。

動画のフレームレート制御

標準的な動画は1 FPSでアップロードし、視覚的な精度が重要なアクションの多いシーンではレートを上げてください。

お客様の声

ユーザーの声

ワークフローを変革した何千人もの満足したユーザーに加わりましょう

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

関連 AI Models

openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
alibaba

Qwen3.6-Max-Preview

alibaba

Qwen3.6-Max-Preview is Alibaba's flagship MoE model featuring 1M context, a native thinking mode, and SOTA scores in agentic coding and reasoning.

1M context
$1.25/$10.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
zhipu

GLM-5.1

Zhipu (GLM)

GLM-5.1 is Zhipu AI's flagship reasoning model, featuring a 202K context window and an autonomous 8-hour execution loop for complex agentic engineering.

203K context
$1.40/$4.40/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M

Qwen3.5-Omniについてのよくある質問

Qwen3.5-Omniに関するよくある質問への回答を見つけてください