Qwen3.5-Omniの最大context lengthはどのくらいですか？

このモデルは256,000 tokenのcontext windowをサポートしています。これにより、約10時間の音声データや400秒の720p動画を一度に処理することが可能です。

Qwen3.5-Omniはリアルタイムの音声対話に対応していますか？

はい、音声のストリーミングやターンテイキング（会話の交代）ロジックをサポートするRealtime APIを備えています。これにより、ユーザーはモデルの回答を即座に遮る（割り込む）ことが可能です。

APIの利用料金はいくらですか？

入力料金は100万tokenあたり$0.40、出力料金は100万tokenあたり$4.80です。これにより、multimodalタスクにおいて非常に高いコスト競争力を実現しています。

このモデルで画像を生成することはできますか？

いいえ、画像や動画を理解することはできるomnimodalなモデルですが、出力はテキストと音声のみとなります。

Thinker-Talkerアーキテクチャとは何ですか？

Thinkerがmultimodalな入力のreasoningを行い、Talkerが音声生成プロセスを管理するという2つのコンポーネントからなるシステムです。

function callingには対応していますか？

はい、Qwen3.5-Omniはtool useをサポートしており、検索エンジンやカスタムAPIを自律的に呼び出すことができます。

何言語に対応していますか？

113の言語および方言の音声認識と、36の言語の音声合成に対応しています。

ボイスクローニングは利用できますか？

はい、Realtime APIを使用して音声サンプルをアップロードすることで、AIの声のアイデンティティをカスタマイズできます。

Qwen3.5-Omni

Qwen3.5-OmniはAlibaba Cloudによるネイティブなomnimodal AIです。シームレスな映像・音声reasoning、リアルタイム音声対話、低latencyアプリ向けの256k contextを提供します。

Omnimodalリアルタイム音声動画認識Alibaba CloudMoE

alibabaQwen3.52026年3月29日

コンテキスト

256Kトークン

最大出力

8Kトークン

入力価格

$0.40/ 1M

出力価格

$4.80/ 1M

モダリティ:TextImageAudioVideo

機能:ビジョンツールストリーミング

ベンチマーク

GPQA

83.9%

HLE

34.2%

MMLU

94.2%

MMLU Pro

85.9%

SimpleQA

48.2%

IFEval

89.7%

AIME 2025

81.6%

MATH

90.4%

GSM8k

94.5%

MGSM

94.1%

MathVista

86.1%

SWE-Bench

75%

HumanEval

91.2%

LiveCodeBench

65.6%

MMMU

80.1%

MMMU Pro

73.9%

ChartQA

85.3%

DocVQA

95.2%

Terminal-Bench

52.5%

ARC-AGI

12.5%

APIドキュメントを見る

Qwen3.5-Omniについて

Qwen3.5-Omniの機能、特徴、そしてより良い結果を得るための方法について学びましょう。

統合されたOmnimodalアーキテクチャ

Qwen3.5-Omniは、Alibaba Cloudによって開発されたネイティブなomnimodalモデルです。テキスト、画像、音声、動画を同時に処理するよう設計された統合アーキテクチャ上に構築されています。個別のエンコーダーに依存していた従来のモデルとは異なり、Qwen3.5-OmniはThinker-Talkerアーキテクチャを採用しています。Thinkerコンポーネントがインターリーブされた信号全体で複雑なmultimodalなreasoningを実行し、Talkerコンポーネントが高品質で低latencyのストリーミング音声を生成します。これにより、最大10時間の音声や約7分間の720p動画を1つのpromptで扱うことが可能です。

高度な同期とパフォーマンス

このモデルの技術的特徴は、ARIA（Adaptive Rate Interleave Alignment）システムです。これによりテキストと音声のtokenが同期され、自然な音声応答が保証されます。このモデルはリアルタイムのセマンティックな割り込みをサポートしており、ユーザーは会話中にAIを遮ることが可能です。エンタープライズ向けのmultimodal分析と、コンシューマー向けのリアルタイム音声アシスタントの両方に最適化されており、映像および音声タスクにおいて、主要なプロプライエタリモデルと同等以上のパフォーマンスを発揮します。

低Latency対話への特化

このモデルのアーキテクチャは、latencyが重要なリアルタイムアプリケーションに特化して調整されています。MoE（Mixture-of-Experts）アプローチとゲート付きデルタネットワークアーキテクチャを採用することで、高い計算効率を維持しています。この効率性により、256kのcontext windowを管理しながらリアルタイムの音声対話を提供でき、会議のトランスクリプトや動画のインデックス作成といった長尺コンテンツの分析に適しています。

Qwen3.5-Omniのユースケース

Qwen3.5-Omniを使って素晴らしい結果を得るさまざまな方法を発見してください。

リアルタイム音声アシスタント

セマンティックな割り込み対応により、人間のように自然な音声会話を行うAIアバターを構築できます。

シネマティックな動画キャプション

長時間の高解像度動画コンテンツに対して、脚本レベルの記述とタイムスタンプ付きの注釈を生成します。

音声を伴うライブコーディング

画面を共有しながら、開発者がリアルタイムでロジックを説明し、モデルがコードを修正する環境を実現します。

企業向け音声アーカイブ

最大10時間の会議録音やポッドキャストを一度に処理し、インサイトを抽出します。

多言語翻訳サービス

113言語および様々な中国語方言を対象とした、エンドツーエンドの音声翻訳を提供します。

コンテンツモデレーション

動画と音声ストリームを同時に監視し、禁止されている視覚的・言語的コンテンツを特定して安全性を確保します。

強み

制限

ネイティブなOmnimodal融合: テキスト、映像、音声を単一のモデルに統合し、215のmultimodalサブタスクでstate-of-the-artの性能を達成しています。

高いGPU要件: omnimodalなMoEアーキテクチャをローカルでデプロイする場合、テキスト専用モデルと比較して大きなVRAMを消費します。

広大な音声コンテキスト: 256kのcontext windowにより、1回のリクエストで10時間以上の連続した音声データを処理可能です。

地域別APIのlatency: リアルタイム性能は現在、Alibaba Cloudの主要な地域クラスター（アジア）に近いユーザー向けに最適化されています。

低Latencyのリアルタイム音声: Thinker-Talkerアーキテクチャにより、会話の割り込みが可能な対話において1秒未満の応答時間を実現しています。

テキストreasoningのギャップ: multimodalタスクには優れていますが、純粋な論理推論性能（GPQA 83.9）は、特化型のreasoning modelには及びません。

非常に効率的な価格設定: 入力100万tokenあたり$0.40という価格で、競合モデルと比較して低コストかつflagshipレベルのmultimodal機能を提供します。

実験段階のVisual Coding: vibe coding機能は萌芽的な能力であり、動画内の複雑な空間UI座標の認識では苦戦することがあります。

APIクイックスタート

alibaba/qwen3.5-omni-plus

ドキュメントを見る

alibaba SDK

import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.DASHSCOPE_API_KEY,
  baseURL: 'https://dashscope-intl.aliyuncs.com/compatible-mode/v1',
});

const completion = await client.chat.completions.create({
  model: 'qwen3.5-omni-plus',
  messages: [{ role: 'user', content: 'Analyze this video content.' }],
  modalities: ['text'],
  stream: true,
});

for await (const chunk of completion) {
  process.stdout.write(chunk.choices[0]?.delta?.content || '');
}

SDKをインストールして、数分でAPIコールを開始しましょう。

Qwen3.5-Omniについてのユーザーの声

Qwen3.5-Omniについてコミュニティがどう思っているか見てください

“Audio-Visual Vibe Codingはゲームチェンジャーです。バグを説明している最中に画面に映っているものを理解してくれます。”

— dev_mindset

“Qwen3.5-Omniが10時間の音声を1つのcontextで扱えるのは、研究者やポッドキャスターにとって驚異的です。”

— AI_Explorer_01

twitter

“ボイスクローニングは前世代と比較して驚くほど自然で、英語ではほとんど聞き分けられません。”

— TechGuru_Reviews

youtube

“ようやく、話の途中で遮られても不自然にならないモデルが登場しました。セマンティックな割り込みは説明通りに機能します。”

— hacker_news_user

hackernews

“Qwen3.6 27Bの数値も印象的ですが、実際の製品開発にはこのOmniバージョンが使われることになるでしょう。”

— David Hendrickson

twitter

“5回連続で割り込んでみましたが、毎回こちらの意図を完璧にキャッチしました。”

— Matt Shumer

youtube

Qwen3.5-Omniについての動画

Qwen3.5-Omniについてのチュートリアル、レビュー、ディスカッションを見る

“Thinker-Talkerアーキテクチャは、リアルタイムlatencyにおいて大きな飛躍を遂げています [04:15]。”

“通常のモデルの2倍となる400秒の動画を扱えます [07:22]。”

“このモデルは、エンドツーエンドで多言語かつmultimodalにネイティブ対応しています [10:05]。”

“ARIAシステムは、標準的なTTSに見られる発音ミスを防ぎます [15:30]。”

“画面を見せながらコードについて流暢に会話を交わすことができます [22:10]。”

“5回割り込んでみましたが、毎回こちらの意図を正確に捉えました [08:30]。”

“動画に映っているものに基づいてコードを書く能力には驚かされます [10:45]。”

“GPT-4oの音声モードの真のライバルとなる初めてのモデルです [14:20]。”

“113言語の音声認識に対応しているのは大きな強みです [18:55]。”

“複雑なPDFや動画からの視覚情報抽出が非常に堅牢です [25:15]。”

“10時間の音声contextは、企業利用において最大の魅力です [12:10]。”

“英語以外の言語性能でQwenは一歩先を行っています [15:40]。”

“背景ノイズとユーザーの実際の割り込みを区別できます [19:22]。”

“価格設定も、稼働パラメータの規模を考えると非常に競争力があります [24:10]。”

“視覚的なUIを伴うPython自動化において、現在最も有能なモデルです [28:45]。”

プロンプト以上のもの

ワークフローを強化する AI自動化

AutomatioはAIエージェント、ウェブ自動化、スマート統合のパワーを組み合わせ、より短時間でより多くのことを達成するお手伝いをします。

AIエージェント

ウェブ自動化

スマートワークフロー

無料で始める

Qwen3.5-Omniのプロのヒント

Qwen3.5-Omniを最大限に活用し、より良い結果を得るための専門家のヒント。

音声データの取り込みを最適化する

256kのcontext window内で事実に基づく高い検索精度を維持するため、10時間を超える音声データはセグメント化してください。

セマンティックな割り込みを活用する

音声アプリでネイティブなターンテイキング機能を有効にすることで、ユーザーの意図と背景ノイズを区別します。

技術用語にARIAを使用する

ストリーミング音声モードを活用してARIAアライメントの利点を享受し、技術的な数値が正確に発音されるようにします。

動画のフレームレート制御

標準的な動画は1 FPSでアップロードし、視覚的な精度が重要なアクションの多いシーンではレートを上げてください。

お客様の声

ユーザーの声

ワークフローを変革した何千人もの満足したユーザーに加わりましょう

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.