google

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Previewは、131K context window、高精度のmultimodal reasoning、リアルタイム対話機能を備えたGoogleの超低latencyスピーチ・トゥ・スピーチモデルです。

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time
google logogoogleGeminiMarch 26, 2026
コンテキスト
131Kトークン
最大出力
66Kトークン
入力価格
$0.75/ 1M
出力価格
$4.50/ 1M
モダリティ:TextImageAudioVideo
機能:ビジョンツールストリーミング推論
ベンチマーク
GPQA
94%
GPQA: 大学院レベル科学Q&A. 生物学、物理学、化学の448問の選択問題からなる厳格なベンチマーク。博士号専門家でも65-74%の正解率。 Gemini 3.1 Flash Live Previewはこのベンチマークで94%を記録しました。
HLE
44%
HLE: 高レベル専門推論. 専門分野でエキスパートレベルの推論を示すモデルの能力をテスト。 Gemini 3.1 Flash Live Previewはこのベンチマークで44%を記録しました。
MMLU
91%
MMLU: 大規模多タスク言語理解. 57の学術科目にわたる16,000問の選択問題からなる包括的なベンチマーク。 Gemini 3.1 Flash Live Previewはこのベンチマークで91%を記録しました。
MMLU Pro
89%
MMLU Pro: MMLUプロフェッショナル版. より難しい10択形式の12,032問を含むMMLUの強化版。 Gemini 3.1 Flash Live Previewはこのベンチマークで89%を記録しました。
SimpleQA
80%
SimpleQA: 事実精度ベンチマーク. 直接的な質問に対して正確で事実に基づく回答を提供するモデルの能力をテスト。 Gemini 3.1 Flash Live Previewはこのベンチマークで80%を記録しました。
IFEval
88%
IFEval: 指示遵守評価. モデルが特定の指示と制約にどれだけ従うかを測定。 Gemini 3.1 Flash Live Previewはこのベンチマークで88%を記録しました。
AIME 2025
95%
AIME 2025: アメリカ招待数学試験. 名門AIME試験からの競技レベルの数学問題。 Gemini 3.1 Flash Live Previewはこのベンチマークで95%を記録しました。
MATH
100%
MATH: 数学問題解決. 代数、幾何、微積分などの分野をテストする包括的な数学ベンチマーク。 Gemini 3.1 Flash Live Previewはこのベンチマークで100%を記録しました。
GSM8k
99%
GSM8k: 小学校算数8K. 多段階推論を必要とする8,500問の小学校レベルの算数文章問題。 Gemini 3.1 Flash Live Previewはこのベンチマークで99%を記録しました。
MGSM
92%
MGSM: 多言語小学校算数. GSM8kベンチマークを10言語に翻訳したもの。 Gemini 3.1 Flash Live Previewはこのベンチマークで92%を記録しました。
MathVista
72%
MathVista: 数学的視覚推論. グラフや図などの視覚要素を含む数学問題を解く能力をテスト。 Gemini 3.1 Flash Live Previewはこのベンチマークで72%を記録しました。
SWE-Bench
81%
SWE-Bench: ソフトウェアエンジニアリングベンチマーク. AIモデルがオープンソースPythonプロジェクトの実際のGitHub課題を解決しようとする。 Gemini 3.1 Flash Live Previewはこのベンチマークで81%を記録しました。
HumanEval
73%
HumanEval: Pythonプログラミング問題. モデルが正しいPython関数実装を生成する必要がある164問の手書きプログラミング問題。 Gemini 3.1 Flash Live Previewはこのベンチマークで73%を記録しました。
LiveCodeBench
80%
LiveCodeBench: ライブコーディングベンチマーク. 継続的に更新される実世界のプログラミングチャレンジでコーディング能力をテスト。 Gemini 3.1 Flash Live Previewはこのベンチマークで80%を記録しました。
MMMU
69%
MMMU: マルチモーダル理解. 大学レベルの問題でビジョン言語モデルをテストする大規模多分野マルチモーダル理解ベンチマーク。 Gemini 3.1 Flash Live Previewはこのベンチマークで69%を記録しました。
MMMU Pro
60%
MMMU Pro: MMMUプロフェッショナル版. より挑戦的な問題とより厳格な評価を備えたMMMUの強化版。 Gemini 3.1 Flash Live Previewはこのベンチマークで60%を記録しました。
ChartQA
90%
ChartQA: チャート質問応答. チャートやグラフに表示された情報を理解し推論する能力をテスト。 Gemini 3.1 Flash Live Previewはこのベンチマークで90%を記録しました。
DocVQA
94%
DocVQA: ドキュメント視覚Q&A. ドキュメント画像から情報を抽出する能力をテストするドキュメント視覚質問応答ベンチマーク。 Gemini 3.1 Flash Live Previewはこのベンチマークで94%を記録しました。
Terminal-Bench
69%
Terminal-Bench: ターミナル/CLIタスク. コマンドライン操作を実行し、シェルスクリプトを書く能力をテスト。 Gemini 3.1 Flash Live Previewはこのベンチマークで69%を記録しました。
ARC-AGI
77%
ARC-AGI: 抽象化と推論. AGIのための抽象化と推論コーパス - 新しいパターン認識パズルで流動的知性をテスト。 Gemini 3.1 Flash Live Previewはこのベンチマークで77%を記録しました。

Gemini 3.1 Flash Live Previewについて

Gemini 3.1 Flash Live Previewの機能、特徴、そしてより良い結果を得るための方法について学びましょう。

Gemini 3.1 Flash Live Previewは、リアルタイムなスピーチ・トゥ・スピーチの対話のために設計された低latencyのmultimodal modelです。GoogleのGemini 3アーキテクチャ上で動作します。Sparse Mixture-of-Experts (MoE) デザインにより、inferenceコストを削減しながら高いパフォーマンスを維持しています。従来のモデルは音声認識を経てテキスト生成を行っていましたが、本モデルは音声ストリームをネイティブに処理します。音調、感情、背景ノイズといった音響的なニュアンスを検出し、自然なやり取りを実現します。詳細は公式ドキュメントをご覧ください。

開発者は、数値的精度と即時フィードバックを必要とする音声ファーストのアプリケーションにこのモデルを使用します。minimalからhighまで調整可能なthinkingレベルをサポートしており、ユーザーはreasoningの深さとlatency要件のバランスを取ることができます。131,072 tokenのcontext windowとテキスト、画像、ビデオへの対応により、多用途なエンジンとして機能します。ターゲットとなるユースケースには、リアルタイムエージェント、自動カスタマーサポート、共同コーディング環境が含まれます。

割り込み処理とノイズフィルタリングにより、現実世界での展開にも適しています。このモデルは会話の流れを維持しながらサイレンや雑踏の音を無視します。開発者はLive APIを介してこのモデルにアクセスし、別の文字起こしサービスを必要とせずにモバイルアプリやキオスクアプリケーションを構築できます。

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Previewのユースケース

Gemini 3.1 Flash Live Previewを使って素晴らしい結果を得るさまざまな方法を発見してください。

リアルタイム音声エージェント

ホスピタリティ、旅行、物流サポート向けに、ユーザーの音声に即座に応答する会話型AIを構築します。

ライブMultimodalコーチング

ユーザーのカメラ映像と音声を同時に分析し、フィットネスや技術トレーニングを即座に提供します。

共同コーディングアシスタント

継続的な音声指示と画面共有を通じて、IDEにコードのリファクタリングやUIコンポーネントの更新を指示します。

低latency翻訳

感情的なコンテキストを維持したままスピーチ・トゥ・スピーチ翻訳を行い、言語の壁を越えた会話を促進します。

騒音環境でのサポート

サイレンや雑踏の騒音をフィルタリングする必要がある、交通量の多い都市部のカスタマーサービスキオスクを強化します。

インタラクティブなNPCゲーミング

自然な音声の抑揚で応答し、プレイヤーの身体的な動きに反応するNPCを駆動します。

強み

制限

ネイティブ音声処理: 純粋なスピーチ・トゥ・スピーチで動作し、テキストベースのmodelが見逃してしまう苛立ちや皮肉といった言語のニュアンスを検出します。
同期的なツール使用: function callingが順次実行されるため、ツールからの応答を待機している間、モデルは完全に発話を停止します。
高速パフォーマンス: 前世代と比較して2.5倍高速なTime to First Token (TTFT) を実現しています。
低いゼロショット論理性能: 複雑な博士レベルのタスクにおいて、純粋なreasoningスコアはフラッグシップであるGemini 3.1 Proを下回ります。
強力なノイズフィルタリング: レストランや交通量の多い道路のような騒音環境下でも、Big Bench Audioで95.9%の精度を維持します。
料金体系の複雑さ: テキスト、音声、ビデオごとに複数の料金ティアがあるため、multimodalアプリケーションの予算予測が困難です。
設定可能なReasoning: 開発者が 'thinkingLevel' を調整することで、論理性と速度の最適なバランスを見つけることができます。
プレビュー版としての制限: 現在プレビュー版であるため、レート制限の変動や予告なしの挙動調整が行われる可能性があります。

APIクイックスタート

google/gemini-3.1-flash-live-preview

ドキュメントを見る
google SDK
import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

SDKをインストールして、数分でAPIコールを開始しましょう。

Gemini 3.1 Flash Live Previewについてのユーザーの声

Gemini 3.1 Flash Live Previewについてコミュニティがどう思っているか見てください

Gemini 3.1 Flash-Liteが登場…これまでで最も高速でコスト効率の高いGemini 3シリーズモデルだ。
BuildwithVignesh
reddit
2.5 Flashの品質とFlash-Liteのコストを両立。リアルタイム対話向けに最適化された低latencyのスピーチ・トゥ・スピーチモデル。
Google AI
twitter
3 Flashはcontextが増えるにつれて性能が低下するが、リアルタイム応答性という点では大幅な改善だ。
Pasto_Shouwa
reddit
Googleは3.1 Flashで入力tokenのマージンを本当に絞り込んでいる。単純なエージェントにこれ以外を使う理由を見つけるのが難しくなっている。
AI_Dev_Master
hackernews
純粋なスピーチ・トゥ・スピーチのアーキテクチャは、チェーン化された文字起こしモデルで起こる気まずい間を完全に排除してくれる。
AIExplorer
youtube
新しいGemini 3.1 Flash Live Previewをテスト中。設定可能なthinkingレベルは、速度とreasoningのバランスを取るのに非常に役立つ。
DevGuru_X
twitter

Gemini 3.1 Flash Live Previewについての動画

Gemini 3.1 Flash Live Previewについてのチュートリアル、レビュー、ディスカッションを見る

「話しかけると即座に応答します。ラグも読み込みもなく、変な間もありません。まるで本物の人間と話しているようです。」

「Big Benchオーディオbenchmarkで95.9%を記録。音声reasoningにおいてクラス最高水準です。」

「指示を出して待つのではなく、リアルタイムで一緒に構築していく感覚です。」

「モデルはコードを書いている間あなたの画面を見て、変更点について話しかけてくれます。」

「料金はテキストと音声に分かれているので、コスト計算は注意が必要です。」

「これはあなたのトーン、ペース、気分を拾います。苛立ちや困惑も検知します。」

「Gemini 3.1 Flash Liveは最も困難なAI音声benchmarkで世界1位を記録しました。」

「複雑なトピックも実際に理解します。AIのreasoningレベルを追加できるのです。」

「文章の途中で割り込んでも、すぐに止まって新しい指示を聞いてくれます。」

「128K context windowのおかげで、30分間の会話の冒頭も記憶しています。」

「もう音声認識をしてからテキスト生成するのではなく、直接スピーチ・トゥ・スピーチを行っています。」

「エージェントが騒がしい環境、例えば道路脇や混雑したレストランでも聞き取れる点は非常に優れています。」

「遮ったときに話をやめるスピードが、本当に印象的でした。」

「これをローカルなコードエージェントと組み合わせれば、ソフトウェア開発を文字通り音声コマンドで制御できます。」

「Time to First Tokenは前世代より約2.5倍速くなっています。」

プロンプト以上のもの

ワークフローを強化する AI自動化

AutomatioはAIエージェント、ウェブ自動化、スマート統合のパワーを組み合わせ、より短時間でより多くのことを達成するお手伝いをします。

AIエージェント
ウェブ自動化
スマートワークフロー

Gemini 3.1 Flash Live Previewのプロのヒント

Gemini 3.1 Flash Live Previewを最大限に活用し、より良い結果を得るための専門家のヒント。

Thinkingレベルの調整

最速の音声応答には 'thinkingLevel' を 'minimal' に設定し、複雑なマルチステップの論理タスクには 'high' に設定してください。

増分更新(Incremental Updates)の利用

アクティブな音声セッション中に 'send_realtime_input' を介してテキスト更新を送信し、変化するコンテキストをモデルに提供します。

ターンカバレッジの最適化

包括的なmultimodal理解のために、ターンカバレッジを 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' に設定してください。

初期コンテキストのシード

Live APIセッションを開始する前に 'send_client_content' を使用して会話履歴を確立し、継続性を向上させます。

お客様の声

ユーザーの声

ワークフローを変革した何千人もの満足したユーザーに加わりましょう

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

関連 AI Models

google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M

Gemini 3.1 Flash Live Previewについてのよくある質問

Gemini 3.1 Flash Live Previewに関するよくある質問への回答を見つけてください