پنجره context مدل Gemini 3.1 Flash Live چقدر است؟

این مدل از یک context window ورودی ۱۳۱,۰۷۲ token و یک پنجره خروجی ۶۵,۵۳۶ token پشتیبانی میکند. این ویژگی به مدل امکان میدهد مکالمات طولانی را به خاطر بسپارد و تاریخچه اسناد حجیم را در طول یک جلسه زنده پردازش کند.

هزینه API چقدر است؟

هزینه ورودی متن ۰.۷۵ دلار به ازای هر ۱ میلیون token و خروجی ۴.۵۰ دلار است. هزینه ورودی صوتی تقریباً ۰.۰۰۵ دلار در دقیقه و هزینه خروجی صوتی ۰.۰۱۸ دلار در دقیقه است.

آیا این مدل از function calling پشتیبانی میکند؟

بله، Gemini 3.1 Flash Live از فراخوانی همزمان تابع (function calling) پشتیبانی میکند. مدل پاسخ صوتی خود را برای اجرای ابزار متوقف کرده و پیش از ادامه، منتظر خروجی ابزار میماند.

فرآیند تفکر (thinking) در این مدل چگونه کار میکند؟

مدل Gemini 3.1 Flash Live به جای بودجه ثابت token، از سطوح reasoning قابل تنظیم (حداقلی، پایین، متوسط، بالا) استفاده میکند. تنظیم پیشفرض برای اطمینان از کمترین latency در اپلیکیشنهای صوتی، حالت حداقلی است.

آیا میتواند صفحه نمایش من را به صورت بلادرنگ ببیند؟

بله، این مدل میتواند فریمهای ویدیویی پیوسته را از طریق Live API دریافت کند. این قابلیت به مدل اجازه میدهد در حین صحبت با کاربر، محتوای صفحه نمایش یا فید دوربین را تحلیل کند.

آیا سطح رایگان (free tier) در دسترس است؟

بله، Google AI Studio دسترسی رایگانی به پیشنمایش Gemini 3.1 Flash Live برای تست و توسعه ارائه میدهد. دادههای سطح رایگان ممکن است برای بهبود محصولات Google استفاده شوند.

کدام زبانها پشتیبانی میشوند؟

این مدل از بیش از ۷۰ زبان برای متن و صوت پشتیبانی میکند. این پوشش زبانی گسترده، امکان ترجمه بلادرنگ جهانی و خدمات مشتری بومیسازی شده را فراهم میکند.

Gemini 3.1 Flash Live Preview

پیش‌نمایش Gemini 3.1 Flash Live، مدل audio-to-audio با latency فوق‌العاده پایین گوگل است که دارای پنجره context 131K، استدلال چندوجهی با دقت بالا و...

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time

googleGemini۲۶ مارس ۲۰۲۶

پنجره زمینه

131Kتوکن

حداکثر خروجی

66Kتوکن

قیمت ورودی

$0.75/ 1M

قیمت خروجی

$4.50/ 1M

حالت:TextImageAudioVideo

قابلیت‌ها:بیناییابزارهااستریمینگاستدلال

معیارها

GPQA

94%

HLE

44%

MMLU

91%

MMLU Pro

89%

SimpleQA

80%

IFEval

88%

AIME 2025

95%

MATH

100%

GSM8k

99%

MGSM

92%

MathVista

72%

SWE-Bench

81%

HumanEval

73%

LiveCodeBench

80%

MMMU

69%

MMMU Pro

60%

ChartQA

90%

DocVQA

94%

Terminal-Bench

69%

ARC-AGI

77%

مشاهده مستندات API

درباره Gemini 3.1 Flash Live Preview

درباره قابلیت‌های Gemini 3.1 Flash Live Preview، ویژگی‌ها و نحوه کمک به شما در دستیابی به نتایج بهتر بیاموزید.

پیش‌نمایش Gemini 3.1 Flash Live یک مدل چندوجهی با latency پایین است که برای مکالمه بلادرنگ audio-to-audio طراحی شده است. این مدل بر پایه معماری Gemini 3 گوگل عمل می‌کند. طراحی Mixture-of-Experts (MoE) پراکنده، ضمن کاهش هزینه‌های inference، عملکرد بالایی را حفظ می‌کند. مدل‌های سنتی فرآیند تبدیل گفتار به متن و سپس متن به گفتار را انجام می‌دهند، اما این مدل جریان‌های صوتی را به صورت بومی پردازش می‌کند. مدل مذکور ظرافت‌های آکوستیک مانند لحن، احساس و نویز پس‌زمینه را برای تعاملات طبیعی تشخیص می‌دهد. جزئیات بیشتر را در مستندات رسمی مطالعه کنید.

توسعه‌دهندگان از این مدل برای اپلیکیشن‌های صوت‌محور که نیاز به دقت عددی و بازخورد فوری دارند، استفاده می‌کنند. این مدل از سطوح تفکر قابل تنظیم از حداقلی تا بالا پشتیبانی می‌کند که به کاربران اجازه می‌دهد عمق استدلال را در مقابل نیازهای latency متعادل کنند. با یک پنجره context ۱۳۱,۰۷۲ token و پشتیبانی از متن، تصویر و ویدیو، این مدل به عنوان یک موتور همه کاره عمل می‌کند. موارد استفاده هدف شامل ایجنت‌های بلادرنگ، پشتیبانی مشتری خودکار و محیط‌های کدنویسی مشارکتی است.

مدیریت قطع کردن صحبت و فیلتر نویز، آن را برای استقرار در دنیای واقعی مناسب می‌سازد. مدل صدای آژیر و شلوغی جمعیت را نادیده گرفته و جریان مکالمه را حفظ می‌کند. توسعه‌دهندگان از طریق Live API به آن دسترسی پیدا می‌کنند تا اپلیکیشن‌های موبایل و کیوسک را بدون نیاز به سرویس‌های رونویسی مجزا بسازند.

موارد استفاده برای Gemini 3.1 Flash Live Preview

روش‌های مختلف استفاده از Gemini 3.1 Flash Live Preview برای دستیابی به نتایج عالی را کشف کنید.

ایجنت‌های صوتی بلادرنگ

ساخت هوش مصنوعی مکالمه‌محوری که به صورت آنی به گفتار کاربر برای پشتیبانی در حوزه‌های هتلداری، سفر و لجستیک پاسخ می‌دهد.

مربی‌گری چندوجهی زنده

ارائه آموزش‌های فوری ورزشی یا فنی از طریق تحلیل همزمان فید دوربین و صدای کاربر.

دستیارهای برنامه‌نویسی مشارکتی

هدایت یک IDE برای بازنویسی کد و به‌روزرسانی کامپوننت‌های رابط کاربری از طریق دستورات صوتی پیوسته و اشتراک‌گذاری صفحه.

ترجمه با latency پایین

تسهیل مکالمات میان‌زبانی از طریق ترجمه گفتار به گفتار با حفظ لحن احساسی.

پشتیبانی در محیط‌های پر سروصدا

فعال‌سازی کیوسک‌های خدمات مشتری در مناطق پرتردد شهری که سیستم باید صدای آژیر و شلوغی جمعیت را فیلتر کند.

بازی‌های تعاملی با NPC

کنترل شخصیت‌های غیر‌بازیکن (NPC) که با لحن صوتی طبیعی پاسخ می‌دهند و به حرکات فیزیکی بازیکن واکنش نشان می‌دهند.

نقاط قوت

محدودیت‌ها

پردازش صوتی بومی: عملکرد دقیق به صورت speech-to-speech، تشخیص ظرافت‌های کلامی مانند ناامیدی یا کنایه که مدل‌های متنی آن‌ها را از دست می‌دهند.

استفاده همزمان از ابزارها: فراخوانی تابع به صورت متوالی عمل می‌کند، به این معنی که مدل هنگام انتظار برای پاسخ ابزار، صحبت کردن را کاملاً متوقف می‌کند.

عملکرد با سرعت بالا: دارای زمان تا اولین token (TTFT) به میزان ۲.۵ برابر سریع‌تر نسبت به نسخه‌های قبلی.

منطق کمتر در حالت Zero-Shot: امتیازات استدلال خام برای وظایف پیچیده در سطح دکترا پایین‌تر از مدل flagship Gemini 3.1 Pro است.

فیلتر نویز قدرتمند: حفظ دقت ۹۵.۹ درصدی در Big Bench Audio حتی در محیط‌های پر سر‌وصدا مانند رستوران‌ها یا جاده‌های شلوغ.

پیچیدگی قیمت‌گذاری: لایه‌های قیمتی متعدد برای متن، صوت و ویدیو، پیش‌بینی بودجه برای اپلیکیشن‌های multimodal را دشوار می‌کند.

استدلال قابل تنظیم: به توسعه‌دهندگان اجازه می‌دهد تا 'thinkingLevel' را برای یافتن تعادل بهینه بین منطق و سرعت، کم یا زیاد کنند.

وضعیت پیش‌نمایش: در حال حاضر در مرحله پیش‌نمایش است که توسعه‌دهندگان را در معرض نوسانات نرخ محدودیت (rate limit) و تغییرات رفتاری اعلام نشده قرار می‌دهد.

شروع سریع API

google/gemini-3.1-flash-live-preview

مشاهده مستندات

google SDK

import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

SDK را نصب کنید و در عرض چند دقیقه شروع به فراخوانی API کنید.

مردم درباره Gemini 3.1 Flash Live Preview چه می‌گویند

ببینید جامعه درباره Gemini 3.1 Flash Live Preview چه فکر می‌کند

“Gemini 3.1 Flash-Lite در حال عرضه است... سریع‌ترین و مقرون‌به‌صرفه‌ترین مدل سری Gemini 3 تا به امروز.”

— BuildwithVignesh

“کیفیتی برابر با 2.5 Flash با هزینه Flash-Lite. مدل audio-to-audio با latency پایین که برای مکالمه بلادرنگ بهینه‌سازی شده است.”

— Google AI

twitter

“مدل 3 Flash با افزایش context افت کیفیت زیادی دارد، اما برای پاسخگویی بلادرنگ پیشرفت عظیمی محسوب می‌شود.”

— Pasto_Shouwa

“گوگل واقعاً حاشیه سود را روی tokenهای ورودی با 3.1 Flash کاهش داده است. توجیه استفاده از مدل‌های دیگر برای ایجنت‌های ساده سخت شده است.”

— AI_Dev_Master

hackernews

“معماری مستقیم speech-to-speech به کلی مکث‌های ناشیانه مدل‌های زنجیره‌ای رونویسی را از بین می‌برد.”

— AIExplorer

youtube

“در حال تست پیش‌نمایش Gemini 3.1 Flash Live جدید هستم. سطوح تفکر قابل تنظیم برای متعادل کردن سرعت و استدلال بسیار مفید هستند.”

— DevGuru_X

twitter

ویدیوهای درباره Gemini 3.1 Flash Live Preview

آموزش‌ها، بررسی‌ها و بحث‌های درباره Gemini 3.1 Flash Live Preview را تماشا کنید

“شما صحبت می‌کنید، آن بلافاصله پاسخ می‌دهد. بدون تاخیر، بدون بارگذاری، بدون مکث‌های عجیب. حس صحبت با یک انسان واقعی را دارد.”

“این مدل در بنچمارک صوتی Big Bench امتیاز ۹۵.۹ را کسب کرده است. این بهترین عملکرد در کلاس استدلال صوتی است.”

“شما دستور نمی‌دهید و منتظر نمی‌مانید. شما در حال هم‌ساختن با آن به صورت بلادرنگ هستید.”

“مدل می‌تواند صفحه شما را در حین کدنویسی ببیند و در مورد تغییرات با شما صحبت کند.”

“قیمت‌گذاری بین متن و صوت تقسیم شده است، بنابراین باید هزینه‌های خود را با دقت محاسبه کنید.”

“این مدل لحن، سرعت و حال و هوای شما را درک می‌کند. ناامیدی یا سردرگمی را تشخیص می‌دهد.”

“Gemini 3.1 Flash Live در سخت‌ترین بنچمارک‌های صوتی هوش مصنوعی، رتبه اول جهان را کسب کرده است.”

“واقعاً مباحث پیچیده را می‌فهمد. می‌توانید سطح تفکر را برای هوش مصنوعی خود تنظیم کنید.”

“می‌توانید وسط جمله حرفش را قطع کنید و بلافاصله متوقف شده و به دستور جدید گوش می‌دهد.”

“پنجره context 128K به این معنی است که ابتدای یک مکالمه ۳۰ دقیقه‌ای را به خاطر می‌سپارد.”

“دیگر نیازی به تبدیل گفتار به متن و سپس متن به گفتار نیست. این مستقیماً گفتار به گفتار است.”

“توانایی ایجنت برای گوش دادن در محیط‌های پر سر و صدا... مثل کنار جاده یا یک رستوران شلوغ.”

“سرعت توقف صحبت کردن پس از قطع کردن حرفش، بسیار تاثیرگذار بود.”

“می‌توانید این را با ایجنت‌های کد محلی ترکیب کنید تا عملاً با فرمان صوتی توسعه نرم‌افزار خود را انجام دهید.”

“زمان تا اولین token حدود ۲.۵ برابر سریع‌تر از نسل قبل است.”

بیشتر از فقط پرامپت

گردش کار خود را با اتوماسیون AI

Automatio قدرت عامل‌های AI، اتوماسیون وب و ادغام‌های هوشمند را ترکیب می‌کند تا به شما کمک کند در زمان کمتر بیشتر انجام دهید.

عامل‌های AI

اتوماسیون وب

گردش‌کارهای هوشمند

شروع رایگان

نکات حرفه‌ای برای Gemini 3.1 Flash Live Preview

نکات تخصصی برای کمک به شما در استفاده حداکثری از Gemini 3.1 Flash Live Preview و دستیابی به نتایج بهتر.

تنظیم سطوح تفکر (Thinking Levels)

برای پاسخ‌های صوتی سریع‌تر، thinkingLevel را روی 'minimal' و برای وظایف منطقی پیچیده چندمرحله‌ای روی 'high' تنظیم کنید.

استفاده از به‌روزرسانی‌های افزایشی

در طول جلسات صوتی فعال، از طریق 'send_realtime_input' به‌روزرسانی‌های متنی ارسال کنید تا context در حال تغییر را برای مدل فراهم کنید.

بهینه‌سازی پوشش نوبت (Turn Coverage)

برای درک کامل multimodal، پوشش نوبت را روی 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' تنظیم کنید.

بارگذاری اولیه Context

پیش از شروع یک جلسه Live API، از 'send_client_content' برای ایجاد تاریخچه مکالمه جهت تداوم بهتر استفاده کنید.

نظرات

کاربران ما چه می‌گویند

به هزاران کاربر راضی که گردش کار خود را متحول کرده‌اند بپیوندید

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Mohammed Ibrahim

CEO, qannas.pro

Ben Bressington

CTO, AiChatSolutions

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

مرتبط AI Models

Claude Opus 4.7

Anthropic

Claude Opus 4.7 is Anthropic's flagship model with a 1-million-token context, adaptive reasoning, and 3.3x vision resolution for enterprise-scale agents.

1M context

$5.00/$25.00/1M

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context

$2.00/$12.00/1M

GPT-5.5

OpenAI

GPT-5.5 is OpenAI's flagship frontier model with a 1M context window and five reasoning effort levels, optimized for autonomous agentic workflows and coding.

1M context

$5.00/$30.00/1M

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context

$3.00/$15.00/1M

Kimi K3

Moonshot

Kimi K3 is Moonshot AI's 2.8T MoE model with a 1M token context window, native multimodal vision, and frontier-tier coding performance for complex agents.

1M context

$3.00/$15.00/1M

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context

$21.00/$168.00/1M

Qwen 3.7 Max

alibaba

Qwen 3.7 Max is Alibaba’s flagship AI model for deep reasoning and autonomous agent tasks, featuring a 256k context window and top-tier coding performance.

256K context

$1.20/$6.00/1M

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context

$2.00/$12.00/1M

سوالات متداول درباره Gemini 3.1 Flash Live Preview

پاسخ سوالات رایج درباره Gemini 3.1 Flash Live Preview را بیابید

Gemini 3.1 Flash Live Preview

درباره Gemini 3.1 Flash Live Preview

موارد استفاده برای Gemini 3.1 Flash Live Preview

ایجنت‌های صوتی بلادرنگ

مربی‌گری چندوجهی زنده

دستیارهای برنامه‌نویسی مشارکتی

ترجمه با latency پایین

پشتیبانی در محیط‌های پر سروصدا

بازی‌های تعاملی با NPC

نقاط قوت

محدودیت‌ها

شروع سریع API

مردم درباره Gemini 3.1 Flash Live Preview چه می‌گویند

ویدیوهای درباره Gemini 3.1 Flash Live Preview

گردش کار خود را با اتوماسیون AI

نکات حرفه‌ای برای Gemini 3.1 Flash Live Preview

تنظیم سطوح تفکر (Thinking Levels)

استفاده از به‌روزرسانی‌های افزایشی

بهینه‌سازی پوشش نوبت (Turn Coverage)

بارگذاری اولیه Context

کاربران ما چه می‌گویند

مرتبط AI Models

Claude Opus 4.7

Gemini 3.1 Pro

GPT-5.5

Grok-3

Kimi K3

GPT-5.2 Pro

Qwen 3.7 Max

Gemini 3 Pro

سوالات متداول درباره Gemini 3.1 Flash Live Preview

پنجره context مدل Gemini 3.1 Flash Live چقدر است؟

هزینه API چقدر است؟

آیا این مدل از function calling پشتیبانی می‌کند؟

فرآیند تفکر (thinking) در این مدل چگونه کار می‌کند؟

آیا می‌تواند صفحه نمایش من را به صورت بلادرنگ ببیند؟

آیا سطح رایگان (free tier) در دسترس است؟

کدام زبان‌ها پشتیبانی می‌شوند؟