google

Gemini 3.1 Flash Live Preview

پیش‌نمایش Gemini 3.1 Flash Live، مدل audio-to-audio با latency فوق‌العاده پایین گوگل است که دارای پنجره context 131K، استدلال چندوجهی با دقت بالا و...

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time
google logogoogleGemini۲۶ مارس ۲۰۲۶
پنجره زمینه
131Kتوکن
حداکثر خروجی
66Kتوکن
قیمت ورودی
$0.75/ 1M
قیمت خروجی
$4.50/ 1M
حالت:TextImageAudioVideo
قابلیت‌ها:بیناییابزارهااستریمینگاستدلال
معیارها
GPQA
94%
GPQA: سوالات علمی سطح تحصیلات تکمیلی. معیار دقیق با 448 سوال از زیست‌شناسی، فیزیک و شیمی. کارشناسان دکترا فقط 65-74% دقت دارند. Gemini 3.1 Flash Live Preview امتیاز 94% در این معیار کسب کرد.
HLE
44%
HLE: استدلال سطح کارشناسی. توانایی مدل در نشان دادن استدلال سطح کارشناسی در حوزه‌های تخصصی را آزمایش می‌کند. Gemini 3.1 Flash Live Preview امتیاز 44% در این معیار کسب کرد.
MMLU
91%
MMLU: درک زبان چندوظیفه‌ای گسترده. معیار جامع با 16000 سوال در 57 موضوع دانشگاهی. Gemini 3.1 Flash Live Preview امتیاز 91% در این معیار کسب کرد.
MMLU Pro
89%
MMLU Pro: نسخه حرفه‌ای MMLU. نسخه بهبود یافته MMLU با 12032 سوال و فرمت 10 گزینه‌ای سخت‌تر. Gemini 3.1 Flash Live Preview امتیاز 89% در این معیار کسب کرد.
SimpleQA
80%
SimpleQA: معیار دقت واقعی. توانایی مدل در ارائه پاسخ‌های دقیق و واقعی را آزمایش می‌کند. Gemini 3.1 Flash Live Preview امتیاز 80% در این معیار کسب کرد.
IFEval
88%
IFEval: ارزیابی پیروی از دستورالعمل. اندازه‌گیری می‌کند مدل چقدر خوب از دستورالعمل‌ها و محدودیت‌های خاص پیروی می‌کند. Gemini 3.1 Flash Live Preview امتیاز 88% در این معیار کسب کرد.
AIME 2025
95%
AIME 2025: امتحان ریاضی دعوتی آمریکا. مسائل ریاضی سطح مسابقه از امتحان معتبر AIME. Gemini 3.1 Flash Live Preview امتیاز 95% در این معیار کسب کرد.
MATH
100%
MATH: حل مسئله ریاضی. معیار جامع ریاضی که حل مسئله در جبر، هندسه، حساب دیفرانسیل را آزمایش می‌کند. Gemini 3.1 Flash Live Preview امتیاز 100% در این معیار کسب کرد.
GSM8k
99%
GSM8k: ریاضی دبستان 8K. 8500 مسئله ریاضی کلامی سطح دبستان. Gemini 3.1 Flash Live Preview امتیاز 99% در این معیار کسب کرد.
MGSM
92%
MGSM: ریاضی دبستان چندزبانه. معیار GSM8k ترجمه شده به 10 زبان. Gemini 3.1 Flash Live Preview امتیاز 92% در این معیار کسب کرد.
MathVista
72%
MathVista: استدلال بصری ریاضی. توانایی حل مسائل ریاضی با عناصر بصری را آزمایش می‌کند. Gemini 3.1 Flash Live Preview امتیاز 72% در این معیار کسب کرد.
SWE-Bench
81%
SWE-Bench: معیار مهندسی نرم‌افزار. مدل‌های AI سعی می‌کنند مسائل واقعی GitHub را در پروژه‌های Python حل کنند. Gemini 3.1 Flash Live Preview امتیاز 81% در این معیار کسب کرد.
HumanEval
73%
HumanEval: مسائل برنامه‌نویسی Python. 164 مسئله برنامه‌نویسی که مدل‌ها باید پیاده‌سازی صحیح توابع Python تولید کنند. Gemini 3.1 Flash Live Preview امتیاز 73% در این معیار کسب کرد.
LiveCodeBench
80%
LiveCodeBench: معیار کدنویسی زنده. توانایی‌های کدنویسی را در چالش‌های برنامه‌نویسی واقعی به‌روز شده آزمایش می‌کند. Gemini 3.1 Flash Live Preview امتیاز 80% در این معیار کسب کرد.
MMMU
69%
MMMU: درک چندحالته. معیار درک چندحالته در 30 موضوع دانشگاهی. Gemini 3.1 Flash Live Preview امتیاز 69% در این معیار کسب کرد.
MMMU Pro
60%
MMMU Pro: نسخه حرفه‌ای MMMU. نسخه بهبود یافته MMMU با سوالات چالش‌برانگیزتر. Gemini 3.1 Flash Live Preview امتیاز 60% در این معیار کسب کرد.
ChartQA
90%
ChartQA: پرسش و پاسخ نمودار. توانایی درک و تحلیل اطلاعات از نمودارها را آزمایش می‌کند. Gemini 3.1 Flash Live Preview امتیاز 90% در این معیار کسب کرد.
DocVQA
94%
DocVQA: پرسش و پاسخ بصری سند. توانایی استخراج اطلاعات از تصاویر سند را آزمایش می‌کند. Gemini 3.1 Flash Live Preview امتیاز 94% در این معیار کسب کرد.
Terminal-Bench
69%
Terminal-Bench: وظایف ترمینال/CLI. توانایی انجام عملیات خط فرمان را آزمایش می‌کند. Gemini 3.1 Flash Live Preview امتیاز 69% در این معیار کسب کرد.
ARC-AGI
77%
ARC-AGI: انتزاع و استدلال. هوش سیال را از طریق پازل‌های تشخیص الگوی جدید آزمایش می‌کند. Gemini 3.1 Flash Live Preview امتیاز 77% در این معیار کسب کرد.

درباره Gemini 3.1 Flash Live Preview

درباره قابلیت‌های Gemini 3.1 Flash Live Preview، ویژگی‌ها و نحوه کمک به شما در دستیابی به نتایج بهتر بیاموزید.

پیش‌نمایش Gemini 3.1 Flash Live یک مدل چندوجهی با latency پایین است که برای مکالمه بلادرنگ audio-to-audio طراحی شده است. این مدل بر پایه معماری Gemini 3 گوگل عمل می‌کند. طراحی Mixture-of-Experts (MoE) پراکنده، ضمن کاهش هزینه‌های inference، عملکرد بالایی را حفظ می‌کند. مدل‌های سنتی فرآیند تبدیل گفتار به متن و سپس متن به گفتار را انجام می‌دهند، اما این مدل جریان‌های صوتی را به صورت بومی پردازش می‌کند. مدل مذکور ظرافت‌های آکوستیک مانند لحن، احساس و نویز پس‌زمینه را برای تعاملات طبیعی تشخیص می‌دهد. جزئیات بیشتر را در مستندات رسمی مطالعه کنید.

توسعه‌دهندگان از این مدل برای اپلیکیشن‌های صوت‌محور که نیاز به دقت عددی و بازخورد فوری دارند، استفاده می‌کنند. این مدل از سطوح تفکر قابل تنظیم از حداقلی تا بالا پشتیبانی می‌کند که به کاربران اجازه می‌دهد عمق استدلال را در مقابل نیازهای latency متعادل کنند. با یک پنجره context ۱۳۱,۰۷۲ token و پشتیبانی از متن، تصویر و ویدیو، این مدل به عنوان یک موتور همه کاره عمل می‌کند. موارد استفاده هدف شامل ایجنت‌های بلادرنگ، پشتیبانی مشتری خودکار و محیط‌های کدنویسی مشارکتی است.

مدیریت قطع کردن صحبت و فیلتر نویز، آن را برای استقرار در دنیای واقعی مناسب می‌سازد. مدل صدای آژیر و شلوغی جمعیت را نادیده گرفته و جریان مکالمه را حفظ می‌کند. توسعه‌دهندگان از طریق Live API به آن دسترسی پیدا می‌کنند تا اپلیکیشن‌های موبایل و کیوسک را بدون نیاز به سرویس‌های رونویسی مجزا بسازند.

Gemini 3.1 Flash Live Preview

موارد استفاده برای Gemini 3.1 Flash Live Preview

روش‌های مختلف استفاده از Gemini 3.1 Flash Live Preview برای دستیابی به نتایج عالی را کشف کنید.

ایجنت‌های صوتی بلادرنگ

ساخت هوش مصنوعی مکالمه‌محوری که به صورت آنی به گفتار کاربر برای پشتیبانی در حوزه‌های هتلداری، سفر و لجستیک پاسخ می‌دهد.

مربی‌گری چندوجهی زنده

ارائه آموزش‌های فوری ورزشی یا فنی از طریق تحلیل همزمان فید دوربین و صدای کاربر.

دستیارهای برنامه‌نویسی مشارکتی

هدایت یک IDE برای بازنویسی کد و به‌روزرسانی کامپوننت‌های رابط کاربری از طریق دستورات صوتی پیوسته و اشتراک‌گذاری صفحه.

ترجمه با latency پایین

تسهیل مکالمات میان‌زبانی از طریق ترجمه گفتار به گفتار با حفظ لحن احساسی.

پشتیبانی در محیط‌های پر سروصدا

فعال‌سازی کیوسک‌های خدمات مشتری در مناطق پرتردد شهری که سیستم باید صدای آژیر و شلوغی جمعیت را فیلتر کند.

بازی‌های تعاملی با NPC

کنترل شخصیت‌های غیر‌بازیکن (NPC) که با لحن صوتی طبیعی پاسخ می‌دهند و به حرکات فیزیکی بازیکن واکنش نشان می‌دهند.

نقاط قوت

محدودیت‌ها

پردازش صوتی بومی: عملکرد دقیق به صورت speech-to-speech، تشخیص ظرافت‌های کلامی مانند ناامیدی یا کنایه که مدل‌های متنی آن‌ها را از دست می‌دهند.
استفاده همزمان از ابزارها: فراخوانی تابع به صورت متوالی عمل می‌کند، به این معنی که مدل هنگام انتظار برای پاسخ ابزار، صحبت کردن را کاملاً متوقف می‌کند.
عملکرد با سرعت بالا: دارای زمان تا اولین token (TTFT) به میزان ۲.۵ برابر سریع‌تر نسبت به نسخه‌های قبلی.
منطق کمتر در حالت Zero-Shot: امتیازات استدلال خام برای وظایف پیچیده در سطح دکترا پایین‌تر از مدل flagship Gemini 3.1 Pro است.
فیلتر نویز قدرتمند: حفظ دقت ۹۵.۹ درصدی در Big Bench Audio حتی در محیط‌های پر سر‌وصدا مانند رستوران‌ها یا جاده‌های شلوغ.
پیچیدگی قیمت‌گذاری: لایه‌های قیمتی متعدد برای متن، صوت و ویدیو، پیش‌بینی بودجه برای اپلیکیشن‌های multimodal را دشوار می‌کند.
استدلال قابل تنظیم: به توسعه‌دهندگان اجازه می‌دهد تا 'thinkingLevel' را برای یافتن تعادل بهینه بین منطق و سرعت، کم یا زیاد کنند.
وضعیت پیش‌نمایش: در حال حاضر در مرحله پیش‌نمایش است که توسعه‌دهندگان را در معرض نوسانات نرخ محدودیت (rate limit) و تغییرات رفتاری اعلام نشده قرار می‌دهد.

شروع سریع API

google/gemini-3.1-flash-live-preview

مشاهده مستندات
google SDK
import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

SDK را نصب کنید و در عرض چند دقیقه شروع به فراخوانی API کنید.

مردم درباره Gemini 3.1 Flash Live Preview چه می‌گویند

ببینید جامعه درباره Gemini 3.1 Flash Live Preview چه فکر می‌کند

Gemini 3.1 Flash-Lite در حال عرضه است... سریع‌ترین و مقرون‌به‌صرفه‌ترین مدل سری Gemini 3 تا به امروز.
BuildwithVignesh
reddit
کیفیتی برابر با 2.5 Flash با هزینه Flash-Lite. مدل audio-to-audio با latency پایین که برای مکالمه بلادرنگ بهینه‌سازی شده است.
Google AI
twitter
مدل 3 Flash با افزایش context افت کیفیت زیادی دارد، اما برای پاسخگویی بلادرنگ پیشرفت عظیمی محسوب می‌شود.
Pasto_Shouwa
reddit
گوگل واقعاً حاشیه سود را روی tokenهای ورودی با 3.1 Flash کاهش داده است. توجیه استفاده از مدل‌های دیگر برای ایجنت‌های ساده سخت شده است.
AI_Dev_Master
hackernews
معماری مستقیم speech-to-speech به کلی مکث‌های ناشیانه مدل‌های زنجیره‌ای رونویسی را از بین می‌برد.
AIExplorer
youtube
در حال تست پیش‌نمایش Gemini 3.1 Flash Live جدید هستم. سطوح تفکر قابل تنظیم برای متعادل کردن سرعت و استدلال بسیار مفید هستند.
DevGuru_X
twitter

ویدیوهای درباره Gemini 3.1 Flash Live Preview

آموزش‌ها، بررسی‌ها و بحث‌های درباره Gemini 3.1 Flash Live Preview را تماشا کنید

شما صحبت می‌کنید، آن بلافاصله پاسخ می‌دهد. بدون تاخیر، بدون بارگذاری، بدون مکث‌های عجیب. حس صحبت با یک انسان واقعی را دارد.

این مدل در بنچمارک صوتی Big Bench امتیاز ۹۵.۹ را کسب کرده است. این بهترین عملکرد در کلاس استدلال صوتی است.

شما دستور نمی‌دهید و منتظر نمی‌مانید. شما در حال هم‌ساختن با آن به صورت بلادرنگ هستید.

مدل می‌تواند صفحه شما را در حین کدنویسی ببیند و در مورد تغییرات با شما صحبت کند.

قیمت‌گذاری بین متن و صوت تقسیم شده است، بنابراین باید هزینه‌های خود را با دقت محاسبه کنید.

این مدل لحن، سرعت و حال و هوای شما را درک می‌کند. ناامیدی یا سردرگمی را تشخیص می‌دهد.

Gemini 3.1 Flash Live در سخت‌ترین بنچمارک‌های صوتی هوش مصنوعی، رتبه اول جهان را کسب کرده است.

واقعاً مباحث پیچیده را می‌فهمد. می‌توانید سطح تفکر را برای هوش مصنوعی خود تنظیم کنید.

می‌توانید وسط جمله حرفش را قطع کنید و بلافاصله متوقف شده و به دستور جدید گوش می‌دهد.

پنجره context 128K به این معنی است که ابتدای یک مکالمه ۳۰ دقیقه‌ای را به خاطر می‌سپارد.

دیگر نیازی به تبدیل گفتار به متن و سپس متن به گفتار نیست. این مستقیماً گفتار به گفتار است.

توانایی ایجنت برای گوش دادن در محیط‌های پر سر و صدا... مثل کنار جاده یا یک رستوران شلوغ.

سرعت توقف صحبت کردن پس از قطع کردن حرفش، بسیار تاثیرگذار بود.

می‌توانید این را با ایجنت‌های کد محلی ترکیب کنید تا عملاً با فرمان صوتی توسعه نرم‌افزار خود را انجام دهید.

زمان تا اولین token حدود ۲.۵ برابر سریع‌تر از نسل قبل است.

بیشتر از فقط پرامپت

گردش کار خود را با اتوماسیون AI

Automatio قدرت عامل‌های AI، اتوماسیون وب و ادغام‌های هوشمند را ترکیب می‌کند تا به شما کمک کند در زمان کمتر بیشتر انجام دهید.

عامل‌های AI
اتوماسیون وب
گردش‌کارهای هوشمند

نکات حرفه‌ای برای Gemini 3.1 Flash Live Preview

نکات تخصصی برای کمک به شما در استفاده حداکثری از Gemini 3.1 Flash Live Preview و دستیابی به نتایج بهتر.

تنظیم سطوح تفکر (Thinking Levels)

برای پاسخ‌های صوتی سریع‌تر، thinkingLevel را روی 'minimal' و برای وظایف منطقی پیچیده چندمرحله‌ای روی 'high' تنظیم کنید.

استفاده از به‌روزرسانی‌های افزایشی

در طول جلسات صوتی فعال، از طریق 'send_realtime_input' به‌روزرسانی‌های متنی ارسال کنید تا context در حال تغییر را برای مدل فراهم کنید.

بهینه‌سازی پوشش نوبت (Turn Coverage)

برای درک کامل multimodal، پوشش نوبت را روی 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' تنظیم کنید.

بارگذاری اولیه Context

پیش از شروع یک جلسه Live API، از 'send_client_content' برای ایجاد تاریخچه مکالمه جهت تداوم بهتر استفاده کنید.

نظرات

کاربران ما چه می‌گویند

به هزاران کاربر راضی که گردش کار خود را متحول کرده‌اند بپیوندید

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

مرتبط AI Models

google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M

سوالات متداول درباره Gemini 3.1 Flash Live Preview

پاسخ سوالات رایج درباره Gemini 3.1 Flash Live Preview را بیابید