ما هي سعة الـ context window في Gemini 3.1 Flash Live؟

يدعم الموديل context window للمدخلات بسعة 131,072 token ونافذة مخرجات بسعة 65,536 token. يتيح ذلك للموديل تذكر المحادثات الطويلة ومعالجة سجل مستندات كبير أثناء الجلسات المباشرة.

ما هي تكلفة الـ API؟

تبلغ تكلفة إدخال النص 0.75 دولار لكل مليون token، وتكلفة المخرجات 4.50 دولار. تبلغ تكلفة إدخال الصوت حوالي 0.005 دولار للدقيقة، بينما تبلغ تكلفة المخرجات الصوتية 0.018 دولار للدقيقة.

هل يدعم هذا الموديل الـ function calling؟

نعم، يدعم Gemini 3.1 Flash Live الـ function calling المتزامن. يتوقف الموديل عن الاستجابة الصوتية لتنفيذ الأداة وينتظر مخرجاتها قبل المتابعة.

كيف يعمل الـ thinking في هذا الموديل؟

يستخدم Gemini 3.1 Flash Live مستويات reasoning قابلة للضبط (أدنى، منخفض، متوسط، مرتفع) بدلاً من ميزانية ثابتة للـ tokens. الإعداد الافتراضي هو "أدنى" لضمان أقل latency ممكن في تطبيقات الصوت.

هل يمكنه رؤية شاشتي في الوقت الفعلي؟

نعم، يمكن للموديل استقبال إطارات فيديو متواصلة عبر الـ Live API. يسمح له ذلك بتحليل محتوى الشاشة أو تغذيات الكاميرا أثناء التحدث مع المستخدم.

هل يتوفر مستوى مجاني؟

نعم، توفر Google AI Studio وصولاً مجانياً إلى Gemini 3.1 Flash Live Preview للاختبار والتطوير. قد تُستخدم بيانات المستوى المجاني لتحسين منتجات Google.

ما هي اللغات المدعومة؟

يدعم الموديل أكثر من 70 لغة للنصوص والصوت. هذا النطاق الواسع يدعم الترجمة الفورية العالمية وخدمة العملاء المترجمة محلياً.

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview هو موديل Google الصوتي (audio-to-audio) فائق السرعة، يتميز بـ context window سعة 131K، ومنطق multimodal عالي الدقة، ومحادثات...

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time

googleGemini26 مارس 2026

نافذة السياق

131Kرموز

أقصى مخرج

66Kرموز

سعر الإدخال

$0.75/ 1M

سعر الإخراج

$4.50/ 1M

الوضع:TextImageAudioVideo

القدرات:الرؤيةالأدواتالبثالاستدلال

المعايير

GPQA

94%

HLE

44%

MMLU

91%

MMLU Pro

89%

SimpleQA

80%

IFEval

88%

AIME 2025

95%

MATH

100%

GSM8k

99%

MGSM

92%

MathVista

72%

SWE-Bench

81%

HumanEval

73%

LiveCodeBench

80%

MMMU

69%

MMMU Pro

60%

ChartQA

90%

DocVQA

94%

Terminal-Bench

69%

ARC-AGI

77%

عرض توثيق API

حول Gemini 3.1 Flash Live Preview

تعرف على قدرات Gemini 3.1 Flash Live Preview والميزات وكيف يمكن أن يساعدك في تحقيق نتائج أفضل.

Gemini 3.1 Flash Live Preview هو موديل multimodal منخفض الـ latency مصمم للمحادثات الصوتية المباشرة (audio-to-audio). يعمل على معمارية Gemini 3 من Google. يحافظ تصميم Sparse Mixture-of-Experts (MoE) على أداء عالٍ مع تقليل تكاليف الـ inference. تقوم الموديلات التقليدية بتحويل الكلام إلى نص ثم النص إلى كلام، بينما يعالج هذا الموديل تدفقات الصوت بشكل أصيل. يكتشف الفروق الصوتية الدقيقة مثل النبرة، والعاطفة، والضجيج الخلفي لتوفير تفاعلات طبيعية. تعرف على المزيد في الوثائق الرسمية.

يستخدم المطورون هذا الموديل للتطبيقات التي تعتمد على الصوت أولاً وتتطلب دقة رقمية واستجابة فورية. يدعم الموديل مستويات تفكير قابلة للضبط تتراوح من "أدنى" إلى "مرتفع"، مما يسمح للمستخدمين بالموازنة بين عمق المنطق ومتطلبات الـ latency. بفضل سعة context window تبلغ 131,072 token ودعم النصوص والصور والفيديو، يعمل الموديل كمحرك متعدد الاستخدامات. تشمل حالات الاستخدام المستهدفة الوكلاء في الوقت الفعلي، ودعم العملاء المؤتمت، وبيئات البرمجة التعاونية.

تجعله ميزات التعامل مع المقاطعات وتصفية الضجيج مناسباً للاستخدام في العالم الحقيقي. يتجاهل الموديل ضجيج سيارات الطوارئ والحشود مع الحفاظ على تدفق المحادثة. يمكن للمطورين الوصول إليه عبر Live API، لبناء تطبيقات للهواتف المحمولة والأكشاك دون الحاجة إلى خدمات نسخ صوتي منفصلة.

حالات استخدام Gemini 3.1 Flash Live Preview

اكتشف الطرق المختلفة لاستخدام Gemini 3.1 Flash Live Preview لتحقيق نتائج رائعة.

وكلاء الصوت في الوقت الفعلي

بناء ذكاء اصطناعي محادثي يستجيب فوراً لكلام المستخدم لخدمات الضيافة والسفر واللوجستيات.

التدريب الـ Multimodal المباشر

تقديم تدريب فوري في اللياقة البدنية أو التدريب التقني من خلال تحليل تغذية الكاميرا والصوت الخاص بالمستخدم في آن واحد.

مساعدو البرمجة التعاونيون

توجيه بيئة التطوير IDE لإعادة هيكلة الكود وتحديث مكونات واجهة المستخدم من خلال تعليمات صوتية مستمرة ومشاركة الشاشة.

الترجمة منخفضة الـ latency

تسهيل المحادثات بين لغات مختلفة من خلال الترجمة من صوت إلى صوت مع الحفاظ على السياق العاطفي.

دعم البيئات الصاخبة

تشغيل أكشاك خدمة العملاء في المناطق المزدحمة حيث يجب على النظام تصفية ضجيج سيارات الإسعاف والحشود.

ألعاب الـ NPC التفاعلية

تحريك الشخصيات غير اللاعبة التي تستجيب بنبرة صوت طبيعية وتتفاعل مع الحركات الجسدية للاعب.

نقاط القوة

القيود

معالجة الصوت الأصلية: يعمل الموديل حصرياً من صوت إلى صوت، مما يجعله يكتشف الفروق الدقيقة في الكلام مثل الإحباط أو السخرية التي تغفل عنها الموديلات النصية.

استخدام الأدوات المتزامن: يعمل الـ function calling بشكل تسلسلي، مما يعني أن الموديل يتوقف عن التحدث تماماً أثناء انتظار استجابات الأداة.

أداء عالي السرعة: يتميز بسرعة وصول إلى أول token (TTFT) أسرع بـ 2.5 مرة مقارنة بإصداراته السابقة.

منطق أقل في الـ Zero-Shot: نتائج الـ reasoning الخام تأتي أقل من موديل Gemini 3.1 Pro flagship للمهام المعقدة بمستوى الدكتوراه.

تصفية قوية للضجيج: يحافظ على دقة 95.9% في Big Bench Audio حتى في البيئات الصاخبة مثل المطاعم أو الطرق المزدحمة.

تعقيد التسعير: وجود مستويات أسعار متعددة للنص والصوت والفيديو يجعل تقدير ميزانية تطبيقات الـ multimodal صعباً.

منطق قابل للضبط: يسمح للمطورين برفع أو خفض 'thinkingLevel' لإيجاد التوازن الأمثل بين المنطق والسرعة.

حالة المعاينة (Preview): يعمل الموديل حالياً كمعاينة، مما يعرض المطورين لتقلبات في معدلات الاستخدام وتعديلات سلوكية غير معلنة.

البدء السريع API

google/gemini-3.1-flash-live-preview

عرض التوثيق

google SDK

import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

ثبت SDK وابدأ في إجراء استدعاءات API في دقائق.

ماذا يقول الناس عن Gemini 3.1 Flash Live Preview

شاهد رأي المجتمع في Gemini 3.1 Flash Live Preview

“Gemini 3.1 Flash-Lite في طريقه للصدور... وهو أسرع وأكثر موديلات سلسلة Gemini 3 كفاءة من حيث التكلفة حتى الآن.”

— BuildwithVignesh

“يطابق جودة 2.5 Flash بتكلفة Flash-Lite. موديل صوت-إلى-صوت منخفض الـ latency ومحسن للمحادثات في الوقت الفعلي.”

— Google AI

twitter

“أداء 3 Flash يتدهور كثيراً مع زيادة الـ context، لكنه يمثل تحسناً هائلاً في الاستجابة اللحظية.”

— Pasto_Shouwa

“Google تضغط فعلياً على هوامش ربح الـ input tokens مع 3.1 Flash. أصبح من الصعب تبرير استخدام أي شيء آخر للوكلاء البسيطة.”

— AI_Dev_Master

hackernews

“معمارية الصوت-إلى-صوت الخام تقضي تماماً على التوقفات المحرجة التي تحصل عليها مع موديلات التحويل المتسلسلة.”

— AIExplorer

youtube

“أجرب Gemini 3.1 Flash Live Preview الجديد. مستويات الـ reasoning القابلة للضبط مفيدة للغاية للموازنة بين السرعة والمنطق.”

— DevGuru_X

twitter

فيديوهات عن Gemini 3.1 Flash Live Preview

شاهد الدروس والمراجعات والنقاشات عن Gemini 3.1 Flash Live Preview

“أنت تتحدث، وهو يستجيب فوراً. لا تأخير، لا تحميل، لا توقفات غريبة. يبدو الأمر كأنك تتحدث مع شخص حقيقي.”

“لقد سجل 95.9% في benchmark الصوت Big Bench. هذا هو الأفضل في فئته من حيث الـ audio reasoning.”

“أنت لا تعطيه تعليمات وتنتظر. أنت تبني معه في الوقت الفعلي.”

“يمكن للموديل رؤية شاشتك أثناء البرمجة والتحدث معك حول التغييرات.”

“التسعير مقسم بين النص والصوت، لذا يجب عليك حساب تكاليفك بعناية.”

“يلتقط نبرتك، وسرعتك، ومزاجك. يلتقط الإحباط أو الارتباك.”

“Gemini 3.1 Flash Live يحتل المرتبة الأولى عالمياً في أصعب benchmarks الصوت للذكاء الاصطناعي.”

“إنه يفهم بالفعل المواضيع المعقدة. يمكنك إضافة الـ reasoning إلى مستوى الذكاء الاصطناعي الذي تمتلكه.”

“يمكنك مقاطعته في منتصف الجملة وسيتوقف فوراً ويستمع للتعليمات الجديدة.”

“نافذة الـ 128K context تعني أنه يتذكر بداية محادثة استمرت 30 دقيقة.”

“لم يعد يقوم بتحويل الكلام إلى نص ثم النص إلى كلام. إنه ببساطة يحول الكلام إلى كلام مباشرة.”

“القدرة على الاستماع في البيئات الصاخبة... مثل جانب الطريق أو مطعم مزعج.”

“عندما قاطعته، كانت سرعة توقفه عن التحدث... مذهلة حقاً.”

“يمكنك دمج هذا مع وكلاء كود محليين للتحكم في تطوير برمجياتك بالأوامر الصوتية حرفياً.”

“زمن الوصول لأول token أسرع بنحو 2.5 مرة من الجيل السابق.”

أكثر من مجرد برومبتات

عزز سير عملك مع أتمتة الذكاء الاصطناعي

يجمع Automatio بين قوة وكلاء الذكاء الاصطناعي وأتمتة الويب والتكاملات الذكية لمساعدتك على إنجاز المزيد في وقت أقل.

وكلاء الذكاء الاصطناعي

أتمتة الويب

سير عمل ذكي

ابدأ مجاناً

نصائح احترافية لـ Gemini 3.1 Flash Live Preview

نصائح الخبراء لمساعدتك على تحقيق أقصى استفادة من Gemini 3.1 Flash Live Preview وتحقيق نتائج أفضل.

ضبط مستويات الـ thinking

قم بضبط 'thinkingLevel' على 'minimal' للحصول على أسرع استجابات صوتية، أو 'high' للمهام المنطقية المعقدة متعددة الخطوات.

استخدام التحديثات التزايدية

أرسل تحديثات نصية عبر 'send_realtime_input' أثناء الجلسات الصوتية النشطة لتزويد الموديل بسياق متغير.

تحسين تغطية الجولات (Turn Coverage)

اضبط تغطية الجولات على 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' للحصول على فهم multimodal شامل.

تأسيس السياق الأولي

استخدم 'send_client_content' لإنشاء سجل المحادثة قبل بدء جلسة Live API لضمان استمرارية أفضل.

الشهادات

ماذا يقول مستخدمونا

انضم إلى الآلاف من المستخدمين الراضين الذين حولوا سير عملهم

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Mohammed Ibrahim

CEO, qannas.pro

Ben Bressington

CTO, AiChatSolutions

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

ذو صلة AI Models

Claude Opus 4.7

Anthropic

Claude Opus 4.7 is Anthropic's flagship model with a 1-million-token context, adaptive reasoning, and 3.3x vision resolution for enterprise-scale agents.

1M context

$5.00/$25.00/1M

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context

$2.00/$12.00/1M

GPT-5.5

OpenAI

GPT-5.5 is OpenAI's flagship frontier model with a 1M context window and five reasoning effort levels, optimized for autonomous agentic workflows and coding.

1M context

$5.00/$30.00/1M

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context

$3.00/$15.00/1M

Kimi K3

Moonshot

Kimi K3 is Moonshot AI's 2.8T MoE model with a 1M token context window, native multimodal vision, and frontier-tier coding performance for complex agents.

1M context

$3.00/$15.00/1M

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context

$21.00/$168.00/1M

Qwen 3.7 Max

alibaba

Qwen 3.7 Max is Alibaba’s flagship AI model for deep reasoning and autonomous agent tasks, featuring a 256k context window and top-tier coding performance.

256K context

$1.20/$6.00/1M

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context

$2.00/$12.00/1M

الأسئلة الشائعة حول Gemini 3.1 Flash Live Preview

ابحث عن إجابات للأسئلة الشائعة حول Gemini 3.1 Flash Live Preview