google

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview هو موديل Google الصوتي (audio-to-audio) فائق السرعة، يتميز بـ context window سعة 131K، ومنطق multimodal عالي الدقة، ومحادثات...

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time
google logogoogleGemini26 مارس 2026
نافذة السياق
131Kرموز
أقصى مخرج
66Kرموز
سعر الإدخال
$0.75/ 1M
سعر الإخراج
$4.50/ 1M
الوضع:TextImageAudioVideo
القدرات:الرؤيةالأدواتالبثالاستدلال
المعايير
GPQA
94%
GPQA: أسئلة علمية مستوى الدراسات العليا. معيار صارم مع 448 سؤالاً من الأحياء والفيزياء والكيمياء. خبراء الدكتوراه يحققون فقط 65-74% دقة. حقق Gemini 3.1 Flash Live Preview درجة 94% في هذا المعيار.
HLE
44%
HLE: استدلال مستوى الخبير. يختبر قدرة النموذج على إظهار استدلال مستوى الخبير في المجالات المتخصصة. حقق Gemini 3.1 Flash Live Preview درجة 44% في هذا المعيار.
MMLU
91%
MMLU: فهم اللغة متعدد المهام الضخم. معيار شامل مع 16,000 سؤال في 57 مادة أكاديمية. حقق Gemini 3.1 Flash Live Preview درجة 91% في هذا المعيار.
MMLU Pro
89%
MMLU Pro: MMLU النسخة المهنية. نسخة محسنة من MMLU مع 12,032 سؤالاً وتنسيق 10 خيارات أصعب. حقق Gemini 3.1 Flash Live Preview درجة 89% في هذا المعيار.
SimpleQA
80%
SimpleQA: معيار الدقة الواقعية. يختبر قدرة النموذج على تقديم إجابات دقيقة وواقعية. حقق Gemini 3.1 Flash Live Preview درجة 80% في هذا المعيار.
IFEval
88%
IFEval: تقييم اتباع التعليمات. يقيس مدى جودة اتباع النموذج للتعليمات والقيود المحددة. حقق Gemini 3.1 Flash Live Preview درجة 88% في هذا المعيار.
AIME 2025
95%
AIME 2025: امتحان الرياضيات الأمريكي بالدعوة. مسائل رياضيات مستوى المنافسة من امتحان AIME المرموق. حقق Gemini 3.1 Flash Live Preview درجة 95% في هذا المعيار.
MATH
100%
MATH: حل المسائل الرياضية. معيار رياضيات شامل يختبر حل المسائل في الجبر والهندسة والتفاضل والتكامل. حقق Gemini 3.1 Flash Live Preview درجة 100% في هذا المعيار.
GSM8k
99%
GSM8k: رياضيات المدرسة الابتدائية 8K. 8,500 مسألة رياضية كلامية مستوى المدرسة الابتدائية. حقق Gemini 3.1 Flash Live Preview درجة 99% في هذا المعيار.
MGSM
92%
MGSM: رياضيات ابتدائية متعددة اللغات. معيار GSM8k مترجم إلى 10 لغات. حقق Gemini 3.1 Flash Live Preview درجة 92% في هذا المعيار.
MathVista
72%
MathVista: الاستدلال البصري الرياضي. يختبر القدرة على حل المسائل الرياضية مع عناصر بصرية. حقق Gemini 3.1 Flash Live Preview درجة 72% في هذا المعيار.
SWE-Bench
81%
SWE-Bench: معيار هندسة البرمجيات. نماذج الذكاء الاصطناعي تحاول حل مشكلات GitHub حقيقية في مشاريع Python. حقق Gemini 3.1 Flash Live Preview درجة 81% في هذا المعيار.
HumanEval
73%
HumanEval: مسائل برمجة Python. 164 مسألة برمجة حيث يجب على النماذج إنشاء تنفيذات صحيحة لدوال Python. حقق Gemini 3.1 Flash Live Preview درجة 73% في هذا المعيار.
LiveCodeBench
80%
LiveCodeBench: معيار البرمجة المباشرة. يختبر قدرات البرمجة على تحديات برمجة واقعية محدثة باستمرار. حقق Gemini 3.1 Flash Live Preview درجة 80% في هذا المعيار.
MMMU
69%
MMMU: الفهم متعدد الوسائط. معيار الفهم متعدد الوسائط من 30 مادة جامعية. حقق Gemini 3.1 Flash Live Preview درجة 69% في هذا المعيار.
MMMU Pro
60%
MMMU Pro: MMMU النسخة المهنية. نسخة محسنة من MMMU مع أسئلة أكثر تحدياً. حقق Gemini 3.1 Flash Live Preview درجة 60% في هذا المعيار.
ChartQA
90%
ChartQA: أسئلة وأجوبة الرسوم البيانية. يختبر القدرة على فهم وتحليل المعلومات من الرسوم البيانية والمخططات. حقق Gemini 3.1 Flash Live Preview درجة 90% في هذا المعيار.
DocVQA
94%
DocVQA: أسئلة بصرية للمستندات. يختبر القدرة على استخراج المعلومات من صور المستندات. حقق Gemini 3.1 Flash Live Preview درجة 94% في هذا المعيار.
Terminal-Bench
69%
Terminal-Bench: مهام Terminal/CLI. يختبر القدرة على تنفيذ عمليات سطر الأوامر. حقق Gemini 3.1 Flash Live Preview درجة 69% في هذا المعيار.
ARC-AGI
77%
ARC-AGI: التجريد والاستدلال. يختبر الذكاء المرن من خلال ألغاز جديدة للتعرف على الأنماط. حقق Gemini 3.1 Flash Live Preview درجة 77% في هذا المعيار.

حول Gemini 3.1 Flash Live Preview

تعرف على قدرات Gemini 3.1 Flash Live Preview والميزات وكيف يمكن أن يساعدك في تحقيق نتائج أفضل.

Gemini 3.1 Flash Live Preview هو موديل multimodal منخفض الـ latency مصمم للمحادثات الصوتية المباشرة (audio-to-audio). يعمل على معمارية Gemini 3 من Google. يحافظ تصميم Sparse Mixture-of-Experts (MoE) على أداء عالٍ مع تقليل تكاليف الـ inference. تقوم الموديلات التقليدية بتحويل الكلام إلى نص ثم النص إلى كلام، بينما يعالج هذا الموديل تدفقات الصوت بشكل أصيل. يكتشف الفروق الصوتية الدقيقة مثل النبرة، والعاطفة، والضجيج الخلفي لتوفير تفاعلات طبيعية. تعرف على المزيد في الوثائق الرسمية.

يستخدم المطورون هذا الموديل للتطبيقات التي تعتمد على الصوت أولاً وتتطلب دقة رقمية واستجابة فورية. يدعم الموديل مستويات تفكير قابلة للضبط تتراوح من "أدنى" إلى "مرتفع"، مما يسمح للمستخدمين بالموازنة بين عمق المنطق ومتطلبات الـ latency. بفضل سعة context window تبلغ 131,072 token ودعم النصوص والصور والفيديو، يعمل الموديل كمحرك متعدد الاستخدامات. تشمل حالات الاستخدام المستهدفة الوكلاء في الوقت الفعلي، ودعم العملاء المؤتمت، وبيئات البرمجة التعاونية.

تجعله ميزات التعامل مع المقاطعات وتصفية الضجيج مناسباً للاستخدام في العالم الحقيقي. يتجاهل الموديل ضجيج سيارات الطوارئ والحشود مع الحفاظ على تدفق المحادثة. يمكن للمطورين الوصول إليه عبر Live API، لبناء تطبيقات للهواتف المحمولة والأكشاك دون الحاجة إلى خدمات نسخ صوتي منفصلة.

Gemini 3.1 Flash Live Preview

حالات استخدام Gemini 3.1 Flash Live Preview

اكتشف الطرق المختلفة لاستخدام Gemini 3.1 Flash Live Preview لتحقيق نتائج رائعة.

وكلاء الصوت في الوقت الفعلي

بناء ذكاء اصطناعي محادثي يستجيب فوراً لكلام المستخدم لخدمات الضيافة والسفر واللوجستيات.

التدريب الـ Multimodal المباشر

تقديم تدريب فوري في اللياقة البدنية أو التدريب التقني من خلال تحليل تغذية الكاميرا والصوت الخاص بالمستخدم في آن واحد.

مساعدو البرمجة التعاونيون

توجيه بيئة التطوير IDE لإعادة هيكلة الكود وتحديث مكونات واجهة المستخدم من خلال تعليمات صوتية مستمرة ومشاركة الشاشة.

الترجمة منخفضة الـ latency

تسهيل المحادثات بين لغات مختلفة من خلال الترجمة من صوت إلى صوت مع الحفاظ على السياق العاطفي.

دعم البيئات الصاخبة

تشغيل أكشاك خدمة العملاء في المناطق المزدحمة حيث يجب على النظام تصفية ضجيج سيارات الإسعاف والحشود.

ألعاب الـ NPC التفاعلية

تحريك الشخصيات غير اللاعبة التي تستجيب بنبرة صوت طبيعية وتتفاعل مع الحركات الجسدية للاعب.

نقاط القوة

القيود

معالجة الصوت الأصلية: يعمل الموديل حصرياً من صوت إلى صوت، مما يجعله يكتشف الفروق الدقيقة في الكلام مثل الإحباط أو السخرية التي تغفل عنها الموديلات النصية.
استخدام الأدوات المتزامن: يعمل الـ function calling بشكل تسلسلي، مما يعني أن الموديل يتوقف عن التحدث تماماً أثناء انتظار استجابات الأداة.
أداء عالي السرعة: يتميز بسرعة وصول إلى أول token (TTFT) أسرع بـ 2.5 مرة مقارنة بإصداراته السابقة.
منطق أقل في الـ Zero-Shot: نتائج الـ reasoning الخام تأتي أقل من موديل Gemini 3.1 Pro flagship للمهام المعقدة بمستوى الدكتوراه.
تصفية قوية للضجيج: يحافظ على دقة 95.9% في Big Bench Audio حتى في البيئات الصاخبة مثل المطاعم أو الطرق المزدحمة.
تعقيد التسعير: وجود مستويات أسعار متعددة للنص والصوت والفيديو يجعل تقدير ميزانية تطبيقات الـ multimodal صعباً.
منطق قابل للضبط: يسمح للمطورين برفع أو خفض 'thinkingLevel' لإيجاد التوازن الأمثل بين المنطق والسرعة.
حالة المعاينة (Preview): يعمل الموديل حالياً كمعاينة، مما يعرض المطورين لتقلبات في معدلات الاستخدام وتعديلات سلوكية غير معلنة.

البدء السريع API

google/gemini-3.1-flash-live-preview

عرض التوثيق
google SDK
import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

ثبت SDK وابدأ في إجراء استدعاءات API في دقائق.

ماذا يقول الناس عن Gemini 3.1 Flash Live Preview

شاهد رأي المجتمع في Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash-Lite في طريقه للصدور... وهو أسرع وأكثر موديلات سلسلة Gemini 3 كفاءة من حيث التكلفة حتى الآن.
BuildwithVignesh
reddit
يطابق جودة 2.5 Flash بتكلفة Flash-Lite. موديل صوت-إلى-صوت منخفض الـ latency ومحسن للمحادثات في الوقت الفعلي.
Google AI
twitter
أداء 3 Flash يتدهور كثيراً مع زيادة الـ context، لكنه يمثل تحسناً هائلاً في الاستجابة اللحظية.
Pasto_Shouwa
reddit
Google تضغط فعلياً على هوامش ربح الـ input tokens مع 3.1 Flash. أصبح من الصعب تبرير استخدام أي شيء آخر للوكلاء البسيطة.
AI_Dev_Master
hackernews
معمارية الصوت-إلى-صوت الخام تقضي تماماً على التوقفات المحرجة التي تحصل عليها مع موديلات التحويل المتسلسلة.
AIExplorer
youtube
أجرب Gemini 3.1 Flash Live Preview الجديد. مستويات الـ reasoning القابلة للضبط مفيدة للغاية للموازنة بين السرعة والمنطق.
DevGuru_X
twitter

فيديوهات عن Gemini 3.1 Flash Live Preview

شاهد الدروس والمراجعات والنقاشات عن Gemini 3.1 Flash Live Preview

أنت تتحدث، وهو يستجيب فوراً. لا تأخير، لا تحميل، لا توقفات غريبة. يبدو الأمر كأنك تتحدث مع شخص حقيقي.

لقد سجل 95.9% في benchmark الصوت Big Bench. هذا هو الأفضل في فئته من حيث الـ audio reasoning.

أنت لا تعطيه تعليمات وتنتظر. أنت تبني معه في الوقت الفعلي.

يمكن للموديل رؤية شاشتك أثناء البرمجة والتحدث معك حول التغييرات.

التسعير مقسم بين النص والصوت، لذا يجب عليك حساب تكاليفك بعناية.

يلتقط نبرتك، وسرعتك، ومزاجك. يلتقط الإحباط أو الارتباك.

Gemini 3.1 Flash Live يحتل المرتبة الأولى عالمياً في أصعب benchmarks الصوت للذكاء الاصطناعي.

إنه يفهم بالفعل المواضيع المعقدة. يمكنك إضافة الـ reasoning إلى مستوى الذكاء الاصطناعي الذي تمتلكه.

يمكنك مقاطعته في منتصف الجملة وسيتوقف فوراً ويستمع للتعليمات الجديدة.

نافذة الـ 128K context تعني أنه يتذكر بداية محادثة استمرت 30 دقيقة.

لم يعد يقوم بتحويل الكلام إلى نص ثم النص إلى كلام. إنه ببساطة يحول الكلام إلى كلام مباشرة.

القدرة على الاستماع في البيئات الصاخبة... مثل جانب الطريق أو مطعم مزعج.

عندما قاطعته، كانت سرعة توقفه عن التحدث... مذهلة حقاً.

يمكنك دمج هذا مع وكلاء كود محليين للتحكم في تطوير برمجياتك بالأوامر الصوتية حرفياً.

زمن الوصول لأول token أسرع بنحو 2.5 مرة من الجيل السابق.

أكثر من مجرد برومبتات

عزز سير عملك مع أتمتة الذكاء الاصطناعي

يجمع Automatio بين قوة وكلاء الذكاء الاصطناعي وأتمتة الويب والتكاملات الذكية لمساعدتك على إنجاز المزيد في وقت أقل.

وكلاء الذكاء الاصطناعي
أتمتة الويب
سير عمل ذكي

نصائح احترافية لـ Gemini 3.1 Flash Live Preview

نصائح الخبراء لمساعدتك على تحقيق أقصى استفادة من Gemini 3.1 Flash Live Preview وتحقيق نتائج أفضل.

ضبط مستويات الـ thinking

قم بضبط 'thinkingLevel' على 'minimal' للحصول على أسرع استجابات صوتية، أو 'high' للمهام المنطقية المعقدة متعددة الخطوات.

استخدام التحديثات التزايدية

أرسل تحديثات نصية عبر 'send_realtime_input' أثناء الجلسات الصوتية النشطة لتزويد الموديل بسياق متغير.

تحسين تغطية الجولات (Turn Coverage)

اضبط تغطية الجولات على 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' للحصول على فهم multimodal شامل.

تأسيس السياق الأولي

استخدم 'send_client_content' لإنشاء سجل المحادثة قبل بدء جلسة Live API لضمان استمرارية أفضل.

الشهادات

ماذا يقول مستخدمونا

انضم إلى الآلاف من المستخدمين الراضين الذين حولوا سير عملهم

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

ذو صلة AI Models

google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M

الأسئلة الشائعة حول Gemini 3.1 Flash Live Preview

ابحث عن إجابات للأسئلة الشائعة حول Gemini 3.1 Flash Live Preview