Gemini 3.1 Flash Live-এর context window কত বড়?

এই model-টি ১৩১,০৭২-token input context window এবং ৬৫,৫৩৬-token output window সমর্থন করে। এটি দীর্ঘ কথোপকথন মনে রাখতে এবং লাইভ সেশনের সময় প্রয়োজনীয় নথিপত্রের ইতিহাস প্রসেস করতে সাহায্য করে।

API-এর খরচ কত?

প্রতি ১ মিলিয়ন token-এর জন্য text input খরচ $০.৭৫ এবং output খরচ $৪.৫০। অডিও input-এর খরচ প্রতি মিনিটে প্রায় $০.০০৫ এবং অডিও output-এর খরচ প্রতি মিনিটে $০.০১৮।

এই model-টি কি function calling সমর্থন করে?

হ্যাঁ, Gemini 3.1 Flash Live সিনক্রোনাস function calling সমর্থন করে। model-টি টুল এক্সিকিউট করার জন্য তার অডিও রেসপন্স থামিয়ে দেয় এবং টুল থেকে output পাওয়ার পর পুনরায় কথা বলা শুরু করে।

এই model-এ 'thinking' বা চিন্তা করার প্রক্রিয়া কীভাবে কাজ করে?

Gemini 3.1 Flash Live নির্দিষ্ট token বাজেটের পরিবর্তে কনফিগারযোগ্য reasoning লেভেল (minimal, low, medium, high) ব্যবহার করে। ভয়েস অ্যাপ্লিকেশনে সর্বনিম্ন latency নিশ্চিত করতে 'minimal' ডিফল্ট সেটিং হিসেবে কাজ করে।

এটি কি রিয়েল-টাইমে আমার স্ক্রিন দেখতে পায়?

হ্যাঁ, model-টি Live API-এর মাধ্যমে নিরবচ্ছিন্ন video frame গ্রহণ করতে পারে। এর ফলে ব্যবহারকারীর সাথে কথা বলার সময় এটি স্ক্রিন কন্টেন্ট বা ক্যামেরার ফিড বিশ্লেষণ করতে সক্ষম।

এখানে কি কোনো ফ্রি টায়ার আছে?

হ্যাঁ, Google AI Studio টেস্টিং এবং ডেভেলপমেন্টের জন্য Gemini 3.1 Flash Live Preview-তে ফ্রি অ্যাক্সেস প্রদান করে। ফ্রি টায়ারের ডেটা Google-এর বিভিন্ন প্রোডাক্টের মানোন্নয়নে ব্যবহার করা হতে পারে।

কোন কোন ভাষা সমর্থন করা হয়?

model-টি text এবং অডিওর জন্য ৭০টিরও বেশি ভাষা সমর্থন করে। এই বিস্তৃত ভাষা সমর্থন বিশ্বজুড়ে রিয়েল-টাইম অনুবাদ এবং লোকালাইজড কাস্টমার সার্ভিস নিশ্চিত করে।

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview হলো Google-এর আল্ট্রা-লো-latency, অডিও-টু-অডিও model যা ১৩১K context window, হাই-ফিডেলিটি মাল্টিমডাল reasoning এবং রিয়েল-টাইম...

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time

googleGeminiMarch 26, 2026

কনটেক্সট

131Kটোকেন

সর্বোচ্চ আউটপুট

66Kটোকেন

ইনপুট মূল্য

$0.75/ 1M

আউটপুট মূল্য

$4.50/ 1M

মোডালিটি:TextImageAudioVideo

ক্ষমতা:ভিশনটুলসস্ট্রিমিংরিজনিং

বেঞ্চমার্ক

GPQA

94%

HLE

44%

MMLU

91%

MMLU Pro

89%

SimpleQA

80%

IFEval

88%

AIME 2025

95%

MATH

100%

GSM8k

99%

MGSM

92%

MathVista

72%

SWE-Bench

81%

HumanEval

73%

LiveCodeBench

80%

MMMU

69%

MMMU Pro

60%

ChartQA

90%

DocVQA

94%

Terminal-Bench

69%

ARC-AGI

77%

API ডকুমেন্টেশন দেখুন

Gemini 3.1 Flash Live Preview সম্পর্কে

Gemini 3.1 Flash Live Preview এর ক্ষমতা, বৈশিষ্ট্য এবং কীভাবে এটি আপনাকে ভালো ফলাফল অর্জন করতে সাহায্য করতে পারে জানুন।

Gemini 3.1 Flash Live Preview হলো একটি লো-latency, মাল্টিমডাল model যা রিয়েল-টাইম, অডিও-টু-অডিও কথোপকথনের জন্য ডিজাইন করা হয়েছে। এটি Google-এর Gemini 3 আর্কিটেকচারে চলে। একটি Sparse Mixture-of-Experts (MoE) ডিজাইন ব্যবহারের ফলে এটি পারফরম্যান্স ঠিক রেখে inference খরচ কমায়। প্রচলিত modelগুলো speech-to-text এবং পরে text-to-speech পদ্ধতিতে কাজ করে, কিন্তু এই model অডিও স্ট্রিম সরাসরি প্রসেস করে। এটি স্বাভাবিক কথোপকথনের জন্য টোন, আবেগ এবং ব্যাকগ্রাউন্ড নয়েজের মতো সূক্ষ্ম বিষয়গুলো ধরতে পারে। আরও জানতে দেখুন অফিসিয়াল ডকুমেন্টেশন।

ডেভেলপাররা এই model-টি এমন ভয়েস-ফার্স্ট অ্যাপ্লিকেশনের জন্য ব্যবহার করেন যেখানে গাণিতিক সূক্ষ্মতা এবং তাৎক্ষণিক প্রতিক্রিয়ার প্রয়োজন। এটি minimal থেকে high পর্যন্ত কনফিগারযোগ্য thinking লেভেল সমর্থন করে। এর ফলে ব্যবহারকারীরা reasoning গভীরতা এবং latency-র মধ্যে ভারসাম্য বজায় রাখতে পারেন। ১৩১,০৭২-token context window এবং টেক্সট, ইমেজ, ভিডিও সমর্থনের সাথে এটি একটি বহুমুখী ইঞ্জিন হিসেবে কাজ করে। এর প্রধান ব্যবহারের ক্ষেত্রগুলোর মধ্যে রয়েছে রিয়েল-টাইম এজেন্ট, অটোমেটেড কাস্টমার সাপোর্ট এবং কোলাবোরেটিভ কোডিং এনভায়রনমেন্ট।

ইন্টারাপ্ট হ্যান্ডলিং এবং নয়েজ ফিল্টারিং এটিকে বাস্তব জীবনের ব্যবহারের জন্য উপযোগী করে তুলেছে। এটি সাইরেন বা ভিড়ের শব্দ উপেক্ষা করেও কথোপকথনের ধারাবাহিকতা বজায় রাখে। ডেভেলপাররা কোনো আলাদা ট্রান্সক্রিপশন সার্ভিস ছাড়াই Live API ব্যবহার করে মোবাইল এবং কিওস্ক অ্যাপ্লিকেশন তৈরি করতে পারেন।

Gemini 3.1 Flash Live Preview এর ব্যবহারের ক্ষেত্র

দুর্দান্ত ফলাফল অর্জন করতে Gemini 3.1 Flash Live Preview ব্যবহারের বিভিন্ন উপায় আবিষ্কার করুন।

রিয়েল-টাইম ভয়েস এজেন্ট

হসপিটালিটি, ট্রাভেল এবং লজিস্টিক সাপোর্টের জন্য এমন conversational AI তৈরি করা যা ব্যবহারকারীর কথার তাৎক্ষণিক উত্তর দেয়।

লাইভ মাল্টিমডাল কোচিং

ব্যবহারকারীর ক্যামেরার ফিড এবং অডিও একসাথে বিশ্লেষণের মাধ্যমে তাৎক্ষণিক ফিটনেস বা টেকনিক্যাল ট্রেনিং প্রদান করা।

কোলাবোরেটিভ কোডিং অ্যাসিস্ট্যান্ট

ক্রমাগত ভয়েস নির্দেশ এবং স্ক্রিন শেয়ারিংয়ের মাধ্যমে একটি IDE-কে কোড রিফ্যাক্টর এবং UI কম্পোনেন্ট আপডেট করতে সহায়তা করা।

লো-latency অনুবাদ

আবেগীয় context বজায় রেখে speech-to-speech অনুবাদের মাধ্যমে বিভিন্ন ভাষার মানুষের মধ্যে কথোপকথন সহজ করা।

কোলাহলপূর্ণ পরিবেশে সাপোর্ট

অতিরিক্ত জনাকীর্ণ এলাকায় কাস্টমার সার্ভিস কিওস্ক পরিচালনা করা, যেখানে সিস্টেমকে সাইরেন বা ভিড়ের শব্দ ফিল্টার করতে হয়।

ইন্টারেক্টিভ NPC গেমিং

এমন নন-প্লেয়ার ক্যারেক্টার তৈরি করা যা স্বাভাবিক কণ্ঠস্বরের মাধ্যমে উত্তর দেয় এবং খেলোয়াড়ের শারীরিক নড়াচড়ার প্রতি সাড়া দেয়।

শক্তি

সীমাবদ্ধতা

নেটিভ অডিও প্রসেসিং: এটি সরাসরি speech-to-speech পদ্ধতিতে কাজ করে, যা টেক্সট-ভিত্তিক model-এর তুলনায় হতাশা বা ব্যঙ্গাত্মক সুরের মতো সূক্ষ্ম বিষয়গুলো ধরতে পারে।

সিনক্রোনাস টুল ব্যবহার: Function calling ধারাবাহিকভাবে কাজ করে, যার মানে টুল রেসপন্সের জন্য অপেক্ষা করার সময় model কথা বলা সম্পূর্ণ বন্ধ রাখে।

উচ্চ গতিসম্পন্ন পারফরম্যান্স: এর পূর্বসূরীদের তুলনায় Time to First Token (TTFT) ২.৫ গুণ দ্রুত।

লো-লেভেল জিরো-শট লজিক: জটিল পিএইচডি-লেভেল কাজের জন্য এর raw reasoning স্কোর Gemini 3.1 Pro ফ্ল্যাগশিপের চেয়ে নিচে।

শক্তিশালী নয়েজ ফিল্টারিং: রেস্তোরাঁ বা ব্যস্ত রাস্তার মতো কোলাহলপূর্ণ পরিবেশে Big Bench Audio-তে ৯৫.৯% সঠিকতা বজায় রাখে।

প্রাইসিং জটিলতা: টেক্সট, অডিও এবং ভিডিওর জন্য একাধিক রেট টায়ার থাকায় মাল্টিমডাল অ্যাপ্লিকেশনের বাজেট অনুমান করা কঠিন।

কনফিগারযোগ্য reasoning: ডেভেলপারদের লজিক এবং গতির মধ্যে ভারসাম্য বজায় রাখতে 'thinkingLevel' কমানোর বা বাড়ানোর সুযোগ দেয়।

প্রিভিউ স্ট্যাটাস: বর্তমানে এটি প্রিভিউ পর্যায়ে থাকায় ডেভেলপারদের রেট লিমিট ওঠানামা এবং অপ্রত্যাশিত বিহেভিয়ারাল টিউনিংয়ের সম্মুখীন হতে হতে পারে।

API দ্রুত শুরু

google/gemini-3.1-flash-live-preview

ডকুমেন্টেশন দেখুন

google SDK

import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

SDK ইনস্টল করুন এবং কয়েক মিনিটের মধ্যে API কল করা শুরু করুন।

Gemini 3.1 Flash Live Preview সম্পর্কে মানুষ কী বলছে

Gemini 3.1 Flash Live Preview সম্পর্কে কমিউনিটি কী ভাবছে দেখুন

“Gemini 3.1 Flash-Lite আসছে... এটি Gemini 3 সিরিজের সবচেয়ে দ্রুত এবং সাশ্রয়ী model।”

— BuildwithVignesh

“এটি Flash-Lite খরচে 2.5 Flash-এর কোয়ালিটি দেয়। রিয়েল-টাইম কথোপকথনের জন্য অপ্টিমাইজ করা লো-latency অডিও-টু-অডিও model।”

— Google AI

twitter

“3 Flash-এর context বাড়লে কিছুটা মান কমে যায়, কিন্তু রিয়েল-টাইম রেসপন্সের ক্ষেত্রে এটি বিশাল উন্নতি।”

— Pasto_Shouwa

“Google 3.1 Flash-এর ইনপুট টোকেনে খুব ভালো মার্জিন দিচ্ছে। সাধারণ এজেন্টের জন্য অন্য কিছু ব্যবহার করা এখন কঠিন হয়ে পড়ছে।”

— AI_Dev_Master

hackernews

“পিওর speech-to-speech আর্কিটেকচার সেই বিরক্তিকর বিরতিগুলো সম্পূর্ণ দূর করে দিয়েছে যা চেইনড ট্রান্সক্রিপশন model-এ পাওয়া যেত।”

— AIExplorer

youtube

“নতুন Gemini 3.1 Flash Live Preview টেস্ট করছি। গতি বনাম reasoning-এর ভারসাম্য বজায় রাখার জন্য কনফিগারযোগ্য thinking লেভেলগুলো অবিশ্বাস্যভাবে কার্যকর।”

— DevGuru_X

twitter

Gemini 3.1 Flash Live Preview সম্পর্কে ভিডিও

Gemini 3.1 Flash Live Preview সম্পর্কে টিউটোরিয়াল, রিভিউ এবং আলোচনা দেখুন

“আপনি কথা বলছেন, এটি তাৎক্ষণিক উত্তর দিচ্ছে। কোনো ল্যাগ নেই, লোডিং নেই, অদ্ভুত বিরতি নেই। এটি সত্যিকারের মানুষের সাথে কথা বলার মতো মনে হয়।" [00:২৮]”

“এটি Big Bench অডিও benchmark-এ ৯৫.৯% স্কোর করেছে। অডিও reasoning-এর ক্ষেত্রে এটি সেরা।" [01:১৪]”

“আপনি নির্দেশ দিয়ে বসে থাকছেন না। আপনি রিয়েল-টাইমে এর সাথে কো-বিল্ড করছেন।" [02:০১]”

“আপনি যখন কোড করেন এবং কথা বলেন, model-টি আপনার স্ক্রিন দেখতে পায় এবং পরিবর্তন সম্পর্কে আপনার সাথে আলোচনা করতে পারে।" [04:৩০]”

“এর খরচ টেক্সট এবং অডিওর মধ্যে বিভক্ত, তাই আপনাকে সতর্কতার সাথে খরচ হিসাব করতে হবে।" [06:৪৫]”

“এটি আপনার টোন, কথা বলার গতি এবং মেজাজ বুঝতে পারে। এটি হতাশা বা বিভ্রান্তি ধরতে পারে।" [09:১৬]”

“Gemini 3.1 Flash Live বিশ্বের কঠিনতম AI ভয়েস benchmark-এ প্রথম স্থান অধিকার করেছে।" [16:১২]”

“এটি জটিল বিষয়গুলো বুঝতে পারে। আপনার প্রয়োজন অনুযায়ী AI-এর reasoning লেভেল যোগ করতে পারেন।" [08:৪৮]”

“আপনি কথা বলার মাঝখানে একে থামিয়ে দিতে পারেন এবং এটি সাথে সাথে থেমে নতুন নির্দেশ শুনবে।" [11:২০]”

“১২৮K context window মানে হলো এটি ৩০ মিনিটের কথোপকথনের শুরুটাও মনে রাখতে পারে।" [14:০৫]”

“এটি আর speech to text এবং পরে text to speech পদ্ধতিতে কাজ করছে না। এটি সরাসরি speech to speech।" [01:০৯]”

“এজেন্টটি রাস্তার পাশে বা কোলাহলপূর্ণ রেস্তোরাঁতেও শব্দ ফিল্টার করে শুনতে সক্ষম।" [01:৪৪]”

“আমি যখন একে থামিয়ে দিলাম, এটি কত দ্রুত কথা বলা বন্ধ করলো... আমার কাছে এটি সত্যিই অসাধারণ মনে হয়েছে।" [02:৪২]”

“আপনি এটিকে লোকাল কোড এজেন্টের সাথে যুক্ত করে আপনার সফটওয়্যার ডেভেলপমেন্টকে ভয়েস কমান্ডে পরিচালনা করতে পারেন।" [05:১৫]”

“এর টাইম টু ফার্স্ট টোকেন আগের জেনারেশনের চেয়ে প্রায় ২.৫ গুণ দ্রুত।" [07:৩০]”

শুধু প্রম্পটের চেয়ে বেশি

আপনার ওয়ার্কফ্লো সুপারচার্জ করুন AI অটোমেশন দিয়ে

Automatio AI এজেন্ট, ওয়েব অটোমেশন এবং স্মার্ট ইন্টিগ্রেশনের শক্তি একত্রিত করে আপনাকে কম সময়ে আরও বেশি অর্জন করতে সাহায্য করে।

AI এজেন্ট

ওয়েব অটোমেশন

স্মার্ট ওয়ার্কফ্লো

বিনামূল্যে শুরু করুন

Gemini 3.1 Flash Live Preview এর জন্য প্রো টিপস

Gemini 3.1 Flash Live Preview থেকে সর্বাধিক পেতে এবং ভালো ফলাফল অর্জন করতে বিশেষজ্ঞ টিপস।

Thinking লেভেল অ্যাডজাস্ট করা

দ্রুততম ভয়েস রেসপন্সের জন্য 'thinkingLevel' হিসেবে 'minimal' সেট করুন অথবা জটিল মাল্টি-স্টেপ লজিক্যাল কাজের জন্য 'high' ব্যবহার করুন।

ইনক্রিমেন্টাল আপডেট ব্যবহার করুন

সক্রিয় অডিও সেশনের সময় 'send_realtime_input'-এর মাধ্যমে টেক্সট আপডেট পাঠিয়ে model-কে পরিবর্তনশীল context প্রদান করুন।

টার্ন কাভারেজ অপ্টিমাইজ করা

ব্যাপক মাল্টিমডাল বোঝার জন্য টার্ন কাভারেজ 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO'-তে সেট করুন।

প্রাথমিক context প্রদান (Seed Initial Context)

ভালো ধারাবাহিকতার জন্য Live API সেশন শুরু করার আগে 'send_client_content' ব্যবহার করে কথোপকথনের ইতিহাস তৈরি করুন।

প্রশংসাপত্র

আমাদের ব্যবহারকারীরা কী বলেন

হাজার হাজার সন্তুষ্ট ব্যবহারকারীদের সাথে যোগ দিন যারা তাদের ওয়ার্কফ্লো রূপান্তরিত করেছেন

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.