Context window của Gemini 3.1 Flash Live là bao nhiêu?

Model hỗ trợ context window đầu vào 131.072 token và cửa sổ đầu ra 65.536 token. Điều này cho phép nó ghi nhớ các cuộc hội thoại dài và xử lý lịch sử tài liệu đáng kể trong một phiên trực tiếp.

Chi phí API là bao nhiêu?

Đầu vào văn bản có giá 0,75 đô la cho mỗi 1 triệu token và đầu ra là 4,50 đô la. Đầu vào âm thanh có giá khoảng 0,005 đô la mỗi phút, trong khi đầu ra âm thanh có giá 0,018 đô la mỗi phút.

Model này có hỗ trợ gọi hàm (function calling) không?

Có, Gemini 3.1 Flash Live hỗ trợ gọi hàm đồng bộ. Model tạm dừng phản hồi âm thanh để thực thi công cụ và chờ kết quả từ công cụ trước khi tiếp tục.

Cơ chế tư duy (thinking) trong model này hoạt động như thế nào?

Gemini 3.1 Flash Live sử dụng các mức độ reasoning có thể tùy chỉnh (tối thiểu, thấp, trung bình, cao) thay vì ngân sách token cố định. Cài đặt mặc định là "tối thiểu" để đảm bảo độ latency thấp nhất trong các ứng dụng giọng nói.

Nó có thể nhìn thấy màn hình của tôi trong thời gian thực không?

Có, model có thể nhận các khung hình video liên tục thông qua Live API. Điều này cho phép nó phân tích nội dung màn hình hoặc luồng camera trong khi đang trò chuyện với người dùng.

Có gói miễn phí không?

Có, Google AI Studio cung cấp quyền truy cập miễn phí vào Gemini 3.1 Flash Live Preview để thử nghiệm và phát triển. Dữ liệu từ gói miễn phí có thể được sử dụng để cải thiện các sản phẩm của Google.

Những ngôn ngữ nào được hỗ trợ?

Model hỗ trợ hơn 70 ngôn ngữ cho văn bản và âm thanh. Phạm vi ngôn ngữ rộng này hỗ trợ dịch thuật thời gian thực toàn cầu và dịch vụ khách hàng bản địa hóa.

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview là model âm thanh-đến-âm thanh độ trễ cực thấp của Google, có context window 131K, suy luận đa phương thức độ trung thực cao và...

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time

googleGemini26 tháng 3, 2026

Ngu canh

131Ktoken

Dau ra toi da

66Ktoken

Gia dau vao

$0.75/ 1M

Gia dau ra

$4.50/ 1M

Phuong thuc:TextImageAudioVideo

Kha nang:Thi giacCong cuTruyen truc tiepSuy luan

Diem chuan

GPQA

94%

HLE

44%

MMLU

91%

MMLU Pro

89%

SimpleQA

80%

IFEval

88%

AIME 2025

95%

MATH

100%

GSM8k

99%

MGSM

92%

MathVista

72%

SWE-Bench

81%

HumanEval

73%

LiveCodeBench

80%

MMMU

69%

MMMU Pro

60%

ChartQA

90%

DocVQA

94%

Terminal-Bench

69%

ARC-AGI

77%

Xem tai lieu API

Ve Gemini 3.1 Flash Live Preview

Tim hieu ve kha nang cua Gemini 3.1 Flash Live Preview, tinh nang va cach no co the giup ban dat ket qua tot hon.

Gemini 3.1 Flash Live Preview là model đa phương thức, độ trễ thấp được thiết kế cho các cuộc đối thoại âm thanh-đến-âm thanh thời gian thực. Nó hoạt động trên kiến trúc Gemini 3 của Google. Thiết kế Sparse Mixture-of-Experts (MoE) giúp duy trì hiệu suất cao trong khi giảm chi phí inference. Các model truyền thống thực hiện speech-to-text rồi đến text-to-speech, nhưng model này xử lý luồng âm thanh một cách tự nhiên. Nó phát hiện các sắc thái âm học như tông giọng, cảm xúc và tiếng ồn nền để tạo ra các tương tác tự nhiên. Tìm hiểu thêm trong tài liệu chính thức.

Các nhà phát triển sử dụng model này cho các ứng dụng ưu tiên giọng nói đòi hỏi độ chính xác về số liệu và phản hồi tức thì. Nó hỗ trợ các mức độ tư duy có thể cấu hình từ tối thiểu đến cao. Điều này cho phép người dùng cân bằng độ sâu suy luận so với các yêu cầu về latency. Với context window 131.072 token và hỗ trợ văn bản, hình ảnh, video, nó đóng vai trò như một động cơ linh hoạt. Các trường hợp sử dụng mục tiêu bao gồm agent thời gian thực, hỗ trợ khách hàng tự động và môi trường lập trình cộng tác.

Khả năng xử lý ngắt lời và lọc tiếng ồn giúp nó phù hợp cho các triển khai thực tế. Model bỏ qua tiếng còi xe và tiếng đám đông trong khi vẫn duy trì luồng hội thoại. Các nhà phát triển truy cập thông qua Live API, xây dựng các ứng dụng di động và ki-ốt mà không cần các dịch vụ chuyển đổi văn bản riêng biệt.

Truong hop su dung cho Gemini 3.1 Flash Live Preview

Kham pha cac cach khac nhau ban co the su dung Gemini 3.1 Flash Live Preview de dat ket qua tuyet voi.

Voice Agent thời gian thực

Xây dựng AI hội thoại phản hồi ngay lập tức với giọng nói của người dùng cho các lĩnh vực nhà hàng khách sạn, du lịch và hậu cần.

Huấn luyện đa phương thức trực tiếp

Cung cấp đào tạo kỹ thuật hoặc thể dục tức thì bằng cách phân tích đồng thời nguồn cấp dữ liệu camera và âm thanh của người dùng.

Trợ lý lập trình cộng tác

Điều hướng IDE để tái cấu trúc code và cập nhật các thành phần giao diện thông qua hướng dẫn bằng giọng nói liên tục và chia sẻ màn hình.

Dịch thuật độ trễ thấp

Hỗ trợ các cuộc trò chuyện đa ngôn ngữ bằng cách dịch lời nói sang lời nói mà vẫn giữ nguyên ngữ cảnh cảm xúc.

Hỗ trợ trong môi trường ồn ào

Cung cấp năng lượng cho các ki-ốt dịch vụ khách hàng ở các khu vực đông đúc, nơi hệ thống phải lọc bỏ tiếng ồn từ còi xe và đám đông.

NPC tương tác trong game

Điều khiển các nhân vật không phải người chơi (NPC) phản hồi bằng tông giọng tự nhiên và tương tác với các chuyển động vật lý của người chơi.

Diem manh

Han che

Xử lý âm thanh gốc: Hoạt động hoàn toàn theo cơ chế speech-to-speech, phát hiện các sắc thái lời nói như sự thất vọng hoặc mỉa mai mà các model dựa trên văn bản thường bỏ lỡ.

Sử dụng công cụ đồng bộ: Việc gọi hàm diễn ra tuần tự, nghĩa là model dừng nói hoàn toàn trong khi chờ phản hồi từ công cụ.

Hiệu suất tốc độ cao: Có tốc độ Time to First Token (TTFT) nhanh hơn 2,5 lần so với các thế hệ tiền nhiệm.

Logic zero-shot thấp hơn: Điểm số reasoning thô nằm dưới model flagship Gemini 3.1 Pro đối với các tác vụ phức tạp cấp độ tiến sĩ.

Lọc tiếng ồn mạnh mẽ: Duy trì độ chính xác 95,9% trên Big Bench Audio ngay cả trong môi trường ồn ào như nhà hàng hoặc đường phố đông đúc.

Độ phức tạp về giá cả: Nhiều mức giá cho văn bản, âm thanh và video khiến việc lập ngân sách cho các ứng dụng đa phương thức trở nên khó dự đoán.

Tư duy có thể cấu hình: Cho phép nhà phát triển điều chỉnh 'thinkingLevel' lên hoặc xuống để tìm sự cân bằng tối ưu giữa logic và tốc độ.

Trạng thái Preview: Hiện đang trong giai đoạn xem trước, khiến các nhà phát triển dễ gặp biến động về giới hạn tỷ lệ và các điều chỉnh hành vi không báo trước.

Bat dau nhanh API

google/gemini-3.1-flash-live-preview

Xem tai lieu

google SDK

import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

Cai dat SDK va bat dau thuc hien cac cuoc goi API trong vai phut.

Moi nguoi dang noi gi ve Gemini 3.1 Flash Live Preview

Xem cong dong nghi gi ve Gemini 3.1 Flash Live Preview

“Gemini 3.1 Flash-Lite đang được triển khai... model thuộc series Gemini 3 nhanh nhất và tiết kiệm chi phí nhất hiện nay.”

— BuildwithVignesh

“Chất lượng ngang ngửa 2.5 Flash với mức giá của Flash-Lite. Model âm thanh-đến-âm thanh độ trễ thấp, tối ưu cho hội thoại thời gian thực.”

— Google AI

twitter

“3 Flash bị suy giảm chất lượng khi context tăng lên, nhưng đó là một bước cải tiến lớn cho khả năng phản hồi thời gian thực.”

— Pasto_Shouwa

“Google thực sự đang tối ưu biên lợi nhuận trên input token với 3.1 Flash. Rất khó để biện minh cho việc sử dụng bất cứ thứ gì khác cho các agent đơn giản.”

— AI_Dev_Master

hackernews

“Kiến trúc speech-to-speech thô loại bỏ hoàn toàn những khoảng dừng khó xử mà bạn gặp phải với các model chuyển đổi văn bản theo chuỗi.”

— AIExplorer

youtube

“Đang kiểm tra Gemini 3.1 Flash Live Preview mới. Các mức độ tư duy có thể cấu hình cực kỳ hữu ích để cân bằng giữa tốc độ và khả năng suy luận.”

— DevGuru_X

twitter

Video ve Gemini 3.1 Flash Live Preview

Xem huong dan, danh gia va thao luan ve Gemini 3.1 Flash Live Preview

“Bạn nói, nó phản hồi ngay lập tức. Không độ trễ, không tải, không tạm dừng kỳ lạ. Cảm giác như đang nói chuyện với người thật.”

“Nó đạt 95,9% trên benchmark âm thanh Big Bench. Đó là đẳng cấp hàng đầu về khả năng reasoning âm thanh.”

“Bạn không chỉ đưa hướng dẫn rồi chờ đợi. Bạn đang đồng sáng tạo với nó trong thời gian thực.”

“Model có thể nhìn thấy màn hình khi bạn code và thảo luận với bạn về những thay đổi đó.”

“Giá cả được chia theo văn bản và âm thanh, vì vậy bạn phải tính toán chi phí cẩn thận.”

“Nó nhận biết tông giọng, nhịp độ và tâm trạng của bạn. Nó phát hiện cả sự thất vọng hoặc bối rối.”

“Gemini 3.1 Flash Live đứng số một thế giới về các benchmark giọng nói AI khó nhất.”

“Nó thực sự hiểu các chủ đề phức tạp. Bạn có thể thêm mức độ reasoning tùy theo cấp độ AI mà bạn có.”

“Bạn có thể ngắt lời nó giữa câu và nó lập tức dừng lại để nghe hướng dẫn mới.”

“Context window 128K nghĩa là nó nhớ được phần đầu của một cuộc hội thoại dài 30 phút.”

“Nó không còn thực hiện speech-to-text rồi text-to-speech nữa. Nó là thẳng từ lời nói sang lời nói.”

“Agent có khả năng lắng nghe trong môi trường ồn ào... như bên lề đường hoặc nhà hàng đông đúc.”

“Khi tôi ngắt lời nó, tốc độ nó dừng nói... tôi nghĩ điều đó thực sự ấn tượng.”

“Bạn có thể kết hợp điều này với các code agent cục bộ để ra lệnh bằng giọng nói cho việc phát triển phần mềm.”

“Time to first token nhanh hơn khoảng 2,5 lần so với thế hệ trước.”

Hon ca prompt

Tang cuong quy trinh lam viec cua ban voi Tu dong hoa AI

Automatio ket hop suc manh cua cac AI agent, tu dong hoa web va tich hop thong minh de giup ban lam duoc nhieu hon trong thoi gian ngan hon.

AI Agent

Tu dong hoa web

Quy trinh thong minh

Bat dau mien phi

Meo chuyen nghiep cho Gemini 3.1 Flash Live Preview

Meo chuyen gia giup ban tan dung toi da Gemini 3.1 Flash Live Preview va dat ket qua tot hon.

Điều chỉnh mức độ tư duy

Đặt 'thinkingLevel' thành 'minimal' để có phản hồi giọng nói nhanh nhất hoặc 'high' cho các tác vụ logic phức tạp gồm nhiều bước.

Sử dụng cập nhật tăng dần

Gửi các cập nhật văn bản thông qua 'send_realtime_input' trong các phiên âm thanh đang hoạt động để cung cấp cho model bối cảnh thay đổi.

Tối ưu hóa phạm vi lượt hội thoại

Đặt turn coverage thành 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' để có sự hiểu biết đa phương thức toàn diện.

Thiết lập bối cảnh ban đầu

Sử dụng 'send_client_content' để thiết lập lịch sử cuộc trò chuyện trước khi bắt đầu phiên Live API nhằm tăng tính liên tục.

Danh gia

Nguoi dung cua chung toi noi gi

Tham gia cung hang nghin nguoi dung hai long da thay doi quy trinh lam viec cua ho

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Mohammed Ibrahim

CEO, qannas.pro

Ben Bressington

CTO, AiChatSolutions

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Lien quan AI Models

Claude Opus 4.7

Anthropic

Claude Opus 4.7 is Anthropic's flagship model with a 1-million-token context, adaptive reasoning, and 3.3x vision resolution for enterprise-scale agents.

1M context

$5.00/$25.00/1M

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context

$2.00/$12.00/1M

GPT-5.5

OpenAI

GPT-5.5 is OpenAI's flagship frontier model with a 1M context window and five reasoning effort levels, optimized for autonomous agentic workflows and coding.

1M context

$5.00/$30.00/1M

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context

$3.00/$15.00/1M

Kimi K3

Moonshot

Kimi K3 is Moonshot AI's 2.8T MoE model with a 1M token context window, native multimodal vision, and frontier-tier coding performance for complex agents.

1M context

$3.00/$15.00/1M

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context

$21.00/$168.00/1M

Qwen 3.7 Max

alibaba

Qwen 3.7 Max is Alibaba’s flagship AI model for deep reasoning and autonomous agent tasks, featuring a 256k context window and top-tier coding performance.

256K context

$1.20/$6.00/1M

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context

$2.00/$12.00/1M

Cau hoi thuong gap ve Gemini 3.1 Flash Live Preview

Tim cau tra loi cho cac cau hoi thuong gap ve Gemini 3.1 Flash Live Preview