google

Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview là model âm thanh-đến-âm thanh độ trễ cực thấp của Google, có context window 131K, suy luận đa phương thức độ trung thực cao và...

MultimodalAudio-to-AudioLow LatencyVoice AIReal-Time
google logogoogleGemini26 tháng 3, 2026
Ngu canh
131Ktoken
Dau ra toi da
66Ktoken
Gia dau vao
$0.75/ 1M
Gia dau ra
$4.50/ 1M
Phuong thuc:TextImageAudioVideo
Kha nang:Thi giacCong cuTruyen truc tiepSuy luan
Diem chuan
GPQA
94%
GPQA: Cau hoi khoa hoc cap sau dai hoc. Benchmark nghiem ngat voi 448 cau hoi ve sinh hoc, vat ly va hoa hoc. Chuyen gia PhD chi dat 65-74% do chinh xac. Gemini 3.1 Flash Live Preview dat 94% trong benchmark nay.
HLE
44%
HLE: Suy luan cap chuyen gia. Kiem tra kha nang mo hinh the hien suy luan cap chuyen gia trong cac linh vuc chuyen mon. Gemini 3.1 Flash Live Preview dat 44% trong benchmark nay.
MMLU
91%
MMLU: Hieu ngon ngu da nhiem voc lon. Benchmark toan dien voi 16.000 cau hoi tren 57 mon hoc. Gemini 3.1 Flash Live Preview dat 91% trong benchmark nay.
MMLU Pro
89%
MMLU Pro: MMLU Phien ban chuyen nghiep. Phien ban nang cap cua MMLU voi 12.032 cau hoi va dinh dang 10 lua chon kho hon. Gemini 3.1 Flash Live Preview dat 89% trong benchmark nay.
SimpleQA
80%
SimpleQA: Benchmark do chinh xac thuc te. Kiem tra kha nang mo hinh cung cap cau tra loi chinh xac, thuc te. Gemini 3.1 Flash Live Preview dat 80% trong benchmark nay.
IFEval
88%
IFEval: Danh gia tuan theo huong dan. Do luong mo hinh tuan theo huong dan va rang buoc cu the tot nhu the nao. Gemini 3.1 Flash Live Preview dat 88% trong benchmark nay.
AIME 2025
95%
AIME 2025: Ky thi toan hoc moi My. Bai toan toan hoc cap do thi dau tu ky thi AIME uy tin. Gemini 3.1 Flash Live Preview dat 95% trong benchmark nay.
MATH
100%
MATH: Giai quyet van de toan hoc. Benchmark toan hoc toan dien kiem tra giai quyet van de trong dai so, hinh hoc, giai tich. Gemini 3.1 Flash Live Preview dat 100% trong benchmark nay.
GSM8k
99%
GSM8k: Toan tieu hoc 8K. 8.500 bai toan dang van ban cap tieu hoc. Gemini 3.1 Flash Live Preview dat 99% trong benchmark nay.
MGSM
92%
MGSM: Toan tieu hoc da ngon ngu. Benchmark GSM8k duoc dich sang 10 ngon ngu. Gemini 3.1 Flash Live Preview dat 92% trong benchmark nay.
MathVista
72%
MathVista: Suy luan thi giac toan hoc. Kiem tra kha nang giai quyet bai toan toan hoc voi cac yeu to thi giac. Gemini 3.1 Flash Live Preview dat 72% trong benchmark nay.
SWE-Bench
81%
SWE-Bench: Benchmark ky thuat phan mem. Cac mo hinh AI co gang giai quyet van de GitHub thuc trong cac du an Python. Gemini 3.1 Flash Live Preview dat 81% trong benchmark nay.
HumanEval
73%
HumanEval: Bai tap lap trinh Python. 164 bai tap lap trinh yeu cau mo hinh tao ra cac trien khai ham Python dung. Gemini 3.1 Flash Live Preview dat 73% trong benchmark nay.
LiveCodeBench
80%
LiveCodeBench: Benchmark lap trinh truc tiep. Kiem tra kha nang lap trinh tren cac thach thuc lap trinh thuc te cap nhat lien tuc. Gemini 3.1 Flash Live Preview dat 80% trong benchmark nay.
MMMU
69%
MMMU: Hieu da phuong thuc. Benchmark hieu da phuong thuc tren 30 mon hoc dai hoc. Gemini 3.1 Flash Live Preview dat 69% trong benchmark nay.
MMMU Pro
60%
MMMU Pro: MMMU Phien ban chuyen nghiep. Phien ban nang cap cua MMMU voi cac cau hoi kho hon. Gemini 3.1 Flash Live Preview dat 60% trong benchmark nay.
ChartQA
90%
ChartQA: Hoi dap bieu do. Kiem tra kha nang hieu va phan tich thong tin tu bieu do va do thi. Gemini 3.1 Flash Live Preview dat 90% trong benchmark nay.
DocVQA
94%
DocVQA: Hoi dap thi giac tai lieu. Kiem tra kha nang trich xuat thong tin tu hinh anh tai lieu. Gemini 3.1 Flash Live Preview dat 94% trong benchmark nay.
Terminal-Bench
69%
Terminal-Bench: Tac vu terminal/CLI. Kiem tra kha nang thuc hien cac thao tac dong lenh. Gemini 3.1 Flash Live Preview dat 69% trong benchmark nay.
ARC-AGI
77%
ARC-AGI: Truu tuong va suy luan. Kiem tra tri thong minh linh hoat thong qua cac cau do nhan dang mau moi. Gemini 3.1 Flash Live Preview dat 77% trong benchmark nay.

Ve Gemini 3.1 Flash Live Preview

Tim hieu ve kha nang cua Gemini 3.1 Flash Live Preview, tinh nang va cach no co the giup ban dat ket qua tot hon.

Gemini 3.1 Flash Live Preview là model đa phương thức, độ trễ thấp được thiết kế cho các cuộc đối thoại âm thanh-đến-âm thanh thời gian thực. Nó hoạt động trên kiến trúc Gemini 3 của Google. Thiết kế Sparse Mixture-of-Experts (MoE) giúp duy trì hiệu suất cao trong khi giảm chi phí inference. Các model truyền thống thực hiện speech-to-text rồi đến text-to-speech, nhưng model này xử lý luồng âm thanh một cách tự nhiên. Nó phát hiện các sắc thái âm học như tông giọng, cảm xúc và tiếng ồn nền để tạo ra các tương tác tự nhiên. Tìm hiểu thêm trong tài liệu chính thức.

Các nhà phát triển sử dụng model này cho các ứng dụng ưu tiên giọng nói đòi hỏi độ chính xác về số liệu và phản hồi tức thì. Nó hỗ trợ các mức độ tư duy có thể cấu hình từ tối thiểu đến cao. Điều này cho phép người dùng cân bằng độ sâu suy luận so với các yêu cầu về latency. Với context window 131.072 token và hỗ trợ văn bản, hình ảnh, video, nó đóng vai trò như một động cơ linh hoạt. Các trường hợp sử dụng mục tiêu bao gồm agent thời gian thực, hỗ trợ khách hàng tự động và môi trường lập trình cộng tác.

Khả năng xử lý ngắt lời và lọc tiếng ồn giúp nó phù hợp cho các triển khai thực tế. Model bỏ qua tiếng còi xe và tiếng đám đông trong khi vẫn duy trì luồng hội thoại. Các nhà phát triển truy cập thông qua Live API, xây dựng các ứng dụng di động và ki-ốt mà không cần các dịch vụ chuyển đổi văn bản riêng biệt.

Gemini 3.1 Flash Live Preview

Truong hop su dung cho Gemini 3.1 Flash Live Preview

Kham pha cac cach khac nhau ban co the su dung Gemini 3.1 Flash Live Preview de dat ket qua tuyet voi.

Voice Agent thời gian thực

Xây dựng AI hội thoại phản hồi ngay lập tức với giọng nói của người dùng cho các lĩnh vực nhà hàng khách sạn, du lịch và hậu cần.

Huấn luyện đa phương thức trực tiếp

Cung cấp đào tạo kỹ thuật hoặc thể dục tức thì bằng cách phân tích đồng thời nguồn cấp dữ liệu camera và âm thanh của người dùng.

Trợ lý lập trình cộng tác

Điều hướng IDE để tái cấu trúc code và cập nhật các thành phần giao diện thông qua hướng dẫn bằng giọng nói liên tục và chia sẻ màn hình.

Dịch thuật độ trễ thấp

Hỗ trợ các cuộc trò chuyện đa ngôn ngữ bằng cách dịch lời nói sang lời nói mà vẫn giữ nguyên ngữ cảnh cảm xúc.

Hỗ trợ trong môi trường ồn ào

Cung cấp năng lượng cho các ki-ốt dịch vụ khách hàng ở các khu vực đông đúc, nơi hệ thống phải lọc bỏ tiếng ồn từ còi xe và đám đông.

NPC tương tác trong game

Điều khiển các nhân vật không phải người chơi (NPC) phản hồi bằng tông giọng tự nhiên và tương tác với các chuyển động vật lý của người chơi.

Diem manh

Han che

Xử lý âm thanh gốc: Hoạt động hoàn toàn theo cơ chế speech-to-speech, phát hiện các sắc thái lời nói như sự thất vọng hoặc mỉa mai mà các model dựa trên văn bản thường bỏ lỡ.
Sử dụng công cụ đồng bộ: Việc gọi hàm diễn ra tuần tự, nghĩa là model dừng nói hoàn toàn trong khi chờ phản hồi từ công cụ.
Hiệu suất tốc độ cao: Có tốc độ Time to First Token (TTFT) nhanh hơn 2,5 lần so với các thế hệ tiền nhiệm.
Logic zero-shot thấp hơn: Điểm số reasoning thô nằm dưới model flagship Gemini 3.1 Pro đối với các tác vụ phức tạp cấp độ tiến sĩ.
Lọc tiếng ồn mạnh mẽ: Duy trì độ chính xác 95,9% trên Big Bench Audio ngay cả trong môi trường ồn ào như nhà hàng hoặc đường phố đông đúc.
Độ phức tạp về giá cả: Nhiều mức giá cho văn bản, âm thanh và video khiến việc lập ngân sách cho các ứng dụng đa phương thức trở nên khó dự đoán.
Tư duy có thể cấu hình: Cho phép nhà phát triển điều chỉnh 'thinkingLevel' lên hoặc xuống để tìm sự cân bằng tối ưu giữa logic và tốc độ.
Trạng thái Preview: Hiện đang trong giai đoạn xem trước, khiến các nhà phát triển dễ gặp biến động về giới hạn tỷ lệ và các điều chỉnh hành vi không báo trước.

Bat dau nhanh API

google/gemini-3.1-flash-live-preview

Xem tai lieu
google SDK
import { GoogleGenAI } from "@google/genai";

const genAI = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live-preview",
  generationConfig: { thinkingLevel: "minimal" }
});

async function run() {
  const result = await model.generateContent("Analyze this audio stream.");
  console.log(result.response.text());
}
run();

Cai dat SDK va bat dau thuc hien cac cuoc goi API trong vai phut.

Moi nguoi dang noi gi ve Gemini 3.1 Flash Live Preview

Xem cong dong nghi gi ve Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash-Lite đang được triển khai... model thuộc series Gemini 3 nhanh nhất và tiết kiệm chi phí nhất hiện nay.
BuildwithVignesh
reddit
Chất lượng ngang ngửa 2.5 Flash với mức giá của Flash-Lite. Model âm thanh-đến-âm thanh độ trễ thấp, tối ưu cho hội thoại thời gian thực.
Google AI
twitter
3 Flash bị suy giảm chất lượng khi context tăng lên, nhưng đó là một bước cải tiến lớn cho khả năng phản hồi thời gian thực.
Pasto_Shouwa
reddit
Google thực sự đang tối ưu biên lợi nhuận trên input token với 3.1 Flash. Rất khó để biện minh cho việc sử dụng bất cứ thứ gì khác cho các agent đơn giản.
AI_Dev_Master
hackernews
Kiến trúc speech-to-speech thô loại bỏ hoàn toàn những khoảng dừng khó xử mà bạn gặp phải với các model chuyển đổi văn bản theo chuỗi.
AIExplorer
youtube
Đang kiểm tra Gemini 3.1 Flash Live Preview mới. Các mức độ tư duy có thể cấu hình cực kỳ hữu ích để cân bằng giữa tốc độ và khả năng suy luận.
DevGuru_X
twitter

Video ve Gemini 3.1 Flash Live Preview

Xem huong dan, danh gia va thao luan ve Gemini 3.1 Flash Live Preview

Bạn nói, nó phản hồi ngay lập tức. Không độ trễ, không tải, không tạm dừng kỳ lạ. Cảm giác như đang nói chuyện với người thật.

Nó đạt 95,9% trên benchmark âm thanh Big Bench. Đó là đẳng cấp hàng đầu về khả năng reasoning âm thanh.

Bạn không chỉ đưa hướng dẫn rồi chờ đợi. Bạn đang đồng sáng tạo với nó trong thời gian thực.

Model có thể nhìn thấy màn hình khi bạn code và thảo luận với bạn về những thay đổi đó.

Giá cả được chia theo văn bản và âm thanh, vì vậy bạn phải tính toán chi phí cẩn thận.

Nó nhận biết tông giọng, nhịp độ và tâm trạng của bạn. Nó phát hiện cả sự thất vọng hoặc bối rối.

Gemini 3.1 Flash Live đứng số một thế giới về các benchmark giọng nói AI khó nhất.

Nó thực sự hiểu các chủ đề phức tạp. Bạn có thể thêm mức độ reasoning tùy theo cấp độ AI mà bạn có.

Bạn có thể ngắt lời nó giữa câu và nó lập tức dừng lại để nghe hướng dẫn mới.

Context window 128K nghĩa là nó nhớ được phần đầu của một cuộc hội thoại dài 30 phút.

Nó không còn thực hiện speech-to-text rồi text-to-speech nữa. Nó là thẳng từ lời nói sang lời nói.

Agent có khả năng lắng nghe trong môi trường ồn ào... như bên lề đường hoặc nhà hàng đông đúc.

Khi tôi ngắt lời nó, tốc độ nó dừng nói... tôi nghĩ điều đó thực sự ấn tượng.

Bạn có thể kết hợp điều này với các code agent cục bộ để ra lệnh bằng giọng nói cho việc phát triển phần mềm.

Time to first token nhanh hơn khoảng 2,5 lần so với thế hệ trước.

Hon ca prompt

Tang cuong quy trinh lam viec cua ban voi Tu dong hoa AI

Automatio ket hop suc manh cua cac AI agent, tu dong hoa web va tich hop thong minh de giup ban lam duoc nhieu hon trong thoi gian ngan hon.

AI Agent
Tu dong hoa web
Quy trinh thong minh

Meo chuyen nghiep cho Gemini 3.1 Flash Live Preview

Meo chuyen gia giup ban tan dung toi da Gemini 3.1 Flash Live Preview va dat ket qua tot hon.

Điều chỉnh mức độ tư duy

Đặt 'thinkingLevel' thành 'minimal' để có phản hồi giọng nói nhanh nhất hoặc 'high' cho các tác vụ logic phức tạp gồm nhiều bước.

Sử dụng cập nhật tăng dần

Gửi các cập nhật văn bản thông qua 'send_realtime_input' trong các phiên âm thanh đang hoạt động để cung cấp cho model bối cảnh thay đổi.

Tối ưu hóa phạm vi lượt hội thoại

Đặt turn coverage thành 'TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO' để có sự hiểu biết đa phương thức toàn diện.

Thiết lập bối cảnh ban đầu

Sử dụng 'send_client_content' để thiết lập lịch sử cuộc trò chuyện trước khi bắt đầu phiên Live API nhằm tăng tính liên tục.

Danh gia

Nguoi dung cua chung toi noi gi

Tham gia cung hang nghin nguoi dung hai long da thay doi quy trinh lam viec cua ho

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Lien quan AI Models

google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M

Cau hoi thuong gap ve Gemini 3.1 Flash Live Preview

Tim cau tra loi cho cac cau hoi thuong gap ve Gemini 3.1 Flash Live Preview