google

Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite là model nhanh nhất và tiết kiệm chi phí nhất của Google. Sở hữu 1M context, multimodal nguyên bản và tốc độ 363 tokens/giây để mở rộng...

MultimodalTốc độ caoTiết kiệm chi phíGoogle Gemini
google logogoogleGemini 3.12026-03-03
Ngu canh
1.0Mtoken
Dau ra toi da
66Ktoken
Gia dau vao
$0.25/ 1M
Gia dau ra
$1.50/ 1M
Phuong thuc:TextImageAudioVideo
Kha nang:Thi giacCong cuTruyen truc tiep
Diem chuan
GPQA
86.9%
GPQA: Cau hoi khoa hoc cap sau dai hoc. Benchmark nghiem ngat voi 448 cau hoi ve sinh hoc, vat ly va hoa hoc. Chuyen gia PhD chi dat 65-74% do chinh xac. Gemini 3.1 Flash-Lite dat 86.9% trong benchmark nay.
HLE
16%
HLE: Suy luan cap chuyen gia. Kiem tra kha nang mo hinh the hien suy luan cap chuyen gia trong cac linh vuc chuyen mon. Gemini 3.1 Flash-Lite dat 16% trong benchmark nay.
MMLU
88.9%
MMLU: Hieu ngon ngu da nhiem voc lon. Benchmark toan dien voi 16.000 cau hoi tren 57 mon hoc. Gemini 3.1 Flash-Lite dat 88.9% trong benchmark nay.
MMLU Pro
80%
MMLU Pro: MMLU Phien ban chuyen nghiep. Phien ban nang cap cua MMLU voi 12.032 cau hoi va dinh dang 10 lua chon kho hon. Gemini 3.1 Flash-Lite dat 80% trong benchmark nay.
SimpleQA
43.3%
SimpleQA: Benchmark do chinh xac thuc te. Kiem tra kha nang mo hinh cung cap cau tra loi chinh xac, thuc te. Gemini 3.1 Flash-Lite dat 43.3% trong benchmark nay.
IFEval
85%
IFEval: Danh gia tuan theo huong dan. Do luong mo hinh tuan theo huong dan va rang buoc cu the tot nhu the nao. Gemini 3.1 Flash-Lite dat 85% trong benchmark nay.
AIME 2025
25%
AIME 2025: Ky thi toan hoc moi My. Bai toan toan hoc cap do thi dau tu ky thi AIME uy tin. Gemini 3.1 Flash-Lite dat 25% trong benchmark nay.
MATH
78%
MATH: Giai quyet van de toan hoc. Benchmark toan hoc toan dien kiem tra giai quyet van de trong dai so, hinh hoc, giai tich. Gemini 3.1 Flash-Lite dat 78% trong benchmark nay.
GSM8k
95%
GSM8k: Toan tieu hoc 8K. 8.500 bai toan dang van ban cap tieu hoc. Gemini 3.1 Flash-Lite dat 95% trong benchmark nay.
MGSM
92%
MGSM: Toan tieu hoc da ngon ngu. Benchmark GSM8k duoc dich sang 10 ngon ngu. Gemini 3.1 Flash-Lite dat 92% trong benchmark nay.
MathVista
75%
MathVista: Suy luan thi giac toan hoc. Kiem tra kha nang giai quyet bai toan toan hoc voi cac yeu to thi giac. Gemini 3.1 Flash-Lite dat 75% trong benchmark nay.
SWE-Bench
35%
SWE-Bench: Benchmark ky thuat phan mem. Cac mo hinh AI co gang giai quyet van de GitHub thuc trong cac du an Python. Gemini 3.1 Flash-Lite dat 35% trong benchmark nay.
HumanEval
88%
HumanEval: Bai tap lap trinh Python. 164 bai tap lap trinh yeu cau mo hinh tao ra cac trien khai ham Python dung. Gemini 3.1 Flash-Lite dat 88% trong benchmark nay.
LiveCodeBench
72%
LiveCodeBench: Benchmark lap trinh truc tiep. Kiem tra kha nang lap trinh tren cac thach thuc lap trinh thuc te cap nhat lien tuc. Gemini 3.1 Flash-Lite dat 72% trong benchmark nay.
MMMU
76.8%
MMMU: Hieu da phuong thuc. Benchmark hieu da phuong thuc tren 30 mon hoc dai hoc. Gemini 3.1 Flash-Lite dat 76.8% trong benchmark nay.
MMMU Pro
76.8%
MMMU Pro: MMMU Phien ban chuyen nghiep. Phien ban nang cap cua MMMU voi cac cau hoi kho hon. Gemini 3.1 Flash-Lite dat 76.8% trong benchmark nay.
ChartQA
91%
ChartQA: Hoi dap bieu do. Kiem tra kha nang hieu va phan tich thong tin tu bieu do va do thi. Gemini 3.1 Flash-Lite dat 91% trong benchmark nay.
DocVQA
92%
DocVQA: Hoi dap thi giac tai lieu. Kiem tra kha nang trich xuat thong tin tu hinh anh tai lieu. Gemini 3.1 Flash-Lite dat 92% trong benchmark nay.
Terminal-Bench
55%
Terminal-Bench: Tac vu terminal/CLI. Kiem tra kha nang thuc hien cac thao tac dong lenh. Gemini 3.1 Flash-Lite dat 55% trong benchmark nay.
ARC-AGI
12%
ARC-AGI: Truu tuong va suy luan. Kiem tra tri thong minh linh hoat thong qua cac cau do nhan dang mau moi. Gemini 3.1 Flash-Lite dat 12% trong benchmark nay.

Ve Gemini 3.1 Flash-Lite

Tim hieu ve kha nang cua Gemini 3.1 Flash-Lite, tinh nang va cach no co the giup ban dat ket qua tot hon.

Tối ưu hóa cho Trí tuệ Tốc độ cao

Gemini 3.1 Flash-Lite là model chủ lực về tốc độ của Google, được thiết kế đặc biệt cho khối lượng công việc lớn của nhà phát triển, nơi low latency và hiệu quả chi phí là ưu tiên hàng đầu. Được phát hành vào ngày 3 tháng 3 năm 2026, đây là một phiên bản tối ưu trong dòng Gemini 3.1, mang lại thời gian trả về token đầu tiên nhanh gấp 2,5 lần và tốc độ output tăng 45% so với các thế hệ trước. Nó có khả năng streaming hơn 360 tokens mỗi giây, khiến nó trở nên lý tưởng cho các ứng dụng thời gian thực và xử lý dữ liệu quy mô lớn.

Multimodal nguyên bản với 1M Context

Model này là multimodal nguyên bản, hỗ trợ đầu vào văn bản, hình ảnh, âm thanh, video và PDF trong một 1 triệu-token context window khổng lồ. Điều này cho phép các nhà phát triển xử lý các tập dữ liệu khổng lồ, chẳng hạn như các video dài một giờ hoặc kho lưu trữ pháp lý đồ sộ mà không cần các pipeline RAG phức tạp. Khả năng thị giác của nó đặc biệt mạnh mẽ, xuất sắc trong việc trả lời câu hỏi bằng hình ảnh trên tài liệu và phân tích biểu đồ.

Kiểm soát chi tiết cho Nhà phát triển

Một tính năng nổi bật là việc giới thiệu 'Thinking Levels' (Minimal, Low, Medium, High). Tham số này cho phép nhà phát triển điều chỉnh độ sâu reasoning của model lên hoặc xuống một cách chi tiết dựa trên độ phức tạp của tác vụ. Sự linh hoạt này đảm bảo người dùng không phải trả quá nhiều tiền cho các tác vụ đơn giản như phân loại, trong khi vẫn có thể tiếp cận logic nâng cao cho các output có cấu trúc hơn như tạo UI và trích xuất dữ liệu.

Gemini 3.1 Flash-Lite

Truong hop su dung cho Gemini 3.1 Flash-Lite

Kham pha cac cach khac nhau ban co the su dung Gemini 3.1 Flash-Lite de dat ket qua tuyet voi.

Dịch thuật thời gian thực khối lượng lớn

Xử lý mượt mà hàng nghìn tin nhắn chat hoặc yêu cầu hỗ trợ qua hơn 100 ngôn ngữ với latency tối thiểu và hiệu quả chi phí cao.

Kiểm duyệt nội dung Multimodal

Sử dụng khả năng xử lý video và hình ảnh nguyên bản để gắn cờ nội dung không phù hợp trên các luồng mạng xã hội hoặc nền tảng video có throughput cao.

Trích xuất dữ liệu cấu trúc tự động

Trích xuất các schema JSON phức tạp từ kho lưu trữ PDF khổng lồ hoặc các tài liệu pháp lý dài bằng cách sử dụng context window 1 triệu token.

Tạo mẫu Front-End linh hoạt

Nhanh chóng tạo các thành phần UI React/Tailwind và landing page với tốc độ hơn 360 tokens mỗi giây để phục vụ thiết kế lặp.

Điều phối tác vụ Agentic

Vận hành các agent AI 'luôn hoạt động' để thực hiện lập kế hoạch nhiều bước, nghiên cứu web và sử dụng công cụ mà không làm vượt ngân sách token.

Bot dịch vụ khách hàng latency thấp

Triển khai các trợ lý hội thoại cung cấp phản hồi tức thì với reasoning có thể điều chỉnh cho các truy vấn từ đơn giản đến phức tạp.

Diem manh

Han che

Throughput vô đối: Streaming ở mức 363 tokens mỗi giây, nhanh hơn 45% so với 2.5 Flash cho các ứng dụng agentic thời gian thực.
Giới hạn Reasoning: Hiệu suất thấp hơn đáng kể trong các logic trừu tượng (12% ARC-AGI v2) so với các flagship model chuyên dụng cho reasoning.
Giá cả cực kỳ cạnh tranh: Với mức $0,25/1 triệu input tokens, chi phí chỉ bằng khoảng 1/8 so với Gemini 3.1 Pro trong khi vẫn duy trì trí thông minh tổng quát cao.
Hạn chế về Toán học Olympic: Gặp khó khăn với toán học cấp độ cao, chỉ đạt 25% trên AIME 2025 so với mức 90%+ của các frontier model.
Làm chủ Multimodal nguyên bản: Hiệu suất vượt trội về thị giác (92% DocVQA) và video (84,8% VideoMMMU) mà không cần các encoder riêng biệt.
Hiệu chuẩn tính xác thực: Tỷ lệ hallucination cao hơn trong các tác vụ tìm kiếm sự thật (43,3% SimpleQA) so với các phiên bản Pro hoặc các lựa chọn thay thế frontier.
Kiểm soát tính toán chi tiết: Model đầu tiên cung cấp khả năng kiểm soát chính xác độ sâu reasoning, cho phép tối ưu hóa tỷ lệ giữa chi phí và hiệu suất.
Lệch hướng chỉ dẫn: Thỉnh thoảng có thể bỏ lỡ các ràng buộc định dạng nhỏ trong các chỉ dẫn nhiều bước cực dài và phức tạp.

Bat dau nhanh API

google/gemini-3.1-flash-lite-preview

Xem tai lieu
google SDK
import { GoogleGenAI } from '@google/genai';

const genAI = new GoogleGenAI(process.env.API_KEY);
const model = genAI.getGenerativeModel({ 
  model: 'gemini-3.1-flash-lite-preview',
  thinkingConfig: { thinking_level: 'low' }
});

async function generate() {
  const prompt = "Extract key entities from this document.";
  const result = await model.generateContent(prompt);
  console.log(result.response.text());
}

generate();

Cai dat SDK va bat dau thuc hien cac cuoc goi API trong vai phut.

Moi nguoi dang noi gi ve Gemini 3.1 Flash-Lite

Xem cong dong nghi gi ve Gemini 3.1 Flash-Lite

Flash lite cực kỳ nhanh và hiệu quả cho các quy trình làm việc cụ thể như tóm tắt... đây là một bước nhảy vọt về tốc độ rất đáng hoan nghênh.
reddit user
reddit
Gemini 3.1 Flash-Lite là đòn quyết định âm thầm đối với các nhà cung cấp API tầm trung... biểu đồ chi phí tối ưu rất nhanh.
@9chaku
twitter
3.1 Flash-Lite vượt trội hơn 2.5 Flash trên phần lớn các benchmark trong khi vẫn là một 'quái kiệt' về tốc độ!
Tulsee Doshi
twitter
Đối với những người xây dựng AI agents ở quy mô lớn, đây là model giúp việc 'luôn hoạt động' thực sự có mức chi phí hợp lý. 363 t/s thật sự điên rồ.
@prince_twets
twitter
Mức giá thật điên rồ. $0,25 cho 1M input khiến việc đưa toàn bộ repo vào context rẻ hơn là xây dựng RAG.
reddit user
reddit
Tốc độ trả về token đầu tiên cơ bản là tức thì. Đây là lần đầu tiên một model mang lại cảm giác nhanh hơn cả tốc độ gõ phím của tôi.
DevGuru
hackernews

Video ve Gemini 3.1 Flash-Lite

Xem huong dan, danh gia va thao luan ve Gemini 3.1 Flash-Lite

Giá chỉ ở mức 25 cent cho mỗi 1 triệu input tokens và $1,50 cho mỗi 1 triệu output tokens... vẫn rất cạnh tranh khi xét về tốc độ.

Tôi thấy đây là một model lập trình bị đánh giá thấp, đặc biệt tập trung vào phát triển front-end và nó trả về token cực kỳ nhanh.

Đây thực sự là mục tiêu cho những nhà phát triển cần quy mô lớn mà không bị ảnh hưởng bởi latency của model Pro.

Khả năng multimodality ở đây không chỉ là quảng cáo; nó xử lý các tệp PDF phức tạp một cách dễ dàng.

Google thực sự đang đẩy lùi giới hạn về những gì một model 'lite' có thể đạt được vào năm 2026.

Lần này là Gemini 3.1 Flash Light, được cho là phiên bản nhanh hơn và ít tốn kém hơn của model Flash.

Những model này là cần thiết vì bạn muốn sử dụng chúng trong các ứng dụng đòi hỏi throughput cao.

Context window 1 triệu token giờ đã là tiêu chuẩn cho Gemini, nhưng thấy nó trên một model nhanh thế này thật ấn tượng.

Nó sẽ không thắng giải toán Olympic, nhưng nó hoàn hảo cho việc trích xuất và tóm tắt.

API latency thấp hơn đáng kể so với GPT-4o-mini trong các thử nghiệm sớm của tôi.

Model AI mới này từ Google nhanh hơn 45%... và nó có thể thay đổi cách mà mỗi người chúng ta xây dựng với AI.

Chế độ low thinking cho những thứ nhanh, dễ dàng. Chế độ high thinking cho những công việc nặng nhọc... sự linh hoạt đó là thứ phân biệt một món đồ chơi với một công cụ thực thụ.

Đối với các tác vụ SEO, đây sẽ là lựa chọn hàng ngày của tôi vì mức giá của nó.

Việc nó có thể xem một video và hiểu ngữ cảnh gần như ngay lập tức là một bước ngoặt cho các nhà sáng tạo nội dung.

Google đang khiến việc biện minh cho việc sử dụng các nhà cung cấp khác cho các tác vụ khối lượng lớn trở nên rất khó khăn vào lúc này.

Hon ca prompt

Tang cuong quy trinh lam viec cua ban voi Tu dong hoa AI

Automatio ket hop suc manh cua cac AI agent, tu dong hoa web va tich hop thong minh de giup ban lam duoc nhieu hon trong thoi gian ngan hon.

AI Agent
Tu dong hoa web
Quy trinh thong minh

Meo chuyen nghiep cho Gemini 3.1 Flash-Lite

Meo chuyen gia giup ban tan dung toi da Gemini 3.1 Flash-Lite va dat ket qua tot hon.

Tận dụng Thinking Levels

Thiết lập thinking_level thành 'minimal' cho các tác vụ đơn giản như phân loại để tối đa hóa tốc độ, nhưng hãy dùng 'high' để tạo mã cấu trúc.

Phân tích Video nguyên bản

Cung cấp trực tiếp các tệp video thô vào API để nhận thông tin chi tiết về các sự kiện hình ảnh và âm thanh cùng lúc, bỏ qua các bước tạo bản phụ đề.

Ưu tiên Context thay vì RAG

Đối với các tập dữ liệu dưới 1 triệu tokens, hãy đưa toàn bộ tài liệu vào context window để loại bỏ lỗi truy xuất và chi phí vector DB.

Tối ưu hóa bằng Batching

Sử dụng API batching cho các tác vụ không khẩn cấp để giảm thêm chi phí, vì Flash-Lite được tối ưu hóa đặc biệt cho xử lý không đồng bộ.

Danh gia

Nguoi dung cua chung toi noi gi

Tham gia cung hang nghin nguoi dung hai long da thay doi quy trinh lam viec cua ho

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Lien quan AI Models

anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

262K context
$0.60/$2.50/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
zhipu

GLM-4.7

Zhipu (GLM)

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.60/$3.60/1M
anthropic

Claude 3.7 Sonnet

Anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M

Cau hoi thuong gap ve Gemini 3.1 Flash-Lite

Tim cau tra loi cho cac cau hoi thuong gap ve Gemini 3.1 Flash-Lite