Gemini 3.1 Flash-Lite có giá bao nhiêu?

Giá là $0,25 cho mỗi 1 triệu input tokens và $1,50 cho mỗi 1 triệu output tokens.

Có gói miễn phí cho các nhà phát triển không?

Có, model này hiện có sẵn miễn phí dưới dạng bản xem trước thông qua Google AI Studio để thử nghiệm và trải nghiệm.

Context window tối đa là bao nhiêu?

Model hỗ trợ tối đa 1.048.576 tokens, cho phép nạp dữ liệu khoảng 700.000 từ.

Tôi có thể xử lý tệp video với model này không?

Có, nó có thể xử lý nguyên bản các tệp video dài tới 1 giờ hoặc dung lượng 1,5GB.

Thinking Levels là gì?

Tham số này cho phép bạn kiểm soát thời gian reasoning nội bộ mà model dành ra cho một vấn đề trước khi tạo ra output.

Nó so sánh thế nào với Claude 4.5 Haiku?

Gemini 3.1 Flash-Lite rẻ hơn khoảng 4 lần về output tokens trong khi vượt trội hơn Haiku trên các benchmark reasoning GPQA.

Nó có hỗ trợ function calling không?

Có, nó hỗ trợ đầy đủ việc sử dụng công cụ và function calling để xây dựng các quy trình agentic tự động.

Tốc độ output của model là bao nhiêu?

Model đạt tốc độ 363 tokens mỗi giây, khiến nó trở nên lý tưởng cho các ứng dụng nhạy cảm về latency.

Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite là model nhanh nhất và tiết kiệm chi phí nhất của Google. Với 1M context, tính năng multimodal nguyên bản và tốc độ 363 tokens/giây ở quy...

MultimodalTốc độ caoHiệu quả chi phíGoogle Gemini

googleGemini 3.13 tháng 3, 2026

Ngu canh

1.0Mtoken

Dau ra toi da

66Ktoken

Gia dau vao

$0.25/ 1M

Gia dau ra

$1.50/ 1M

Phuong thuc:TextImageAudioVideo

Kha nang:Thi giacCong cuTruyen truc tiep

Diem chuan

GPQA

86.9%

HLE

16%

MMLU

88.9%

MMLU Pro

80%

SimpleQA

43.3%

IFEval

85%

AIME 2025

25%

MATH

78%

GSM8k

95%

MGSM

92%

MathVista

75%

SWE-Bench

35%

HumanEval

88%

LiveCodeBench

72%

MMMU

76.8%

MMMU Pro

76.8%

ChartQA

91%

DocVQA

92%

Terminal-Bench

55%

ARC-AGI

12%

Xem tai lieu API

Ve Gemini 3.1 Flash-Lite

Tim hieu ve kha nang cua Gemini 3.1 Flash-Lite, tinh nang va cach no co the giup ban dat ket qua tot hon.

Gemini 3.1 Flash-Lite được thiết kế cho các ứng dụng AI khối lượng lớn, nơi tốc độ xử lý là yêu cầu kỹ thuật hàng đầu. Không giống như các model Pro lớn hơn, Flash-Lite sử dụng kiến trúc tinh gọn ưu tiên thông lượng, đạt 363 tokens mỗi giây. Nó đóng vai trò là công cụ chuyên dụng cho các nhà phát triển xây dựng các voice agent thời gian thực, hệ thống kiểm duyệt nội dung tự động và các pipeline trích xuất dữ liệu quy mô lớn cần duy trì hiệu quả chi phí dưới lưu lượng truy cập cao.

Bất chấp cái tên lite, model vẫn duy trì context window 1 triệu token. Nó có thể nạp các tệp âm thanh gốc, video dài một giờ và hàng trăm trang PDF trong một yêu cầu duy nhất. Bằng cách giới thiệu Thinking Levels, Google cho phép người dùng lựa chọn giữa các phản hồi gần như tức thì cho các tác vụ đơn giản và giai đoạn reasoning sâu hơn cho logic phức tạp. Điều này cung cấp nhiều hồ sơ hiệu suất trong một API endpoint duy nhất để cân bằng giữa chi phí và độ chính xác.

Model này có tính chất multimodal nguyên bản, loại bỏ nhu cầu về các công cụ bên ngoài để chuyển âm thanh thành văn bản hoặc mô tả hình ảnh trước khi xử lý. Khả năng nguyên bản này cải thiện hiệu suất trên các tác vụ thị giác như hỏi đáp tài liệu và phân tích biểu đồ. Các nhà phát triển có thể sử dụng tham số thinking_level để điều chỉnh thời gian reasoning nội bộ, mở rộng nỗ lực của model một cách hiệu quả dựa trên độ phức tạp cụ thể của từng truy vấn.

Truong hop su dung cho Gemini 3.1 Flash-Lite

Kham pha cac cach khac nhau ban co the su dung Gemini 3.1 Flash-Lite de dat ket qua tuyet voi.

Dịch thuật khối lượng lớn

Xử lý hàng ngàn tin nhắn chat đa ngôn ngữ hoặc yêu cầu hỗ trợ theo thời gian thực với độ trễ dưới một giây.

Điều hướng model thông minh

Đóng vai trò như một bộ phân loại nhanh để xác định liệu các truy vấn đến có cần chuyển tiếp sang các model đắt tiền hơn hay không.

Kiểm duyệt nội dung multimodal

Quét các loạt ảnh và video lớn do người dùng tạo để đảm bảo tuân thủ an toàn với chi phí thấp.

Tạo nguyên mẫu UI thời gian thực

Tạo các thành phần React hoặc Tailwind chức năng từ các bản vẽ tay wireframe hoặc mô tả bằng lời nói.

Tóm tắt tài liệu dài

Cô đọng các kho lưu trữ pháp lý đồ sộ hoặc hướng dẫn kỹ thuật mà không làm mất context trong phạm vi 1M token.

Chuyển đổi văn bản âm thanh trực tiếp

Chuyển đổi hàng giờ họp hoặc ghi âm bài giảng thành các bản tóm tắt và danh sách hành động có cấu trúc trong một lần xử lý.

Diem manh

Han che

Hiệu suất vượt trội: Với 363 tokens mỗi giây, đây là một trong những model nhanh nhất trong ngành về khả năng phản hồi thời gian thực.

Khả năng truy xuất thực tế thấp: Điểm số SimpleQA 43,3% cho thấy rủi ro cao về ảo giác đối với các kiến thức chung nếu không có grounding.

Reasoning nâng cao: Đạt 86,9% trên GPQA Diamond, nó cung cấp khả năng tư duy khoa học cấp độ Tiến sĩ trong một phân khúc nhẹ.

Tăng giá: Nó đắt hơn đáng kể so với model tiền nhiệm Gemini 2.5 Flash-Lite mà nó thay thế trong danh mục sản phẩm.

Kiểm soát chi phí linh hoạt: Tham số Thinking Levels cho phép kiểm soát chi phí tính toán một cách chi tiết trên cơ sở từng yêu cầu.

Độ trễ cao hơn ở chế độ High-Thinking: Sử dụng mức thinking cao làm tăng thêm khoảng 7 đến 10 giây tính toán trước khi bắt đầu tạo output.

Multimodal thống nhất: Việc nạp nguyên bản âm thanh, video và PDF loại bỏ nhu cầu về các đường ống điều phối đa model phức tạp.

Từ chối do vấn đề an toàn: Các thử nghiệm nội bộ cho thấy sự sụt giảm 21,7% tính nhất quán về an toàn trong việc chuyển đổi ảnh sang văn bản trong các bài tập red-teaming.

Bat dau nhanh API

google/gemini-3.1-flash-lite-preview

Xem tai lieu

google SDK

import { GoogleGenAI } from "@google/generative-ai";

const genAI = new GoogleGenAI(process.env.API_KEY);
const model = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-lite-preview",
  generationConfig: {
    thinkingConfig: { thinking_level: "high" }
  }
});

const result = await model.generateContent("Create a weather dashboard UI.");
console.log(result.response.text());

Cai dat SDK va bat dau thuc hien cac cuoc goi API trong vai phut.

Moi nguoi dang noi gi ve Gemini 3.1 Flash-Lite

Xem cong dong nghi gi ve Gemini 3.1 Flash-Lite

“Khả năng lập trình của 3.1 Flash-Lite cực kỳ tốt cho phát triển front-end; nó đã code một trình xem 360 độ một cách hoàn hảo.”

— WorldofAI

youtube

“Gemini 3.1 Flash-Lite là model để xây dựng các AI Agent multimodal hoạt động liên tục. Nó đọc, kết nối và tổng hợp mọi thứ.”

— Shubham Saboo

twitter

“Giá cả là một cú sốc lớn. Mức tăng 3,75 lần trên output tokens sẽ gây đau ví nếu bạn có ngân sách đám mây eo hẹp.”

— Binary Verse AI

youtube

“Nó chuyển gánh nặng về độ phức tạp từ kiến trúc của đội ngũ kỹ thuật sang cơ sở hạ tầng của Google.”

— Julian Goldie

youtube

“Lại thêm một đợt giảm giá cho trí tuệ. Tốc độ cao, chi phí thấp, trí tuệ cao. Một model tuyệt vời cho điều hướng agentic.”

— ctgtplb

twitter

“1M context vẫn là tính năng sát thủ ở đây. Tôi có thể dump toàn bộ các thư mục repo và nó chỉ hoạt động với TTFT dưới một giây.”

— DevFlow_26

Video ve Gemini 3.1 Flash-Lite

Xem huong dan, danh gia va thao luan ve Gemini 3.1 Flash-Lite

“Dường như họ đã tìm ra cách để nhồi nhét rất nhiều trí tuệ vào model này.”

“Tôi sẽ sử dụng nó cho các khối lượng công việc thông lượng cao, vốn đã được xác định rất rõ ràng.”

“Khả năng front-end của Flash-Lite thậm chí còn tốt hơn hầu hết các model mà tôi từng làm việc cùng.”

“Nó thực sự đã tạo ra một trình xem đầy đủ chức năng chỉ trong một lần thực hiện.”

“Model này lý tưởng cho những ai cần tốc độ mà không muốn hy sinh hoàn toàn khả năng tư duy.”

“Đây là thứ mà chúng tôi gọi là model làm việc năng suất... được thiết kế đặc biệt cho các tác vụ thông lượng cao.”

“Nếu bạn chạy nó với ngân sách thinking tối thiểu, nó về cơ bản hoạt động như một model không cần reasoning và nó cực kỳ nhanh.”

“Nó đã làm một công việc cực kỳ tốt với trang web mà chúng tôi có dưới dạng output.”

“Tỷ lệ tốc độ trên chi phí là lý do thực sự khiến bạn chuyển các ứng dụng production của mình sang đây.”

“Nó xử lý các input multimodal nguyên bản, đây là một lợi thế lớn so với các đối thủ cạnh tranh.”

“Đạt gần 87% trên GPQA Diamond với một model gắn nhãn lite làm đảo lộn hoàn toàn hệ thống phân loại của chúng tôi.”

“Đừng sử dụng model này như một nguồn thông tin thực tế... bạn phải cung cấp thông tin cho nó.”

“Với 3.1 Flash-Lite, bạn tránh được việc phải khởi chạy ba microservice khác... sự đơn giản đó xứng đáng với tiền bạc thực sự.”

“Mức tăng 45% tốc độ output được cảm nhận ngay lập tức trong phản hồi streaming.”

“Bạn nhận được 1M context với giá rất rẻ, điều vẫn cảm thấy như phép thuật trong môi trường production.”

Hon ca prompt

Tang cuong quy trinh lam viec cua ban voi Tu dong hoa AI

Automatio ket hop suc manh cua cac AI agent, tu dong hoa web va tich hop thong minh de giup ban lam duoc nhieu hon trong thoi gian ngan hon.

AI Agent

Tu dong hoa web

Quy trinh thong minh

Bat dau mien phi

Meo chuyen nghiep cho Gemini 3.1 Flash-Lite

Meo chuyen gia giup ban tan dung toi da Gemini 3.1 Flash-Lite va dat ket qua tot hon.

Thiết lập Thinking Levels

Sử dụng mức thinking tối thiểu cho các tác vụ phân loại để giảm chi phí, nhưng chuyển sang mức cao cho các tác vụ lập trình phức tạp.

Bật Grounding

Luôn sử dụng Google Search grounding cho các tác vụ yêu cầu truy xuất dữ liệu thực tế vì độ chính xác thực tế cơ bản của model thấp hơn.

Tải lên tệp gốc

Tránh tiền xử lý âm thanh hoặc video thành văn bản, thay vào đó hãy tải lên các tệp gốc để tận dụng tính năng multimodal nguyên bản.

Sử dụng System Instructions

Thực thi nghiêm ngặt các JSON schema bằng cách sử dụng tham số system_instruction để giảm thiểu các token sửa lỗi output.

Danh gia

Nguoi dung cua chung toi noi gi

Tham gia cung hang nghin nguoi dung hai long da thay doi quy trinh lam viec cua ho

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Mohammed Ibrahim

CEO, qannas.pro

Ben Bressington

CTO, AiChatSolutions

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Lien quan AI Models

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context

$5.00/$25.00/1M

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context

$3.00/$15.00/1M

GLM-5.1

Zhipu (GLM)

GLM-5.1 is Zhipu AI's flagship reasoning model, featuring a 202K context window and an autonomous 8-hour execution loop for complex agentic engineering.

203K context

$1.40/$4.40/1M

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context

$0.60/$3.00/1M

Qwen3.6-Max-Preview

alibaba

Qwen3.6-Max-Preview is Alibaba's flagship MoE model featuring 1M context, a native thinking mode, and SOTA scores in agentic coding and reasoning.

1M context

$1.25/$10.00/1M

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context

$1.00/$3.20/1M

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context

$1.25/$10.00/1M

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context

$1.75/$14.00/1M

Cau hoi thuong gap ve Gemini 3.1 Flash-Lite

Tim cau tra loi cho cac cau hoi thuong gap ve Gemini 3.1 Flash-Lite