anthropic

Claude Opus 4.5

Claude Opus 4.5 là frontier model mạnh mẽ nhất của Anthropic, mang lại hiệu suất SWE-bench kỷ lục 80,9% và khả năng agentic tự hành tiên tiến cho lập trình.

anthropic logoanthropicClaude 424 tháng 11, 2025
Ngu canh
200Ktoken
Dau ra toi da
64Ktoken
Gia dau vao
$5.00/ 1M
Gia dau ra
$25.00/ 1M
Phuong thuc:TextImage
Kha nang:Thi giacCong cuTruyen truc tiepSuy luan
Diem chuan
GPQA
87%
GPQA: Cau hoi khoa hoc cap sau dai hoc. Benchmark nghiem ngat voi 448 cau hoi ve sinh hoc, vat ly va hoa hoc. Chuyen gia PhD chi dat 65-74% do chinh xac. Claude Opus 4.5 dat 87% trong benchmark nay.
MMLU
90.8%
MMLU: Hieu ngon ngu da nhiem voc lon. Benchmark toan dien voi 16.000 cau hoi tren 57 mon hoc. Claude Opus 4.5 dat 90.8% trong benchmark nay.
MMLU Pro
80%
MMLU Pro: MMLU Phien ban chuyen nghiep. Phien ban nang cap cua MMLU voi 12.032 cau hoi va dinh dang 10 lua chon kho hon. Claude Opus 4.5 dat 80% trong benchmark nay.
IFEval
90%
IFEval: Danh gia tuan theo huong dan. Do luong mo hinh tuan theo huong dan va rang buoc cu the tot nhu the nao. Claude Opus 4.5 dat 90% trong benchmark nay.
AIME 2025
37%
AIME 2025: Ky thi toan hoc moi My. Bai toan toan hoc cap do thi dau tu ky thi AIME uy tin. Claude Opus 4.5 dat 37% trong benchmark nay.
MATH
85%
MATH: Giai quyet van de toan hoc. Benchmark toan hoc toan dien kiem tra giai quyet van de trong dai so, hinh hoc, giai tich. Claude Opus 4.5 dat 85% trong benchmark nay.
GSM8k
95%
GSM8k: Toan tieu hoc 8K. 8.500 bai toan dang van ban cap tieu hoc. Claude Opus 4.5 dat 95% trong benchmark nay.
MGSM
92%
MGSM: Toan tieu hoc da ngon ngu. Benchmark GSM8k duoc dich sang 10 ngon ngu. Claude Opus 4.5 dat 92% trong benchmark nay.
MathVista
72%
MathVista: Suy luan thi giac toan hoc. Kiem tra kha nang giai quyet bai toan toan hoc voi cac yeu to thi giac. Claude Opus 4.5 dat 72% trong benchmark nay.
SWE-Bench
80.9%
SWE-Bench: Benchmark ky thuat phan mem. Cac mo hinh AI co gang giai quyet van de GitHub thuc trong cac du an Python. Claude Opus 4.5 dat 80.9% trong benchmark nay.
HumanEval
90%
HumanEval: Bai tap lap trinh Python. 164 bai tap lap trinh yeu cau mo hinh tao ra cac trien khai ham Python dung. Claude Opus 4.5 dat 90% trong benchmark nay.
LiveCodeBench
75%
LiveCodeBench: Benchmark lap trinh truc tiep. Kiem tra kha nang lap trinh tren cac thach thuc lap trinh thuc te cap nhat lien tuc. Claude Opus 4.5 dat 75% trong benchmark nay.
MMMU
80.7%
MMMU: Hieu da phuong thuc. Benchmark hieu da phuong thuc tren 30 mon hoc dai hoc. Claude Opus 4.5 dat 80.7% trong benchmark nay.
MMMU Pro
60%
MMMU Pro: MMMU Phien ban chuyen nghiep. Phien ban nang cap cua MMMU voi cac cau hoi kho hon. Claude Opus 4.5 dat 60% trong benchmark nay.
ChartQA
90%
ChartQA: Hoi dap bieu do. Kiem tra kha nang hieu va phan tich thong tin tu bieu do va do thi. Claude Opus 4.5 dat 90% trong benchmark nay.
DocVQA
94%
DocVQA: Hoi dap thi giac tai lieu. Kiem tra kha nang trich xuat thong tin tu hinh anh tai lieu. Claude Opus 4.5 dat 94% trong benchmark nay.
Terminal-Bench
59.3%
Terminal-Bench: Tac vu terminal/CLI. Kiem tra kha nang thuc hien cac thao tac dong lenh. Claude Opus 4.5 dat 59.3% trong benchmark nay.
ARC-AGI
37.6%
ARC-AGI: Truu tuong va suy luan. Kiem tra tri thong minh linh hoat thong qua cac cau do nhan dang mau moi. Claude Opus 4.5 dat 37.6% trong benchmark nay.

Ve Claude Opus 4.5

Tim hieu ve kha nang cua Claude Opus 4.5, tinh nang va cach no co the giup ban dat ket qua tot hon.

Claude Opus 4.5 là flagship model từ Anthropic, ra mắt vào cuối năm 2025. Nó được thiết kế đặc biệt cho kỹ thuật phần mềm phức tạp và reasoning ở mức độ rủi ro cao. Model đã đạt được kỷ lục 80,9% trên benchmark SWE-bench Verified, biến nó thành lựa chọn hàng đầu cho việc gỡ lỗi tự hành và refactor hệ thống. Nó giới thiệu một cá tính tinh tế, đề cao sự trung thực có ngoại giao và sự hữu ích đầy sắc thái.

Tối ưu hóa Multimodal và Agentic

Kiến trúc hỗ trợ context window 200.000 tokens và giới hạn output 64.000 tokens. Các nhà phát triển có thể sử dụng tham số effort chuyên biệt để điều chỉnh độ sâu của reasoning so với chi phí tính toán. Sự linh hoạt này cho phép thực hiện các tác vụ logic cường độ cao hoặc viết thảo nhanh, tiết kiệm hơn. Model này là multimodal, xuất sắc trong việc diễn giải các sơ đồ kiến trúc và bố cục UI dày đặc.

Kỹ thuật và Sử dụng công cụ

Được tối ưu hóa cho các quy trình agentic, nó điều hướng môi trường terminal thông qua Claude Code để thực hiện kiểm toán toàn hệ thống. Nó làm giảm đáng kể giá thành input và output so với các thế hệ flagship trước đó. Khả năng duy trì sự mạch lạc trong các tác vụ dài hạn giúp nó trở thành một đối tác đáng tin cậy cho các đội ngũ kỹ thuật chuyên nghiệp và phân tích dữ liệu phức tạp.

Claude Opus 4.5

Truong hop su dung cho Claude Opus 4.5

Kham pha cac cach khac nhau ban co the su dung Claude Opus 4.5 de dat ket qua tuyet voi.

Kỹ thuật phần mềm tự hành

Tự động hóa gỡ lỗi end-to-end và refactor hệ thống với điểm số SWE-bench kỷ lục 80,9%.

Quy trình nghiên cứu Agentic

Tổng hợp lượng dữ liệu kỹ thuật khổng lồ thành các chiến lược kinh doanh có tính ứng dụng cao bằng cách sử dụng context window 200k.

Vision UI/UX độ trung thực cao

Chuyển đổi các thiết kế Figma phức tạp và sơ đồ kiến trúc thành code frontend chuẩn chỉnh với độ chính xác đến từng pixel.

Điều phối đa agent

Đóng vai trò là bộ não trung tâm cho các đội nhóm sub-agents để quản lý các dự án dài hạn trên các codebase khác nhau.

Phân tích dữ liệu nâng cao

Tự động hóa các mô hình tài chính phức tạp và quy trình Excel với độ chính xác và chiều sâu reasoning cao.

Soạn thảo văn bản và sáng tạo

Tạo ra các văn bản mang sắc thái tinh tế, tuân thủ các gu viết lách cụ thể và các nguyên tắc thiết kế lấy con người làm trung tâm.

Diem manh

Han che

Hiệu suất lập trình đỉnh cao: Model đầu tiên phá vỡ rào cản 80% trên SWE-bench Verified (80,9%), vượt trội hơn tất cả các frontier model khác.
Khoảng cách trong benchmark Toán học: Mặc dù rất xuất sắc về lập trình, nhưng model vẫn còn hơi kém so với các model chuyên dụng trong toán học cấp tiến sĩ.
Kiểm soát reasoning linh hoạt: Tham số effort cho phép các nhà phát triển kiểm soát chi tiết chi phí tính toán và độ sâu của reasoning cho các quy trình cụ thể.
Độ trễ lập kế hoạch: Đặt tham số effort ở mức cao có thể dẫn đến các giai đoạn suy nghĩ lâu hơn đáng kể trước khi xuất ra token đầu tiên.
Sắc thái hội thoại tự nhiên: Được công nhận với cá tính tinh tế, xử lý sự mơ hồ và tuân thủ các cài đặt bối cảnh phức tạp mà không bị máy móc.
Giới hạn Context Token: System prompt và định nghĩa công cụ có thể chiếm một phần lớn context window trước khi bắt đầu xử lý nội dung chính.
Hiệu quả chi phí đáng kể: Mức giá 5 USD/25 USD giúp trí tuệ ở cấp độ Opus trở nên khả thi cho sản xuất doanh nghiệp quy mô lớn.
Khoảng cách về truy xuất sự thật: Trong các bài kiểm tra độ chính xác chuyên biệt như SimpleQA, model thỉnh thoảng vẫn có thể tạo ra các chi tiết sai lệch so với các đối thủ chuyên về tìm kiếm.

Bat dau nhanh API

anthropic/claude-opus-4.5

Xem tai lieu
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const msg = await anthropic.messages.create({
  model: 'claude-opus-4-5-20251101',
  max_tokens: 4096,
  effort: 'high',
  messages: [{ role: 'user', content: 'Phân tích kiến trúc hệ thống này để tìm race conditions.' }],
});

console.log(msg.content[0].text);

Cai dat SDK va bat dau thuc hien cac cuoc goi API trong vai phut.

Moi nguoi dang noi gi ve Claude Opus 4.5

Xem cong dong nghi gi ve Claude Opus 4.5

Claude Opus 4.5 cho cảm giác ít giống một trợ lý vô trạng thái mà giống một đồng đội bền bỉ hơn. Nó có thể truy vết các giả định qua nhiều file theo cách mạnh mẽ hơn hẳn.
Federal-Piano8695
reddit
Chứng kiến agent AI của bạn phát triển một cá tính trên mạng xã hội khiến mọi người tin tưởng theo cách bạn không thể giải thích nổi. Cơ sở hạ tầng quan trọng hơn các prompt.
auxten
twitter
Opus là model hiệu suất tốt nhất ở khía cạnh này. Các cuộc thảo luận của nó là tự nhiên nhất và nó thực sự theo sát bạn trong cuộc trò chuyện.
ArchMeta1868
reddit
Opus 4.5 nắm bắt được những sắc thái nhỏ nhất. Đây là model duy nhất đưa được cơ chế inline trailer vào trong lần chạy đầu tiên.
Matt Berman
youtube
Điểm số 80,9% trên SWE-bench có lẽ là thật nhưng cũng hơi gây hiểu lầm. Nó đòi hỏi thiết lập môi trường rõ ràng để đạt được những con số đó một cách ổn định.
testingcatalog
twitter
SWE-bench Verified: 80,9% (Opus 4.5) so với 71,3% (Claude 3-Opus). Đây là một bước nhảy vọt về độ tin cậy trong thế giới thực.
Daniel Garcia
medium

Video ve Claude Opus 4.5

Xem huong dan, danh gia va thao luan ve Claude Opus 4.5

Opus 4.5 nắm bắt được những sắc thái nhỏ nhất

Đây là model duy nhất thành công trong việc bao gồm cơ chế inline trailer trong lần chạy đầu tiên

Việc đánh giá code do agent thực hiện xác nhận cảm nhận chủ quan này, chấm Opus 7/10 về mức độ hoàn thiện tính năng

Khả năng reasoning logic hơn nhiều so với các phiên bản trước khi xử lý các trường hợp biên

Duy trì tính nhất quán của codebase trong các phiên 30 phút

Giá hiện rẻ gấp ba lần. Chỉ tốn 5 USD cho một triệu input tokens

Input là 5 USD và output là 25 USD cho một triệu tokens

Opus 4.5 đạt điểm cao hơn bất kỳ ứng viên con người nào từng đạt được trong bài kiểm tra tại nhà của chính Anthropic

Đây là model đầu tiên vượt ngưỡng 80% trên SWE-bench

Nó xử lý các phiên lập trình tự hành kéo dài 30 phút mà không cần con người can thiệp

Hãy coi Claude Opus 4.5 là một lớp thuyết phục và một con quái vật agentic thực thụ

Đây thực sự là một con quái vật về lập trình và agentic

Các kỹ sư cuối cùng lại thích làm việc với Claude Opus 4.5 hơn vì họ nhận được vòng lặp phản hồi chặt chẽ

Tham số effort là tính năng nổi bật nhất đối với các nhà phát triển

Nó tạo cảm giác như một cộng sự hơn là một công cụ trong các cuộc thảo luận dài hơi

Hon ca prompt

Tang cuong quy trinh lam viec cua ban voi Tu dong hoa AI

Automatio ket hop suc manh cua cac AI agent, tu dong hoa web va tich hop thong minh de giup ban lam duoc nhieu hon trong thoi gian ngan hon.

AI Agent
Tu dong hoa web
Quy trinh thong minh

Meo chuyen nghiep cho Claude Opus 4.5

Meo chuyen gia giup ban tan dung toi da Claude Opus 4.5 va dat ket qua tot hon.

Bật/Tắt Reasoning Effort

Sử dụng tham số effort ở mức cao cho các logic phức tạp hoặc tác vụ lập trình, và mức trung bình cho các tác vụ viết sáng tạo thông thường.

Thiết kế Vision-Native

Tải lên ảnh chụp màn hình độ phân giải cao về các lỗi UI, vì model đã được tinh chỉnh để xác định những điểm khác biệt về thị giác mà mô tả bằng văn bản thường bỏ lỡ.

Cấu trúc System Prompts

Xác định vai trò agentic và mức effort rõ ràng trong system prompt để ngăn model suy nghĩ quá mức cần thiết cho các tác vụ quy trình đơn giản.

Nén ngữ cảnh (Context Compaction)

Tóm tắt lịch sử trong các phiên làm việc dài để giữ cho context window 200k luôn tập trung vào những thông tin liên quan nhất.

Danh gia

Nguoi dung cua chung toi noi gi

Tham gia cung hang nghin nguoi dung hai long da thay doi quy trinh lam viec cua ho

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Lien quan AI Models

google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M

Cau hoi thuong gap ve Claude Opus 4.5

Tim cau tra loi cho cac cau hoi thuong gap ve Claude Opus 4.5