openai

GPT-5.4

GPT-5.4 adalah frontier model OpenAI dengan context window 1,05 juta token dan Extreme Reasoning. Unggul dalam interaksi UI otonom dan analisis data jangka...

OpenAIGPT-51M ContextReasoningMultimodal
openai logoopenaiGPT-54 Maret 2026
Konteks
1.1Mtoken
Output maks.
128Ktoken
Harga input
$2.50/ 1M
Harga output
$15.00/ 1M
Modalitas:TextImage
Kemampuan:VisiAlatStreamingPenalaran
Benchmarks
GPQA
84.2%
GPQA: Tanya Jawab Sains Tingkat Doktoral. Benchmark ketat dengan 448 pertanyaan pilihan ganda dalam biologi, fisika, dan kimia yang dibuat oleh pakar domain. Para ahli PhD hanya mencapai akurasi 65-74%, sementara non-ahli hanya mendapat 34% bahkan dengan akses web tak terbatas (sehingga disebut 'tahan Google'). GPT-5.4 meraih skor 84.2% pada benchmark ini.
HLE
42%
HLE: Penalaran Keahlian Tingkat Tinggi. Menguji kemampuan model untuk mendemonstrasikan penalaran tingkat ahli di domain khusus. Mengevaluasi pemahaman mendalam tentang topik kompleks yang membutuhkan pengetahuan tingkat profesional. GPT-5.4 meraih skor 42% pada benchmark ini.
MMLU
91%
MMLU: Pemahaman Bahasa Multitugas Masif. Benchmark komprehensif dengan 16.000 pertanyaan pilihan ganda meliputi 57 mata pelajaran akademik termasuk matematika, filsafat, hukum, dan kedokteran. Menguji pengetahuan luas dan kemampuan penalaran. GPT-5.4 meraih skor 91% pada benchmark ini.
MMLU Pro
76%
MMLU Pro: MMLU Edisi Profesional. Versi MMLU yang ditingkatkan dengan 12.032 pertanyaan menggunakan format 10 pilihan yang lebih sulit. Mencakup Matematika, Fisika, Kimia, Hukum, Teknik, Ekonomi, Kesehatan, Psikologi, Bisnis, Biologi, Filsafat, dan Ilmu Komputer. GPT-5.4 meraih skor 76% pada benchmark ini.
SimpleQA
56.7%
SimpleQA: Benchmark Akurasi Faktual. Menguji kemampuan model untuk memberikan respons yang akurat dan faktual terhadap pertanyaan langsung. Mengukur keandalan dan mengurangi halusinasi dalam tugas pengambilan pengetahuan. GPT-5.4 meraih skor 56.7% pada benchmark ini.
IFEval
92%
IFEval: Evaluasi Kepatuhan Instruksi. Mengukur seberapa baik model mengikuti instruksi dan batasan tertentu. Menguji kemampuan untuk mematuhi aturan format, batas panjang, dan persyaratan eksplisit lainnya. GPT-5.4 meraih skor 92% pada benchmark ini.
AIME 2025
100%
AIME 2025: Ujian Matematika Undangan Amerika. Soal matematika tingkat kompetisi dari ujian AIME bergengsi yang dirancang untuk siswa SMA berbakat. Menguji pemecahan masalah matematika tingkat lanjut yang membutuhkan penalaran abstrak, bukan sekadar pencocokan pola. GPT-5.4 meraih skor 100% pada benchmark ini.
MATH
88.6%
MATH: Pemecahan Masalah Matematika. Benchmark matematika komprehensif yang menguji pemecahan masalah dalam aljabar, geometri, kalkulus, dan domain matematika lainnya. Membutuhkan penalaran multi-langkah dan pengetahuan matematika formal. GPT-5.4 meraih skor 88.6% pada benchmark ini.
GSM8k
99%
GSM8k: Matematika SD 8K. 8.500 soal cerita matematika tingkat SD yang membutuhkan penalaran multi-langkah. Menguji aritmatika dasar dan pemikiran logis melalui skenario dunia nyata seperti belanja atau perhitungan waktu. GPT-5.4 meraih skor 99% pada benchmark ini.
MGSM
96%
MGSM: Matematika SD Multibahasa. Benchmark GSM8k yang diterjemahkan ke 10 bahasa termasuk Spanyol, Prancis, Jerman, Rusia, Cina, dan Jepang. Menguji penalaran matematika dalam berbagai bahasa. GPT-5.4 meraih skor 96% pada benchmark ini.
MathVista
74%
MathVista: Penalaran Matematika Visual. Menguji kemampuan untuk menyelesaikan masalah matematika yang melibatkan elemen visual seperti grafik, diagram geometri, dan figur ilmiah. Menggabungkan pemahaman visual dengan penalaran matematika. GPT-5.4 meraih skor 74% pada benchmark ini.
SWE-Bench
52.8%
SWE-Bench: Benchmark Rekayasa Perangkat Lunak. Model AI mencoba menyelesaikan masalah GitHub nyata dalam proyek Python open-source dengan verifikasi manusia. Menguji keterampilan rekayasa perangkat lunak praktis pada codebase produksi. Model terbaik meningkat dari 4,4% di 2023 menjadi lebih dari 70% di 2024. GPT-5.4 meraih skor 52.8% pada benchmark ini.
HumanEval
85.1%
HumanEval: Masalah Pemrograman Python. 164 masalah pemrograman yang ditulis tangan di mana model harus menghasilkan implementasi fungsi Python yang benar. Setiap solusi diverifikasi dengan unit test. Model terbaik sekarang mencapai akurasi lebih dari 90%. GPT-5.4 meraih skor 85.1% pada benchmark ini.
LiveCodeBench
72.5%
LiveCodeBench: Benchmark Koding Langsung. Menguji kemampuan koding pada tantangan pemrograman dunia nyata yang terus diperbarui. Berbeda dengan benchmark statis, menggunakan masalah baru untuk mencegah kontaminasi data dan mengukur keterampilan koding yang sebenarnya. GPT-5.4 meraih skor 72.5% pada benchmark ini.
MMMU
84.2%
MMMU: Pemahaman Multimodal. Benchmark Pemahaman Multimodal Multi-disiplin Masif yang menguji model penglihatan-bahasa pada masalah tingkat universitas di 30 mata pelajaran yang membutuhkan pemahaman gambar dan pengetahuan ahli. GPT-5.4 meraih skor 84.2% pada benchmark ini.
MMMU Pro
61%
MMMU Pro: MMMU Edisi Profesional. Versi MMMU yang ditingkatkan dengan pertanyaan lebih sulit dan evaluasi lebih ketat. Menguji penalaran multimodal tingkat lanjut di tingkat profesional dan ahli. GPT-5.4 meraih skor 61% pada benchmark ini.
ChartQA
89%
ChartQA: Tanya Jawab Grafik. Menguji kemampuan untuk memahami dan bernalar tentang informasi yang disajikan dalam grafik dan diagram. Membutuhkan ekstraksi data, perbandingan nilai, dan melakukan perhitungan dari representasi visual data. GPT-5.4 meraih skor 89% pada benchmark ini.
DocVQA
94%
DocVQA: Tanya Jawab Visual Dokumen. Benchmark Tanya Jawab Visual Dokumen yang menguji kemampuan untuk mengekstrak dan bernalar tentang informasi dari gambar dokumen termasuk formulir, laporan, dan teks yang dipindai. GPT-5.4 meraih skor 94% pada benchmark ini.
Terminal-Bench
55%
Terminal-Bench: Tugas Terminal/CLI. Menguji kemampuan untuk melakukan operasi baris perintah, menulis skrip shell, dan menavigasi lingkungan terminal. Mengukur keterampilan administrasi sistem praktis dan alur kerja pengembangan. GPT-5.4 meraih skor 55% pada benchmark ini.
ARC-AGI
52.9%
ARC-AGI: Abstraksi dan Penalaran. Abstraction and Reasoning Corpus untuk AGI - menguji kecerdasan fluida melalui teka-teki pengenalan pola baru. Setiap tugas membutuhkan penemuan aturan yang mendasari dari contoh, mengukur kemampuan penalaran umum daripada menghafal. GPT-5.4 meraih skor 52.9% pada benchmark ini.

Tentang GPT-5.4

Pelajari tentang kemampuan, fitur, dan cara menggunakan GPT-5.4.

Batasan Baru dalam Reasoning Context Panjang

GPT-5.4 mewakili evolusi performa tinggi dari seri GPT-5, yang ditandai dengan context window 1,05 juta token yang terdepan di industri. Model ini dirancang khusus untuk menangani dataset yang luas, seperti repositori kode masif atau log historis bertahun-tahun, tanpa kehilangan kemampuan untuk melakukan reasoning dengan akurasi tinggi. Fitur unggulannya adalah "Mid-Response Steering" interaktif, yang memungkinkan pengguna memantau secara visual dan menyesuaikan rencana pemikiran model secara real-time, memastikan output selaras sempurna dengan maksud pengguna yang kompleks dan multi-langkah.

Kecerdasan Terpadu dan Tindakan Otonom

Secara teknis, GPT-5.4 menyatukan kekuatan coding kelas dunia dari cabang spesifik Codex sebelumnya dengan nuansa kreatif dari seri standar GPT-5. Model ini memiliki mode "Thinking" khusus dengan tingkat effort yang dapat disesuaikan (Standard, Extended, dan Heavy) yang menggunakan pemrosesan chain-of-thought yang diperkuat untuk menyelesaikan masalah sains dan logika tingkat PhD. Selain teks, GPT-5.4 memperkenalkan kemampuan native computer use, mencapai skor 75% pada tugas OSWorld-Verified dengan menafsirkan screenshot visual high-fidelity dan mengeksekusi klik berbasis koordinat.

Efisiensi dan Keandalan

OpenAI melaporkan penurunan signifikan sebesar 33% dalam kesalahan tingkat klaim dibandingkan pendahulunya, menjadikan GPT-5.4 pilihan utama untuk agen otonom dan pendukung keputusan berisiko tinggi. Terlepas dari kekuatannya, model ini dirancang untuk efisiensi token dan energi, memungkinkan pemrosesan context panjang yang lebih murah daripada iterasi sebelumnya. Baik untuk mengelola seluruh codebase perusahaan atau bertindak sebagai agen penjadwalan otonom, GPT-5.4 menetapkan standar baru untuk keandalan dan performa agentic dalam lanskap AI generatif.

GPT-5.4

Kasus Penggunaan untuk GPT-5.4

Temukan berbagai cara menggunakan GPT-5.4 untuk hasil yang luar biasa.

Refactoring Codebase Skala Besar

Memasukkan dan menganalisis ratusan file sumber secara bersamaan untuk memastikan konsistensi lintas-modul dan mengidentifikasi bug semantik yang mendalam di seluruh repositori.

Penjadwalan Agentic Otonom

Berinteraksi dengan email dan kalender melalui visual grounding untuk mengoordinasikan jadwal acara yang kompleks secara otonom dan mengirimkan komunikasi tindak lanjut.

Desain Arsitektur High-Fidelity

Menghasilkan adegan 3D yang rumit dan rencana struktural, seperti stasiun kereta bawah tanah fungsional, menggunakan lebih dari 1.000 baris kode yang presisi dan siap simulasi.

Perencanaan Ilmiah Jangka Panjang

Memanfaatkan Extreme Reasoning untuk menyelesaikan masalah ilmiah tingkat PhD dan melakukan analisis multi-langkah yang membutuhkan manajemen status konsisten selama berjam-jam.

Investigasi Insiden Keamanan Siber

Memproses data log mentah dalam jumlah besar dalam satu sesi context 1,05 juta token untuk mengidentifikasi, menyelidiki, dan melaporkan pelanggaran keamanan secara otonom.

Mid-Response Steering Interaktif

Mengoreksi arah model selama fase 'thinking' internal untuk menyesuaikan pilihan arsitektur atau jalur logika tanpa perlu memulai ulang prompt.

Kelebihan

Keterbatasan

Frontier 1.05M Context Window: Menyediakan kapasitas terdepan di industri untuk melakukan reasoning pada dataset dan codebase masif dalam satu prompt tanpa kehilangan koherensi.
Degradasi Context Panjang: Performa pada tugas reasoning dengan kompleksitas tinggi tercatat menurun secara signifikan setelah context window melebihi batas 256 ribu token.
Akurasi Extreme Reasoning: Mencapai tingkat pengetahuan sains tingkat PhD (84,2% pada GPQA) dan skor matematika sempurna (100% pada AIME 2025) menggunakan mode high-effort reasoning.
Skema Versi yang Membingungkan: Jajaran varian yang kompleks mulai dari 5.1, 5.2 Thinking, 5.3 Codex, hingga 5.4 menciptakan beban kognitif yang signifikan bagi pengembang API dan pengguna Chat.
Interaksi UI Otonom: Visual grounding yang state-of-the-art memungkinkan model berinteraksi dengan perangkat lunak dan browser dengan akurasi 75% pada benchmark OSWorld.
Latency Tinggi pada Mode Heavy: Mode reasoning effort tertinggi dapat memakan waktu lebih dari 8 menit untuk memproses CoT internal, sehingga tidak cocok untuk tugas interaktif real-time.
Efisiensi Token dan Energi: Dirancang sebagai frontier model OpenAI yang paling efisien sejauh ini, mengurangi biaya energi yang dibutuhkan untuk reasoning kompleks dibandingkan dengan rilis GPT-5.2.
Alignment yang Terlalu Kaku: Fine-tuning keamanan yang agresif dapat menyebabkan perilaku kontrarian di mana model menentang pengguna secara tidak perlu pada topik faktual yang tidak berbahaya.

Mulai Cepat API

openai/gpt-5.4

Lihat Dokumentasi
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    model: "gpt-5.4",
    messages: [{ role: "user", content: "Analyze this 1.05M token log file for security threats." }],
    reasoning_effort: "heavy",
    stream: true,
  });

  for await (const chunk of completion) {
    process.stdout.write(chunk.choices[0]?.delta?.content || '');
  }
}

main();

Instal SDK dan mulai melakukan panggilan API dalam hitungan menit.

Apa Kata Orang Tentang GPT-5.4

Lihat apa yang dipikirkan komunitas tentang GPT-5.4

GPT-5 melakukan comeback yang luar biasa... setiap baris kode yang dihasilkannya berfungsi sepenuhnya.
immortalsol
reddit
Fitur utamanya jelas adalah context window 1 juta token, dibandingkan dengan model lain yang hanya mendukung sekitar 200 ribu.
Developer
hackernews
Wow, GPT 5.4 sangat bagus. Seharusnya ini menjadi lonjakan ke versi 6.0. Sulit dipercaya Codex sudah sejauh ini.
Rahul Sood
twitter
GPT-5.4 meraih skor ekstra tinggi 94.0 pada NYT Connections. Ia berhasil menyelesaikannya dengan benar pada percobaan pertama.
senko
hackernews
GPT-5.4 kini ada di Artificial Analysis Intelligence Index... Setara dengan Gemini 3.1 Pro.
AiBattle
twitter
Kedalaman reasoning-nya akhirnya berada pada tingkat di mana ia dapat menangani masalah arsitektur skala enterprise.
CloudArchitect99
reddit

Video Tentang GPT-5.4

Tonton tutorial, ulasan, dan diskusi tentang GPT-5.4

Context window sebesar 1 juta 50 ribu token... ini adalah context window yang sangat panjang.

Dalam 5 menit 22 detik proses thinking, kami kemudian menerima hasilnya... model ini mengujinya dengan cara yang lebih agentic.

Memperbarui kemampuan model ini untuk melihat gambar high-fidelity... hingga total 10,24 juta piksel.

Model ini sebenarnya melakukan riset di seluruh web untuk memverifikasi logikanya sendiri.

Ini adalah lompatan besar bagi alur kerja agentic di mana status perlu dipertahankan.

GPT 5.4 memiliki segalanya... mereka pada dasarnya menggabungkan GPT 5.2 dan GPT 5.3 Codex menjadi satu.

Kemampuan coding-nya luar biasa. Benar-benar tanpa cela.

Selera desain front-end masih jauh di belakang Opus 4.6 dan Gemini 3.1 Pro.

Rasanya model ini memiliki pemahaman yang jauh lebih baik tentang niat pengembang yang bernuansa.

Harganya kompetitif mengingat ukuran context window 1 juta token.

Ini jelas memberikan tekanan pada OpenAI untuk merespons dengan model yang menandingi kemampuan 1 juta context tersebut.

Dalam satu percobaan, fakta bahwa model ini mampu membuat klon Minecraft ini sungguh luar biasa.

Kami melihat pengurangan tingkat halusinasi faktual sebesar 33 persen.

Mode reasoning dikategorikan ke dalam tingkat Standard, Extended, dan Heavy.

Visual grounding pada benchmark OSWorld benar-benar yang terdepan di industri saat ini.

Lebih dari sekadar prompt

Tingkatkan alur kerja Anda dengan Otomatisasi AI

Automatio menggabungkan kekuatan agen AI, otomatisasi web, dan integrasi cerdas untuk membantu Anda mencapai lebih banyak dalam waktu lebih singkat.

Agen AI
Otomasi Web
Alur Kerja Cerdas

Tips Pro untuk GPT-5.4

Tips ahli untuk memaksimalkan GPT-5.4.

Atur Reasoning Effort

Gunakan tingkat reasoning Standard, Extended, atau Heavy tergantung pada kompleksitas tugas untuk menyeimbangkan biaya komputasi dan kualitas output.

Pantau Rencana Awal

Saat menggunakan varian Thinking, perhatikan rencana awalnya; Anda dapat melakukan intervensi di tengah generasi jika jalur logika yang diusulkan model tampak keliru.

Prompt Caching Strategis

Tempatkan blok context statis yang besar di awal prompt Anda untuk memanfaatkan fitur prompt caching otomatis dari OpenAI guna menghemat biaya.

Kelola Stabilitas Context

Meskipun window 1,05 juta token sangat tangguh, performa dilaporkan paling stabil dalam 256 ribu tokens pertama; letakkan ringkasan kritis di dekat akhir prompt.

Testimoni

Apa Kata Pengguna Kami

Bergabunglah dengan ribuan pengguna puas yang telah mengubah alur kerja mereka

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Terkait AI Models

xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
anthropic

Claude 3.7 Sonnet

Anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
anthropic

Claude Sonnet 4.5

Anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
zhipu

GLM-4.7

Zhipu (GLM)

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M

Pertanyaan yang Sering Diajukan tentang GPT-5.4

Temukan jawaban untuk pertanyaan umum tentang GPT-5.4