openai

GPT-5.4

GPT-5.4 to frontier model od OpenAI z context window 1,05M i funkcją Extreme Reasoning. Doskonale radzi sobie z autonomiczną interakcją z UI i długofalową...

OpenAIGPT-51M ContextReasoningMultimodal
openai logoopenaiGPT-5March 4, 2026
Kontekst
1.1Mtokenow
Maks. wyjscie
128Ktokenow
Cena wejscia
$2.50/ 1M
Cena wyjscia
$15.00/ 1M
Modalnosc:TextImage
Mozliwosci:WizjaNarzedziaStreamingRozumowanie
Benchmarki
GPQA
84.2%
GPQA: Pytania naukowe poziomu doktoranckiego. Rygorystyczny benchmark z 448 pytaniami z biologii, fizyki i chemii. Eksperci PhD osiagaja tylko 65-74% dokładnosci. GPT-5.4 uzyskal 84.2% w tym benchmarku.
HLE
42%
HLE: Rozumowanie eksperckie wysokiego poziomu. Testuje zdolnosc modelu do demonstrowania rozumowania na poziomie eksperta w specjalistycznych dziedzinach. GPT-5.4 uzyskal 42% w tym benchmarku.
MMLU
91%
MMLU: Masowe wielozadaniowe rozumienie jezyka. Kompleksowy benchmark z 16 000 pytan z 57 przedmiotow akademickich. GPT-5.4 uzyskal 91% w tym benchmarku.
MMLU Pro
76%
MMLU Pro: MMLU Edycja Profesjonalna. Ulepszona wersja MMLU z 12 032 pytaniami i trudniejszym formatem 10 opcji. GPT-5.4 uzyskal 76% w tym benchmarku.
SimpleQA
56.7%
SimpleQA: Benchmark dokładnosci faktycznej. Testuje zdolnosc modelu do udzielania dokladnych, faktycznych odpowiedzi. GPT-5.4 uzyskal 56.7% w tym benchmarku.
IFEval
92%
IFEval: Ocena przestrzegania instrukcji. Mierzy jak dobrze model przestrzega konkretnych instrukcji i ograniczen. GPT-5.4 uzyskal 92% w tym benchmarku.
AIME 2025
100%
AIME 2025: Amerykanski Zaproszeniowy Egzamin Matematyczny. Zadania matematyczne poziomu konkursowego z prestizowego egzaminu AIME. GPT-5.4 uzyskal 100% w tym benchmarku.
MATH
88.6%
MATH: Rozwiazywanie problemow matematycznych. Kompleksowy benchmark matematyczny testujacy rozwiazywanie problemow z algebry, geometrii, analizy. GPT-5.4 uzyskal 88.6% w tym benchmarku.
GSM8k
99%
GSM8k: Matematyka szkoly podstawowej 8K. 8 500 zadan matematycznych poziomu szkoly podstawowej. GPT-5.4 uzyskal 99% w tym benchmarku.
MGSM
96%
MGSM: Wielojezyczna matematyka szkolna. Benchmark GSM8k przetlumaczony na 10 jezykow. GPT-5.4 uzyskal 96% w tym benchmarku.
MathVista
74%
MathVista: Matematyczne rozumowanie wizualne. Testuje zdolnosc rozwiazywania problemow matematycznych z elementami wizualnymi. GPT-5.4 uzyskal 74% w tym benchmarku.
SWE-Bench
52.8%
SWE-Bench: Benchmark inzynierii oprogramowania. Modele AI probuja rozwiazac prawdziwe problemy GitHub w projektach Python. GPT-5.4 uzyskal 52.8% w tym benchmarku.
HumanEval
85.1%
HumanEval: Zadania programistyczne Python. 164 zadania programistyczne, gdzie modele musza generowac poprawne implementacje funkcji Python. GPT-5.4 uzyskal 85.1% w tym benchmarku.
LiveCodeBench
72.5%
LiveCodeBench: Benchmark programowania na zywo. Testuje umiejetnosci programowania na ciagle aktualizowanych, rzeczywistych wyzwaniach. GPT-5.4 uzyskal 72.5% w tym benchmarku.
MMMU
84.2%
MMMU: Rozumienie multimodalne. Benchmark rozumienia multimodalnego z 30 przedmiotow uniwersyteckich. GPT-5.4 uzyskal 84.2% w tym benchmarku.
MMMU Pro
61%
MMMU Pro: MMMU Edycja Profesjonalna. Ulepszona wersja MMMU z trudniejszymi pytaniami. GPT-5.4 uzyskal 61% w tym benchmarku.
ChartQA
89%
ChartQA: Pytania i odpowiedzi o wykresach. Testuje zdolnosc rozumienia i analizowania informacji z wykresow i diagramow. GPT-5.4 uzyskal 89% w tym benchmarku.
DocVQA
94%
DocVQA: Wizualne pytania o dokumentach. Testuje zdolnosc wydobywania informacji z obrazow dokumentow. GPT-5.4 uzyskal 94% w tym benchmarku.
Terminal-Bench
55%
Terminal-Bench: Zadania terminal/CLI. Testuje zdolnosc wykonywania operacji wiersza polecen. GPT-5.4 uzyskal 55% w tym benchmarku.
ARC-AGI
52.9%
ARC-AGI: Abstrakcja i rozumowanie. Testuje plynna inteligencje poprzez nowe lamiglowki rozpoznawania wzorow. GPT-5.4 uzyskal 52.9% w tym benchmarku.

O GPT-5.4

Dowiedz sie o mozliwosciach GPT-5.4, funkcjach i jak moze pomoc Ci osiagnac lepsze wyniki.

Granica rozumowania w długim kontekście

GPT-5.4 stanowi ewolucję serii GPT-5 nastawioną na wysoką wydajność, wyróżniającą się wiodącym w branży context window o rozmiarze 1,05 miliona tokenów. Model ten został zaprojektowany specjalnie do obsługi rozbudowanych zbiorów danych, takich jak potężne repozytoria kodu czy wieloletnie logi historyczne, bez utraty zdolności do precyzyjnego reasoning. Wyróżniającą się funkcją jest interaktywne „Mid-Response Steering”, które pozwala użytkownikom wizualnie monitorować i korygować plan myślenia modelu w czasie rzeczywistym, zapewniając idealne dopasowanie wyniku do złożonych, wieloetapowych intencji.

Zunifikowana inteligencja i autonomiczne działanie

Pod względem technicznym GPT-5.4 łączy światowej klasy możliwości kodowania poprzednich gałęzi Codex z kreatywnymi niuansami standardowej serii GPT-5. Posiada wyspecjalizowany tryb „Thinking” z regulowanymi poziomami wysiłku (Standard, Extended i Heavy), który wykorzystuje wzmocnione procesy chain-of-thought do rozwiązywania problemów naukowych i logicznych na poziomie doktoranckim. Poza tekstem, GPT-5.4 wprowadza natywne funkcje computer use, osiągając wynik 75% w zadaniach OSWorld-Verified dzięki interpretacji wizualnych zrzutów ekranu i wykonywaniu kliknięć opartych na współrzędnych.

Wydajność i niezawodność

OpenAI raportuje znaczący, 33-procentowy spadek błędów merytorycznych w porównaniu do poprzedników, co czyni GPT-5.4 najlepszym wyborem dla autonomicznych agentów i wsparcia decyzji o wysokiej stawce. Mimo swojej mocy, model został zaprojektowany z myślą o wydajności tokenów i energii, co pozwala na tańsze przetwarzanie długiego kontekstu niż w poprzednich iteracjach. Niezależnie od tego, czy zarządza całą korporacyjną bazą kodu, czy działa jako autonomiczny agent do planowania, GPT-5.4 wyznacza nowy standard niezawodności i wydajności agentic w krajobrazie generatywnej AI.

GPT-5.4

Przypadki uzycia dla GPT-5.4

Odkryj rozne sposoby wykorzystania GPT-5.4 do osiagniecia swietnych wynikow.

Refaktoryzacja dużych baz kodu

Przetwarzanie i analiza setek plików źródłowych jednocześnie w celu zapewnienia spójności między modułami i wykrywania głębokich błędów semantycznych w całym repozytorium.

Autonomiczne agentic planowanie

Interakcja z e-mailem i kalendarzami poprzez visual grounding w celu samodzielnej koordynacji złożonych harmonogramów i wysyłania komunikacji uzupełniającej.

Wysokiej jakości projektowanie architektoniczne

Generowanie skomplikowanych scen 3D i planów strukturalnych, takich jak funkcjonalne stacje metra, przy użyciu ponad 1000 linii precyzyjnego kodu gotowego do symulacji.

Długoterminowe planowanie naukowe

Wykorzystanie Extreme Reasoning do rozwiązywania problemów naukowych na poziomie doktoranckim i wykonywania wieloetapowych analiz wymagających wielogodzinnego zarządzania stanem.

Badanie incydentów cyberbezpieczeństwa

Przetwarzanie ogromnych ilości surowych logów w ramach jednej sesji context window 1,05M w celu autonomicznego identyfikowania, badania i raportowania naruszeń bezpieczeństwa.

Interaktywne Mid-Response Steering

Korygowanie kursu modelu podczas wewnętrznej fazy „myślenia” w celu zmiany wyborów architektonicznych lub ścieżek logicznych bez konieczności restartowania promptu.

Mocne strony

Ograniczenia

Przełomowe context window 1,05M: Zapewnia wiodącą w branży zdolność do reasoning nad potężnymi zbiorami danych i bazami kodu w pojedynczym prompcie bez natychmiastowej utraty spójności.
Degradacja przy długim kontekście: Wydajność w zadaniach o wysokiej złożoności reasoning znacząco spada, gdy context window przekracza próg 256K token.
Ekstremalna dokładność Reasoning: Osiąga wiedzę naukową na poziomie doktoranckim (84,2% w GPQA) i idealne wyniki z matematyki (100% w AIME 2025) dzięki trybowi high-effort reasoning.
Mylący system wersjonowania: Złożona linia wariantów 5.1, 5.2 Thinking, 5.3 Codex i 5.4 tworzy duże obciążenie poznawcze dla programistów API i użytkowników Chat.
Autonomiczna interakcja z UI: State-of-the-art visual grounding pozwala modelowi na interakcję z oprogramowaniem i przeglądarkami z dokładnością 75% w benchmarku OSWorld.
Wysokie latency w trybie Heavy: Tryby o najwyższym wysiłku reasoning mogą potrzebować ponad 8 minut na przetworzenie wewnętrznego chain-of-thought, co czyni je nieodpowiednimi do zadań interaktywnych w czasie rzeczywistym.
Wydajność tokenów i energii: Zaprojektowany jako najbardziej wydajny frontier model od OpenAI, redukujący koszty energetyczne wymagane do złożonego reasoning w porównaniu do wersji GPT-5.2.
Nadmierne dopasowanie do zasad bezpieczeństwa: Agresywne fine-tuning w zakresie bezpieczeństwa może prowadzić do kontrariańskich zachowań, w których model niepotrzebnie sprzeciwia się użytkownikowi w nieszkodliwych, faktycznych tematach.

Szybki start API

openai/gpt-5.4

Zobacz dokumentacje
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    model: "gpt-5.4",
    messages: [{ role: "user", content: "Analyze this 1.05M token log file for security threats." }],
    reasoning_effort: "heavy",
    stream: true,
  });

  for await (const chunk of completion) {
    process.stdout.write(chunk.choices[0]?.delta?.content || '');
  }
}

main();

Zainstaluj SDK i zacznij wykonywac wywolania API w kilka minut.

Co mowia ludzie o GPT-5.4

Zobacz, co spolecznosc mysli o GPT-5.4

GPT-5 powraca w miażdżącym stylu... każda linijka wygenerowanego kodu działała bez zarzutu.
immortalsol
reddit
Główną funkcją jest oczywiście context window 1M, w porównaniu do ok. 200k obsługiwanych przez inne modele.
Developer
hackernews
Wow, GPT 5.4 jest niesamowicie dobry. To powinien być przeskok do wersji 6.0. Trudno uwierzyć, że Codex zaszedł tak daleko.
Rahul Sood
twitter
GPT-5.4 zdobywa ekstra wysokie wyniki 94,0 w NYT Connections. Po prostu trafia w punkt za pierwszym razem.
senko
hackernews
GPT-5.4 jest już w Artificial Analysis Intelligence Index... Remis z Gemini 3.1 Pro.
AiBattle
twitter
Głębokość reasoning jest w końcu na poziomie, który pozwala na rozwiązywanie problemów architektonicznych w skali enterprise.
CloudArchitect99
reddit

Filmy o GPT-5.4

Ogladaj samouczki, recenzje i dyskusje o GPT-5.4

Context window o rozmiarze 1 miliona 50 tysięcy tokenów... to bardzo długie context window.

Po 5 minutach i 22 sekundach myślenia otrzymaliśmy wynik... model przetestował to w bardziej agentic sposób.

Zaktualizowano zdolność do analizy obrazów o wysokiej wierności... do 10,24 miliona pikseli łącznie.

Model faktycznie przeprowadza research w sieci, aby zweryfikować własną logikę.

To ogromny skok dla agentic workflows, gdzie stan musi zostać zachowany.

GPT 5.4 ma wszystko... w zasadzie powiedzieli: okej, 5.2 i GPT 5.3 Codex, miejcie dziecko.

Zdolności kodowania są niesamowite. Jest w zasadzie bezbłędny.

Poczucie estetyki front-endu jest daleko w tyle za Opus 4.6 i Gemini 3.1 Pro.

Czuć, że znacznie lepiej rozumie niuanse intencji dewelopera.

Cena jest konkurencyjna, biorąc pod uwagę rozmiar 1M token context window.

To wyraźnie wywiera presję na OpenAI, by odpowiedzieć modelem, który dorównuje tej zdolności 1 miliona kontekstu.

Fakt, że ten model jest w stanie stworzyć klona Minecrafta w jednym podejściu, jest po prostu niezwykły.

Widzimy 33-procentową redukcję wskaźnika halucynacji faktów.

Tryby reasoning są podzielone na poziomy Standard, Extended i Heavy.

Visual grounding w benchmarku OSWorld jest obecnie bezkonkurencyjny w branży.

Wiecej niz tylko prompty

Przyspiesz swoj workflow z automatyzacja AI

Automatio laczy moc agentow AI, automatyzacji web i inteligentnych integracji, aby pomoc Ci osiagnac wiecej w krotszym czasie.

Agenci AI
Automatyzacja web
Inteligentne workflow

Porady Pro dla GPT-5.4

Wskazówki ekspertów, aby w pełni wykorzystać GPT-5.4.

Przełączanie poziomu Reasoning Effort

Używaj trybów Standard, Extended lub Heavy w zależności od złożoności zadania, aby zbalansować koszt obliczeniowy i jakość wyników.

Monitoruj plan wstępny

Korzystając z wariantu Thinking, obserwuj plan początkowy; możesz interweniować w trakcie generowania, jeśli proponowana ścieżka logiczna modelu wydaje się błędna.

Strategiczne prompt caching

Umieszczaj duże, statyczne bloki kontekstu na początku promptu, aby skorzystać z automatycznego prompt caching w OpenAI w celu oszczędności kosztów.

Zarządzanie stabilnością kontekstu

Choć okno 1,05M jest solidne, wydajność jest najbardziej stabilna w obrębie pierwszych 256K tokens; kluczowe podsumowania umieszczaj blisko końca promptu.

Opinie

Co mowia nasi uzytkownicy

Dolacz do tysiecy zadowolonych uzytkownikow, ktorzy przeksztalcili swoj workflow

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Powiazane AI Models

xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
anthropic

Claude 3.7 Sonnet

Anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
anthropic

Claude Sonnet 4.5

Anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
zhipu

GLM-4.7

Zhipu (GLM)

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M

Często Zadawane Pytania o GPT-5.4

Znajdź odpowiedzi na częste pytania o GPT-5.4