openai

GPT-5.4

GPT-5.4 er OpenAIs frontier model med et 1,05M context window og Extreme Reasoning. Den excellerer i autonom UI-interaktion og dataanalyse i langt format.

OpenAIGPT-51M ContextReasoningMultimodal
openai logoopenaiGPT-55. marts 2026
Kontekst
1.1Mtokens
Maks output
128Ktokens
Input-pris
$2.50/ 1M
Output-pris
$15.00/ 1M
Modalitet:TextImage
Funktioner:VisionVærktøjerStreamingRæsonnering
Benchmarks
GPQA
84.2%
GPQA: Spørgsmål og svar på kandidatniveau. En streng benchmark med 448 multiple choice-spørgsmål inden for biologi, fysik og kemi skabt af domæneeksperter. PhD-eksperter opnår kun 65-74% nøjagtighed, mens ikke-eksperter scorer kun 34% selv med ubegrænset webadgang (derfor 'Google-proof'). GPT-5.4 scorede 84.2% på denne benchmark.
HLE
42%
HLE: Ekspertniveau-ræsonnering. Tester en models evne til at demonstrere ekspertniveau-ræsonnering på tværs af specialiserede domæner. Evaluerer dyb forståelse af komplekse emner, der kræver professionel viden. GPT-5.4 scorede 42% på denne benchmark.
MMLU
91%
MMLU: Massiv flerfaglig sprogforståelse. En omfattende benchmark med 16.000 multiple choice-spørgsmål på tværs af 57 akademiske fag, herunder matematik, filosofi, jura og medicin. Tester bred viden og ræsonneringsevner. GPT-5.4 scorede 91% på denne benchmark.
MMLU Pro
76%
MMLU Pro: MMLU Professionel udgave. En forbedret version af MMLU med 12.032 spørgsmål i et sværere format med 10 svarmuligheder. Dækker matematik, fysik, kemi, jura, ingeniørvidenskab, økonomi, sundhed, psykologi, business, biologi, filosofi og datalogi. GPT-5.4 scorede 76% på denne benchmark.
SimpleQA
56.7%
SimpleQA: Faktuel nøjagtighedsbenchmark. Tester en models evne til at give nøjagtige, faktuelle svar på ligetil spørgsmål. Måler pålidelighed og reducerer hallucinationer i vidensindhentningstasks. GPT-5.4 scorede 56.7% på denne benchmark.
IFEval
92%
IFEval: Instruktionsfølgningsevaluering. Måler, hvor godt en model følger specifikke instruktioner og begrænsninger. Tester evnen til at overholde formateringsregler, længdegrænser og andre eksplicitte krav. GPT-5.4 scorede 92% på denne benchmark.
AIME 2025
100%
AIME 2025: American Invitational Math Exam. Konkurrence-niveau matematikopgaver fra den prestigefyldte AIME-eksamen designet til talentfulde gymnasieelever. Tester avanceret matematisk problemløsning, der kræver abstrakt tænkning, ikke kun mønstergenkendelse. GPT-5.4 scorede 100% på denne benchmark.
MATH
88.6%
MATH: Matematisk problemløsning. En omfattende matematikbenchmark, der tester problemløsning inden for algebra, geometri, calculus og andre matematiske domæner. Kræver flertrinssværsonnering og formel matematisk viden. GPT-5.4 scorede 88.6% på denne benchmark.
GSM8k
99%
GSM8k: Folkeskole matematik 8K. 8.500 folkeskole-niveau matematiske tekstopgaver, der kræver flertrinssræsonnering. Tester grundlæggende aritmetik og logisk tænkning gennem virkelige scenarier som shopping eller tidsberegninger. GPT-5.4 scorede 99% på denne benchmark.
MGSM
96%
MGSM: Flersproget folkeskolematematik. GSM8k-benchmarken oversat til 10 sprog, herunder spansk, fransk, tysk, russisk, kinesisk og japansk. Tester matematisk ræsonnering på tværs af forskellige sprog. GPT-5.4 scorede 96% på denne benchmark.
MathVista
74%
MathVista: Matematisk visuel ræsonnering. Tester evnen til at løse matematikopgaver, der involverer visuelle elementer som diagrammer, grafer, geometriske figurer og videnskabelige illustrationer. Kombinerer visuel forståelse med matematisk ræsonnering. GPT-5.4 scorede 74% på denne benchmark.
SWE-Bench
52.8%
SWE-Bench: Softwareingeniør-benchmark. AI-modeller forsøger at løse rigtige GitHub-issues i open source Python-projekter med menneskelig verifikation. Tester praktiske softwareingeniørfærdigheder på produktionskodebaser. Topmodeller gik fra 4,4% i 2023 til over 70% i 2024. GPT-5.4 scorede 52.8% på denne benchmark.
HumanEval
85.1%
HumanEval: Python-programmeringsopgaver. 164 håndskrevne programmeringsopgaver, hvor modeller skal generere korrekte Python-funktionsimplementeringer. Hver løsning verificeres mod unit tests. Topmodeller opnår nu 90%+ nøjagtighed. GPT-5.4 scorede 85.1% på denne benchmark.
LiveCodeBench
72.5%
LiveCodeBench: Live kodningsbenchmark. Tester kodningsevner på løbende opdaterede, virkelige programmeringsudfordringer. I modsætning til statiske benchmarks bruger den friske problemer for at forhindre dataforurening og måle ægte kodningsevner. GPT-5.4 scorede 72.5% på denne benchmark.
MMMU
84.2%
MMMU: Multimodal forståelse. Massiv multi-disciplin multimodal forståelsesbenchmark, der tester vision-sprogmodeller på universitetsniveau-problemer på tværs af 30 fag, der kræver både billedforståelse og ekspertviden. GPT-5.4 scorede 84.2% på denne benchmark.
MMMU Pro
61%
MMMU Pro: MMMU Professionel udgave. Forbedret version af MMMU med mere udfordrende spørgsmål og strengere evaluering. Tester avanceret multimodal ræsonnering på professionelt og ekspertniveau. GPT-5.4 scorede 61% på denne benchmark.
ChartQA
89%
ChartQA: Diagram-spørgsmål og svar. Tester evnen til at forstå og ræsonnere om information præsenteret i diagrammer og grafer. Kræver udtrækning af data, sammenligning af værdier og udførelse af beregninger fra visuelle datarepræsentationer. GPT-5.4 scorede 89% på denne benchmark.
DocVQA
94%
DocVQA: Dokument visuel Q&A. Document Visual Question Answering benchmark, der tester evnen til at udtrække og ræsonnere om information fra dokumentbilleder, herunder formularer, rapporter og scannet tekst. GPT-5.4 scorede 94% på denne benchmark.
Terminal-Bench
55%
Terminal-Bench: Terminal/CLI-opgaver. Tester evnen til at udføre kommandolinjeopgaver, skrive shell-scripts og navigere i terminalmiljøer. Måler praktiske systemadministrations- og udviklingsworkflow-færdigheder. GPT-5.4 scorede 55% på denne benchmark.
ARC-AGI
52.9%
ARC-AGI: Abstraktion og ræsonnering. Abstraction and Reasoning Corpus for AGI - tester flydende intelligens gennem nye mønstergenkendelsespuslespil. Hver opgave kræver opdagelse af den underliggende regel fra eksempler, der måler generel ræsonneringsevne snarere end memorering. GPT-5.4 scorede 52.9% på denne benchmark.

Om GPT-5.4

Lær om GPT-5.4s muligheder, funktioner og hvordan den kan hjælpe dig med at opnå bedre resultater.

Frontlinjen inden for long-context reasoning

GPT-5.4 repræsenterer den højtydende udvikling af GPT-5 serien. Den har et brancheledende 1,05 millioner tokens context window. Denne model håndterer omfattende datasæt, såsom massive koderepositories eller flerårige historiske logfiler, uden at miste fidelity i sin reasoning. Den interaktive Mid-Response Steering gør det muligt for brugere at overvåge og justere modellens tænke-plan i realtid. Dette sikrer, at outputtet stemmer overens med komplekse intentioner i flere trin.

Forenet intelligens og autonom handling

Teknisk set forener GPT-5.4 de kodeniveauer, der kendetegner tidligere Codex-grene, med de kreative nuancer i standard GPT-5 serien. Den har en specialiseret Thinking mode med justerbare indsatsniveauer. Disse inkluderer Standard, Extended og Heavy modes. Den benytter forstærket chain-of-thought processering til at løse videnskabelige og logiske problemer på PhD-niveau. Udover tekst introducerer GPT-5.4 native computer use-kapaciteter. Den opnår en score på 75% på OSWorld-verificerede opgaver ved at fortolke visuelle skærmbilleder og udføre koordinatbaserede klik.

Effektivitet og pålidelighed

OpenAI rapporterer et fald på 33% i fejl på påstandsniveau sammenlignet med forgængere. Dette gør GPT-5.4 til et primært valg for autonome agenter og beslutningsstøtte af høj betydning. Den er designet til token- og energieffektivitet. Dette giver mulighed for billigere long-context processering end tidligere versioner. Uanset om man administrerer en hel virksomheds-kodebase eller agerer som en autonom planlægningsagent, sætter GPT-5.4 en ny standard for pålidelighed og agentic performance.

GPT-5.4

Anvendelser for GPT-5.4

Opdag de forskellige måder, du kan bruge GPT-5.4 til at opnå gode resultater.

Storskala kode-refactoring

Systematisk omskrivning af legacy-kodebaser på over 300.000 linjer med streng overholdelse af arkitektoniske standarder.

Autonom finansiel modellering

Opbygning af komplekse modeller med tre regnskaber, hvor AI'en afstemmer resultatopgørelser, balancer og pengestrømsopgørelser.

Interaktiv systemdesign

Udvikling af 3D-simuleringer eller fysikbaserede spil ved at styre modellens logik-sti under selve genereringsprocessen.

Agentic Computer Use

Udførelse af skrivebordsopgaver i flere trin, såsom bulk-dataindtastning, e-mailhåndtering og softwaretest via direkte UI-interaktion.

Long-Context juridisk analyse

Krydsreferering af hundredvis af juridiske dokumenter for at identificere uoverensstemmelser eller udtrække specifikke klausuler med høj præcision.

PhD-niveau forskningsstøtte

Løsning af komplekse matematiske beviser og videnskabelige problemer ved hjælp af Heavy Reasoning mode for verificerede logiske kæder.

Styrker

Begrænsninger

Massivt 1,05M Context: Giver brancheledende kapacitet til dybdegående analyse af enorme kodebaser og dokumentsæt uden tab af kontekst.
Reasoning-latency: Aktivering af Heavy Thinking mode kan medføre ventetider på flere minutter ved kompleks logik eller store kodegenereringer.
Interaktiv tænkning: Unik navigation midt i responsen gør det muligt for brugere at styre reasoning-stier, hvilket reducerer spildte genereringer og tokens betydeligt.
Rate Limiting: Under den indledende udrulning kan brugere opleve aggressive beskedbegrænsninger eller midlertidige konto-fejl, mens kapaciteten skaleres.
Native Computer Use: Højpræcis UI-interaktion (75% på OSWorld) gør det muligt for modellen at arbejde direkte i desktop- og browser-miljøer.
Ikke-lineær skalering: Ved visse kreative opgaver har lettere reasoning-tilstande vist sig at præstere bedre end de tunge tilstande, når det gælder æstetiske detaljer.
Ekstrem token-effektivitet: Optimeret arkitektur leverer 2026-frontier performance med lavere latency og energiforbrug end tidligere GPT-5 versioner.
Context Rot ved 1M: Selvom vinduet er stort, falder søgenøjagtigheden markant, når man går fra 256K til 1M tokens.

API hurtig start

openai/gpt-5.4

Se dokumentation
openai SDK
import OpenAI from "openai";

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    model: "gpt-5.4",
    messages: [
      { role: "user", content: "Refactor this controller for better error handling." }
    ],
    reasoning_effort: "heavy"
  });

  console.log(completion.choices[0].message.content);
}

main();

Installér SDK'et og begynd at foretage API-kald på få minutter.

Hvad folk siger om GPT-5.4

Se hvad fællesskabet mener om GPT-5.4

GPT 5.4 i Codex er en kæmpe forbedring... Jeg har faktisk set den arbejde i 150 minutter ad gangen uden at miste konteksten.
ArchMeta1868
reddit
GPT 5.4's 3D-design-evner er uovertrufne. Måden den håndterede gennemsigtighed og fysik i min skibssimulator var uhyggeligt præcis.
AI_Creative_Daily
twitter
Korrektion midt i responsen er utrolig. Jeg kan faktisk se, hvor modellen er på vej hen, og rette det, før den spilder tokens.
dev_guru_99
reddit
Den slog mennesker 83% af tiden på tværs af 44 forskellige jobs. Advokat. Revisor. Finansanalytiker. Administrator.
Josh Kale
twitter
OpenAI har endelig fikset output-flaskehalsen. 128k output tokens er en drøm for udviklere, der bygger full-stack applikationer.
TheCodeChannel
youtube
Computer use-latency er der stadig, men præcisionen er høj nok til at håndtere komplekse SAP-workflows, hvilket er vildt.
enterprise_sysadmin
hackernews

Videoer om GPT-5.4

Se vejledninger, anmeldelser og diskussioner om GPT-5.4

GPT 5.4 er her, og vi har måske lige fået en ny bedste model på planeten.

GPT 5.4 Thinking kan nu levere en upfront plan for sin tænkning... det giver dig mulighed for at guide modellen.

Dette interaktive element løser black-box-problemet ved reasoning-modeller.

Hastigheden sammenlignet med o1-preview er nat og dag for standardopgaver.

Du ser reasoning, der føles konsekvent gennem lange samtaler.

GPT 5.4... blev ikke bygget til at chatte. Den blev bygget til at arbejde.

Deferred loading... reducerede det samlede token-forbrug med 47% uden tab af præcision.

Computer use-funktionaliteten sporer UI-elementer med et koordinatbaseret system.

Jeg testede den med en legacy Java-kodebase, og den forstod faktisk afhængighederne på tværs af filer.

Vi bevæger os ind i en verden, hvor AI er styresystemets kontroller.

1 million 50.000 tokens context window. Det er et meget langt context window.

Naviger i den, mens den tænker, hvilket helt sikkert er mere effektivt at bruge.

Prisen er stejl, men for store dokumentsæt er det den eneste model, der fungerer.

Thinking mode kan justeres baseret på kompleksiteten i dit prompt.

Den føles mere pålidelig i faktuel genkaldelse end nogen tidligere GPT-version.

Mere end bare prompts

Supercharg din arbejdsgang med AI-automatisering

Automatio kombinerer kraften fra AI-agenter, webautomatisering og smarte integrationer for at hjælpe dig med at udrette mere på kortere tid.

AI-agenter
Webautomatisering
Smarte arbejdsgange

Pro-tips til GPT-5.4

Eksperttips til at hjælpe dig med at få mest muligt ud af GPT-5.4 og opnå bedre resultater.

Skift tænke-indsats

Brug Standard, Extended eller Heavy parametre for at balancere behovet for præcision mod hastighed og omkostninger ved generering.

Gennemgå tænke-planen

Overvåg den indledende plan, som modellen leverer, og brug Mid-Response Steering til at korrigere den, hvis logikken afviger.

Udnyt Deferred Tool Loading

Til agentic workflows kan du bruge registreringsdatabasen for udskudt indlæsning for at reducere de indledende token-omkostninger med op til 47%.

Brug Completeness Contracts

Definer eksplicit, hvad det betyder at være færdig i dit prompt, for at gøre modellen mere vedholdende under langvarige opgaver.

Vision med høj opløsning

Upload billeder i høj kvalitet op til 10,24 millioner pixels for præcise visuelle inspektioner af UI-elementer eller tekniske diagrammer.

Anmeldelser

Hvad vores brugere siger

Slut dig til tusindvis af tilfredse brugere, der har transformeret deres arbejdsgang

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relateret AI Models

moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M

Ofte stillede spørgsmål om GPT-5.4

Find svar på almindelige spørgsmål om GPT-5.4