openai

GPT-5.4

GPT-5.4 është frontier model i OpenAI që përmban një context window prej 1.05M dhe Extreme Reasoning. Shkëlqen në ndërveprimin UI autonom dhe analizën e të...

OpenAIGPT-51M ContextReasoningMultimodal
openai logoopenaiGPT-5March 4, 2026
Konteksti
1.1Mtokena
Output maksimal
128Ktokena
Cmimi i inputit
$2.50/ 1M
Cmimi i outputit
$15.00/ 1M
Modaliteti:TextImage
Aftesite:VizioniMjetetStreamingArsyetimi
Benchmarket
GPQA
84.2%
GPQA: Pyetje shkence niveli pasuniversitar. Benchmark rigoroz me 448 pyetje nga biologjia, fizika dhe kimia. Ekspertet PhD arrijne vetem 65-74% saktesi. GPT-5.4 mori 84.2% ne kete benchmark.
HLE
42%
HLE: Arsyetim niveli ekspert. Teston aftesine e modelit per te demonstruar arsyetim niveli ekspert ne fusha te specializuara. GPT-5.4 mori 42% ne kete benchmark.
MMLU
91%
MMLU: Kuptim masiv gjuhor multitask. Benchmark gjitheperfshires me 16,000 pyetje ne 57 lende akademike. GPT-5.4 mori 91% ne kete benchmark.
MMLU Pro
76%
MMLU Pro: MMLU Edicioni Profesional. Version i permiresuar i MMLU me 12,032 pyetje dhe format me te veshtire me 10 opsione. GPT-5.4 mori 76% ne kete benchmark.
SimpleQA
56.7%
SimpleQA: Benchmark saktesie faktike. Teston aftesine e modelit per te dhene pergjigje te sakta, faktike. GPT-5.4 mori 56.7% ne kete benchmark.
IFEval
92%
IFEval: Vleresim i ndjekjes se udhezimeve. Mat sa mire modeli ndjek udhezime dhe kufizime specifike. GPT-5.4 mori 92% ne kete benchmark.
AIME 2025
100%
AIME 2025: Provimi Amerikan i Matematikes me Ftese. Probleme matematike niveli konkursi nga provimi prestigjioz AIME. GPT-5.4 mori 100% ne kete benchmark.
MATH
88.6%
MATH: Zgjidhje problemesh matematike. Benchmark gjitheperfshires matematike qe teston zgjidhjen e problemeve ne algebre, gjeometri, kalkulus. GPT-5.4 mori 88.6% ne kete benchmark.
GSM8k
99%
GSM8k: Matematike shkolle fillore 8K. 8,500 probleme matematike me fjale niveli shkolle fillore. GPT-5.4 mori 99% ne kete benchmark.
MGSM
96%
MGSM: Matematike shkolle fillore shumegjuheshe. Benchmarku GSM8k i perkthyer ne 10 gjuhe. GPT-5.4 mori 96% ne kete benchmark.
MathVista
74%
MathVista: Arsyetim vizual matematik. Teston aftesine per te zgjidhur probleme matematike me elemente vizuale. GPT-5.4 mori 74% ne kete benchmark.
SWE-Bench
52.8%
SWE-Bench: Benchmark inxhinieri software. Modelet AI perpiqen te zgjidhin probleme reale GitHub ne projekte Python. GPT-5.4 mori 52.8% ne kete benchmark.
HumanEval
85.1%
HumanEval: Probleme programimi Python. 164 probleme programimi ku modelet duhet te gjenerojne implementime te sakta funksionesh Python. GPT-5.4 mori 85.1% ne kete benchmark.
LiveCodeBench
72.5%
LiveCodeBench: Benchmark kodimi live. Teston aftesite e kodimit ne sfida programimi te botes reale qe perditsohen vazhdimisht. GPT-5.4 mori 72.5% ne kete benchmark.
MMMU
84.2%
MMMU: Kuptim multimodal. Benchmark kuptimi multimodal nga 30 lende universitare. GPT-5.4 mori 84.2% ne kete benchmark.
MMMU Pro
61%
MMMU Pro: MMMU Edicioni Profesional. Version i permiresuar i MMMU me pyetje me sfiduese. GPT-5.4 mori 61% ne kete benchmark.
ChartQA
89%
ChartQA: Pyetje dhe pergjigje grafiku. Teston aftesine per te kuptuar dhe analizuar informacion nga grafiqet dhe diagramet. GPT-5.4 mori 89% ne kete benchmark.
DocVQA
94%
DocVQA: Pyetje vizuale dokumentesh. Teston aftesine per te nxjerre informacion nga imazhet e dokumenteve. GPT-5.4 mori 94% ne kete benchmark.
Terminal-Bench
55%
Terminal-Bench: Detyra terminal/CLI. Teston aftesine per te kryer operacione te linjes se komandes. GPT-5.4 mori 55% ne kete benchmark.
ARC-AGI
52.9%
ARC-AGI: Abstraksion dhe arsyetim. Teston inteligjencen e lengeshem permes puzzleve te reja te njohjes se modeleve. GPT-5.4 mori 52.9% ne kete benchmark.

Rreth GPT-5.4

Meso per aftesite e GPT-5.4, vecorite dhe si mund te te ndihmoje te arrish rezultate me te mira.

Kufiri i Reasoning me Context të Gjatë

GPT-5.4 përfaqëson evolucionin me performancë të lartë të serisë GPT-5, i karakterizuar nga context window e tij lider në industri prej 1.05 milionë token. Ky model është i projektuar posaçërisht për të trajtuar sete të dhënash të gjera, si repository masive kodi ose log-e historike shumëvjeçare, pa humbur aftësinë për të kryer reasoning me high-fidelity. Një veçori spikatëse është interactive "Mid-Response Steering," i cili u lejon përdoruesve të monitorojnë vizualisht dhe të rregullojnë planin e mendimit të model-it në kohë reale, duke siguruar që output-i të përputhet në mënyrë perfekte me qëllimet komplekse me shumë hapa.

Inteligjencë e Unifikuar dhe Veprim Autonom

Teknikisht, GPT-5.4 bashkon pikat e forta të coding të nivelit botëror të degëve të mëparshme specifike të Codex me nuancat krijuese të serisë standarde GPT-5. Ai përmban një mode "Thinking" të specializuar me nivele përpjekjeje të rregullueshme (Standard, Extended dhe Heavy) që përdor procesim të përforcuar të chain-of-thought për të zgjidhur probleme shkencore dhe logjike të nivelit PhD. Përveç tekstit, GPT-5.4 prezanton aftësi native për computer use, duke arritur një rezultat 75% në detyrat e verifikuara nga OSWorld duke interpretuar screenshots vizuale me high-fidelity dhe duke ekzekutuar klikime të bazuara në koordinata.

Efiçenca dhe Besueshmëria

OpenAI raporton një rënie të ndjeshme prej 33% në gabimet e nivelit të pretendimeve krahasuar me paraardhësit e tij, duke e bërë GPT-5.4 një zgjedhje kryesore për agjentët agentic dhe mbështetje për vendimmarrje me rëndësi të lartë. Pavarësisht fuqisë së tij, ai është i projektuar për efiçencë të token dhe energjisë, duke lejuar procesim më të lirë të context të gjatë sesa iteracionet e mëparshme. Pavarësisht nëse menaxhon një codebase të tërë të një ndërmarrjeje apo vepron si një agjent planifikimi autonom, GPT-5.4 vendos një standard të ri për besueshmërinë dhe performancën agentic në peizazhin e AI gjenerative.

GPT-5.4

Rastet e perdorimit per GPT-5.4

Zbulo menyrat e ndryshme per te perdorur GPT-5.4 per te arritur rezultate te shkelvqyera.

Refactoring i Codebase-ve të Mëdha

Analizimi i qindra skedarëve burimorë simulte për të siguruar konsistencën midis moduleve dhe identifikuar bug-et semantike të thella në të gjithë repository-t.

Planifikimi Agentic Autonom

Ndërveprimi me email dhe kalendarë përmes visual grounding për të koordinuar në mënyrë autonome oraret e ngjarjeve komplekse dhe dërguar komunikime pasuese.

Dizajni Arkitekturor me High-Fidelity

Gjenerimi i skenave 3D të ndërlikuara dhe planeve strukturore, si stacione metroje funksionale, duke përdorur mbi 1,000 rreshta kodi preciz dhe të gatshëm për simulim.

Planifikimi Shkencor Long-Horizon

Përdorimi i Extreme Reasoning për të zgjidhur probleme shkencore të nivelit PhD dhe kryer analiza me shumë hapa që kërkojnë orë të tëra menaxhimi konsistent të gjendjes.

Hetimi i Incidenteve të Cybersecurity

Procesimi i sasive të mëdha të të dhënave log të papërpunuara brenda një sesioni të vetëm 1.05M context për të identifikuar, hetuar dhe raportuar në mënyrë autonome shkeljet e sigurisë.

Mid-Response Steering Interaktiv

Korrigjimi i drejtimit të model-it gjatë fazës së brendshme të 'mendimit' për të rregulluar zgjedhjet arkitekturore ose rrugët logjike pa pasur nevojë të rinisni prompt-in.

Pikat e forta

Kufizimet

Frontier 1.05M Context Window: Ofron kapacitet lider në industri për të bërë reasoning mbi sete të dhënash masive dhe codebase në një prompt të vetëm pa humbje të menjëhershme të koherencës.
Degradimi i Context të Gjatë: Performanca në detyrat e reasoning me kompleksitet të lartë vërehet të bjerë ndjeshëm sapo context window kalon kufirin prej 256K tokens.
Saktësi në Extreme Reasoning: Arrin njohuri shkencore të nivelit PhD (84.2% në GPQA) dhe rezultate perfekte në matematikë (100% në AIME 2025) duke përdorur mode-in e tij të reasoning me përpjekje të lartë.
Skema e Versionimit Konfuze: Gama komplekse e varianteve 5.1, 5.2 Thinking, 5.3 Codex dhe 5.4 krijon një ngarkesë kognitive të konsiderueshme për zhvilluesit e API-ve dhe përdoruesit e Chat.
Ndërveprim UI Autonom: Visual grounding i teknologjisë së fundit lejon model-in të ndërveprojë me softuerë dhe browser-ë me saktësi 75% në benchmark-un OSWorld.
Latency e Lartë në Heavy Mode: Mode-t me reasoning effort më të lartë mund të kërkojnë mbi 8 minuta për të procesuar chain-of-thought të brendshëm, duke i bërë ato të papërshtatshme për detyra interaktive në kohë reale.
Efiçencë e Token dhe Energjisë: I projektuar si frontier model më efiçent i OpenAI deri më sot, duke reduktuar koston e energjisë së nevojshme për reasoning kompleks krahasuar me lëshimin e GPT-5.2.
Alignment Neurotik: Fine-tuning agresiv i sigurisë mund të çojë në sjellje kundërshtuese ku model-i kundërshton pa nevojë përdoruesin për tema faktike të padëmshme.

Fillim i shpejte API

openai/gpt-5.4

Shiko dokumentacionin
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    model: "gpt-5.4",
    messages: [{ role: "user", content: "Analyze this 1.05M token log file for security threats." }],
    reasoning_effort: "heavy",
    stream: true,
  });

  for await (const chunk of completion) {
    process.stdout.write(chunk.choices[0]?.delta?.content || '');
  }
}

main();

Instalo SDK-ne dhe fillo te besh thirrje API brenda minutash.

Cfare thone njerezit per GPT-5.4

Shiko se cfare mendon komuniteti per GPT-5.4

GPT-5 po bën një rikthim brutalisht dominues... çdo rresht kodi që gjeneroi ishte plotësisht funksional.
immortalsol
reddit
Veçoria kryesore është padyshim 1M context window, krahasuar me ~200k që mbështesin model-et e tjerë.
Developer
hackernews
Wow, GPT 5.4 është çmendurisht i mirë. Duhej të ishte një rritje versioni në 6.0. Vështirë të besohet se Codex ka arritur deri këtu.
Rahul Sood
twitter
GPT-5.4 shënon rezultate ekstra të larta 94.0 në NYT Connections. Thjesht i qëllon gjërat saktë, që në provën e parë.
senko
hackernews
GPT-5.4 është tani në Artificial Analysis Intelligence Index... I barabartë me Gemini 3.1 Pro.
AiBattle
twitter
Thellësia e reasoning është më në fund në nivelin ku mund të përballojë probleme arkitekturore të shkallës enterprise.
CloudArchitect99
reddit

Video rreth GPT-5.4

Shiko tutoriale, rishikime dhe diskutime rreth GPT-5.4

Një context window prej 1 milion e 50,000 token... kjo është një dritare konteksti shumë e gjatë.

Në 5 minuta e 22 sekonda mendim, ne morëm rezultatin tonë... ai e testoi këtë më shumë në një mënyrë agentic.

Përditësimi i aftësisë së këtij modeli për të parë imazhe high-fidelity... deri në 10.24 milionë pikselë në total.

Model-i në fakt kryen kërkime nëpër ueb për të verifikuar logjikën e tij.

Ky është një hap masiv për workflow-t agentic ku gjendja duhet të vazhdojë.

GPT 5.4 i ka të gjitha... ata në thelb thanë, dakord, 5.2 dhe GPT 5.3 Codex, bëni një fëmijë.

Aftësitë e coding janë qesharake. Është esencialisht i pagabueshëm.

Shija e front-end është shumë prapa Opus 4.6 dhe Gemini 3.1 Pro.

Ndjehet sikur ka një kuptim shumë më të mirë të qëllimit të nuancuar të zhvilluesit.

Pika e çmimit është konkurruese duke pasur parasysh madhësinë e 1M token window.

Është e qartë se po i bëhet presion OpenAI për t'u përgjigjur me një model që përputhet me atë kapacitet 1 milion context.

Në një shot të vetëm, fakti që ky model është në gjendje të krijojë këtë klon të Minecraft është thjesht i jashtëzakonshëm.

Po shohim një reduktim prej 33 për qind në normat e halucinacioneve faktike.

Mode-t e reasoning janë të kategorizuara në nivelet Standard, Extended dhe Heavy.

Visual grounding në benchmark-un OSWorld është lider në industri për momentin.

Me shume se vetem prompte

Superkariko workflow-n tend me automatizimin AI

Automatio kombinon fuqine e agjenteve AI, automatizimin e web-it dhe integrimet inteligjente per te te ndihmuar te arrish me shume ne me pak kohe.

Agjentet AI
Automatizimi i web-it
Workflow-e inteligjente

Keshilla Pro per GPT-5.4

Keshilla ekspertesh per te te ndihmuar te marrresh maksimumin nga GPT-5.4 dhe te arrish rezultate me te mira.

Ndryshoni Reasoning Effort

Përdorni nivelet e reasoning Standard, Extended ose Heavy në varësi të kompleksitetit të detyrës për të balancuar koston llogaritëse dhe cilësinë e output-it.

Monitoroni Planin Paraprak

Kur përdorni variantin Thinking, vëzhgoni planin paraprak; mund të ndërhyni gjatë gjenerimit nëse rruga logjike e propozuar e model-it duket e gabuar.

Prompt Caching Strategjik

Vendosni blloqe të mëdha e statike të kontekstit në fillim të prompt-it tuaj për të përfituar nga prompt caching automatik i OpenAI për kursim kostosh.

Menaxhoni Stabilitetin e Context

Ndonëse window prej 1.05M është robuste, performanca raportohet të jetë më e qëndrueshme brenda 256K tokens të parë; mbajini përmbledhjet kritike pranë fundit të prompt-it.

Deshmi

Cfare thone perdoruesit tane

Bashkohu me mijera perdorues te kenaqur qe kane transformuar workflow-n e tyre

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Te lidhura AI Models

xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
anthropic

Claude 3.7 Sonnet

Anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
anthropic

Claude Sonnet 4.5

Anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
zhipu

GLM-4.7

Zhipu (GLM)

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M

Pyetjet e bera shpesh rreth GPT-5.4

Gjej pergjigje per pyetjet e zakonshme rreth GPT-5.4