openai

GPT-5.4

GPT-5.4는 1.05M context window와 Extreme Reasoning을 특징으로 하는 OpenAI의 frontier model입니다. 자율적인 UI 상호작용과 긴 형식의 데이터 분석에 탁월합니다.

OpenAIGPT-51M ContextReasoningMultimodal
openai logoopenaiGPT-52026년 3월 4일
컨텍스트
1.1M토큰
최대 출력
128K토큰
입력 가격
$2.50/ 1M
출력 가격
$15.00/ 1M
모달리티:TextImage
기능:비전도구스트리밍추론
벤치마크
GPQA
84.2%
GPQA: 대학원 수준 과학 Q&A. 생물학, 물리학, 화학 분야의 448개 객관식 문제로 구성된 엄격한 벤치마크. 박사 전문가도 65-74%의 정확도만 달성합니다. GPT-5.4이 이 벤치마크에서 84.2%점을 기록했습니다.
HLE
42%
HLE: 고급 전문 추론. 전문 분야에서 전문가 수준의 추론을 보여주는 모델의 능력을 테스트합니다. GPT-5.4이 이 벤치마크에서 42%점을 기록했습니다.
MMLU
91%
MMLU: 대규모 다중 작업 언어 이해. 57개 학술 과목에 걸쳐 16,000개의 객관식 문제로 구성된 종합 벤치마크. GPT-5.4이 이 벤치마크에서 91%점을 기록했습니다.
MMLU Pro
76%
MMLU Pro: MMLU 프로페셔널 에디션. 더 어려운 10지선다형 형식의 12,032개 문제를 포함하는 MMLU의 향상된 버전. GPT-5.4이 이 벤치마크에서 76%점을 기록했습니다.
SimpleQA
56.7%
SimpleQA: 사실 정확성 벤치마크. 직접적인 질문에 정확하고 사실적인 응답을 제공하는 모델의 능력을 테스트합니다. GPT-5.4이 이 벤치마크에서 56.7%점을 기록했습니다.
IFEval
92%
IFEval: 지시 따르기 평가. 모델이 특정 지시와 제약 조건을 얼마나 잘 따르는지 측정합니다. GPT-5.4이 이 벤치마크에서 92%점을 기록했습니다.
AIME 2025
100%
AIME 2025: 미국 초청 수학 시험. 명문 AIME 시험의 경쟁 수준 수학 문제. GPT-5.4이 이 벤치마크에서 100%점을 기록했습니다.
MATH
88.6%
MATH: 수학 문제 해결. 대수, 기하, 미적분 등의 분야를 테스트하는 종합 수학 벤치마크. GPT-5.4이 이 벤치마크에서 88.6%점을 기록했습니다.
GSM8k
99%
GSM8k: 초등학교 수학 8K. 다단계 추론이 필요한 8,500개의 초등학교 수준 수학 문장제. GPT-5.4이 이 벤치마크에서 99%점을 기록했습니다.
MGSM
96%
MGSM: 다국어 초등학교 수학. GSM8k 벤치마크를 10개 언어로 번역한 것. GPT-5.4이 이 벤치마크에서 96%점을 기록했습니다.
MathVista
74%
MathVista: 수학적 시각 추론. 차트, 그래프 등 시각적 요소가 포함된 수학 문제를 푸는 능력을 테스트합니다. GPT-5.4이 이 벤치마크에서 74%점을 기록했습니다.
SWE-Bench
52.8%
SWE-Bench: 소프트웨어 엔지니어링 벤치마크. AI 모델이 오픈소스 Python 프로젝트의 실제 GitHub 이슈를 해결하려고 시도합니다. GPT-5.4이 이 벤치마크에서 52.8%점을 기록했습니다.
HumanEval
85.1%
HumanEval: Python 프로그래밍 문제. 모델이 올바른 Python 함수 구현을 생성해야 하는 164개의 수작업 프로그래밍 문제. GPT-5.4이 이 벤치마크에서 85.1%점을 기록했습니다.
LiveCodeBench
72.5%
LiveCodeBench: 라이브 코딩 벤치마크. 지속적으로 업데이트되는 실제 프로그래밍 챌린지에서 코딩 능력을 테스트합니다. GPT-5.4이 이 벤치마크에서 72.5%점을 기록했습니다.
MMMU
84.2%
MMMU: 멀티모달 이해. 대학 수준 문제에서 비전-언어 모델을 테스트하는 대규모 다분야 멀티모달 이해 벤치마크. GPT-5.4이 이 벤치마크에서 84.2%점을 기록했습니다.
MMMU Pro
61%
MMMU Pro: MMMU 프로페셔널 에디션. 더 도전적인 문제와 더 엄격한 평가를 갖춘 MMMU의 향상된 버전. GPT-5.4이 이 벤치마크에서 61%점을 기록했습니다.
ChartQA
89%
ChartQA: 차트 질문 응답. 차트와 그래프에 제시된 정보를 이해하고 추론하는 능력을 테스트합니다. GPT-5.4이 이 벤치마크에서 89%점을 기록했습니다.
DocVQA
94%
DocVQA: 문서 시각 Q&A. 문서 이미지에서 정보를 추출하는 능력을 테스트하는 문서 시각 질문 응답 벤치마크. GPT-5.4이 이 벤치마크에서 94%점을 기록했습니다.
Terminal-Bench
55%
Terminal-Bench: 터미널/CLI 작업. 명령줄 작업을 수행하고 셸 스크립트를 작성하는 능력을 테스트합니다. GPT-5.4이 이 벤치마크에서 55%점을 기록했습니다.
ARC-AGI
52.9%
ARC-AGI: 추상화 및 추론. AGI를 위한 추상화 및 추론 코퍼스 - 새로운 패턴 인식 퍼즐로 유동 지능을 테스트합니다. GPT-5.4이 이 벤치마크에서 52.9%점을 기록했습니다.

GPT-5.4 소개

GPT-5.4의 기능, 특징 및 더 나은 결과를 얻는 방법에 대해 알아보세요.

장기 Context Reasoning의 프런티어

GPT-5.4는 업계 최고의 105만 token context window를 특징으로 하는 GPT-5 시리즈의 고성능 진화 모델입니다. 이 model은 high-fidelity reasoning 능력을 잃지 않으면서 거대한 code repository나 수년간의 기록 로그와 같은 방대한 데이터셋을 처리하도록 설계되었습니다. 눈에 띄는 기능은 대화형 "Mid-Response Steering"으로, 사용자가 model의 사고 계획을 실시간으로 시각적으로 모니터링하고 조정하여 출력이 복잡한 다단계 의도와 완벽하게 일치하도록 보장합니다.

통합된 지능과 자율적 행동

기술적으로 GPT-5.4는 이전 Codex 전용 브랜치의 세계적 수준의 코딩 강점과 표준 GPT-5 시리즈의 창의적인 뉘앙스를 통합합니다. 박사 수준의 과학 및 논리 문제를 해결하기 위해 강화된 chain-of-thought 처리를 활용하는 조정 가능한 노력 수준(Standard, Extended, Heavy)의 특수 "Thinking" 모드를 갖추고 있습니다. 텍스트를 넘어 GPT-5.4는 네이티브 컴퓨터 사용 기능을 도입하여, high-fidelity 시각적 스크린샷을 해석하고 좌표 기반 클릭을 실행함으로써 OSWorld-Verified 작업에서 75%의 점수를 달성했습니다.

효율성과 신뢰성

OpenAI는 이전 모델에 비해 클레임 수준의 오류가 33% 크게 감소했다고 보고하여, GPT-5.4를 자율 agent 및 고도의 의사 결정 지원을 위한 최고의 선택으로 만들었습니다. 강력한 성능에도 불구하고 token 및 에너지 효율성을 고려하여 설계되어 이전 세대보다 저렴한 비용으로 긴 context 처리가 가능합니다. 기업 전체의 코드베이스를 관리하든 자율 스케줄링 agent 역할을 수행하든, GPT-5.4는 생성 AI 환경에서 신뢰성과 agentic 성능의 새로운 기준을 제시합니다.

GPT-5.4

GPT-5.4 사용 사례

GPT-5.4을 사용하여 훌륭한 결과를 얻는 다양한 방법을 발견하세요.

대규모 코드베이스 리팩토링

수백 개의 소스 파일을 동시에 수용하고 분석하여 모듈 간 일관성을 보장하고 전체 저장소에서 깊은 의미론적 버그를 식별합니다.

자율적 agentic 스케줄링

시각적 그라운딩을 통해 이메일 및 캘린더와 상호작용하여 복잡한 이벤트 일정을 자율적으로 조정하고 후속 커뮤니케이션을 전송합니다.

High-Fidelity 건축 설계

1,000라인 이상의 정밀하고 시뮬레이션 가능한 코드를 사용하여 기능적인 지하철역과 같은 복잡한 3D 장면 및 구조 계획을 생성합니다.

장기 과학적 계획

Extreme Reasoning을 활용해 박사 수준의 과학 문제를 해결하고 수시간의 일관된 상태 관리가 필요한 다단계 분석을 수행합니다.

사이버 보안 사고 조사

단일 1.05M context 세션 내에서 방대한 양의 원시 로그 데이터를 처리하여 보안 침해를 자율적으로 식별, 조사 및 보고합니다.

대화형 Mid-Response Steering

prompt를 다시 시작할 필요 없이 내부 'thinking' 단계에서 model의 경로를 수정하여 아키텍처 선택이나 논리 경로를 조정합니다.

강점

제한

Frontier 1.05M Context Window: 단일 prompt에서 일관성 상실 없이 방대한 데이터셋과 코드베이스를 reasoning할 수 있는 업계 최고의 용량을 제공합니다.
긴 Context 성능 저하: context window가 256K token 지점을 초과하면 고복잡도 reasoning 작업의 성능이 크게 떨어지는 것으로 알려져 있습니다.
Extreme Reasoning 정확도: high-effort reasoning 모드를 사용하여 박사 수준의 과학 지식(GPQA 84.2%)과 완벽한 수학 점수(AIME 2025 100%)를 달성합니다.
혼란스러운 버전 체계: 5.1, 5.2 Thinking, 5.3 Codex, 5.4 변체의 복잡한 라인업은 API 개발자와 채팅 사용자에게 상당한 인지 부하를 줍니다.
자율적 UI 상호작용: state-of-the-art 시각적 그라운딩을 통해 OSWorld benchmark에서 75%의 정확도로 소프트웨어 및 브라우저와 상호작용할 수 있습니다.
Heavy 모드의 높은 Latency: 가장 높은 reasoning 노력 모드는 내부 chain-of-thought 처리에 8분 이상 걸릴 수 있어 실시간 대화형 작업에는 부적합합니다.
Token 및 에너지 효율성: OpenAI의 가장 효율적인 frontier model로 설계되어 GPT-5.2 릴리스에 비해 복잡한 reasoning에 필요한 에너지 비용을 절감합니다.
강박적인 Alignment: 공격적인 안전 fine-tuning으로 인해 해롭지 않은 사실적 주제에 대해서도 model이 불필요하게 사용자와 반박하는 행동을 보일 수 있습니다.

API 빠른 시작

openai/gpt-5.4

문서 보기
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    model: "gpt-5.4",
    messages: [{ role: "user", content: "Analyze this 1.05M token log file for security threats." }],
    reasoning_effort: "heavy",
    stream: true,
  });

  for await (const chunk of completion) {
    process.stdout.write(chunk.choices[0]?.delta?.content || '');
  }
}

main();

SDK를 설치하고 몇 분 안에 API 호출을 시작하세요.

GPT-5.4에 대한 사람들의 의견

커뮤니티가 GPT-5.4에 대해 어떻게 생각하는지 확인하세요

GPT-5가 압도적인 모습으로 돌아왔습니다... 생성된 모든 코드 라인이 완벽하게 작동했습니다.
immortalsol
reddit
가장 눈에 띄는 특징은 단연 1M context window입니다. 다른 model들이 지원하는 약 200k와 비교되네요.
Developer
hackernews
와, GPT 5.4는 정말 좋네요. 6.0으로 올려도 될 정도입니다. Codex가 여기까지 왔다니 믿기지 않네요.
Rahul Sood
twitter
GPT-5.4는 NYT Connections에서 94.0점의 매우 높은 점수를 기록했습니다. 첫 시도에 바로 맞춰버리네요.
senko
hackernews
GPT-5.4가 이제 Artificial Analysis Intelligence Index에 등재되었습니다... Gemini 3.1 Pro와 동률입니다.
AiBattle
twitter
reasoning 깊이가 드디어 엔터프라이즈 규모의 아키텍처 문제를 다룰 수 있는 수준에 도달했습니다.
CloudArchitect99
reddit

GPT-5.4에 대한 동영상

GPT-5.4에 대한 튜토리얼, 리뷰 및 토론 시청

105만 token context window... 정말 긴 context window입니다.

5분 22초 동안의 thinking 후에 결과를 받았습니다... 더 agentic한 방식으로 테스트했습니다.

최대 1,024만 픽셀의 high-fidelity 이미지를 보는 능력을 업데이트했습니다.

model이 실제로 웹 전체에서 리서치를 수행하여 자신의 논리를 검증합니다.

상태 유지가 필요한 agentic 워크플로우에 있어 거대한 도약입니다.

GPT 5.4에는 모든 것이 들어있습니다... 기본적으로 5.2와 GPT 5.3 Codex 사이에서 태어난 아이 같습니다.

코딩 능력은 말도 안 됩니다. 본질적으로 완벽합니다.

프론트엔드 감각은 Opus 4.6이나 Gemini 3.1 Pro에 비해 훨씬 뒤처집니다.

미묘한 개발자 의도를 훨씬 더 잘 이해하는 것처럼 느껴집니다.

1M token window 크기를 고려하면 가격 경쟁력이 있습니다.

이것은 OpenAI가 100만 context 기능에 필적하는 model로 대응하도록 압박을 가하고 있음이 분명합니다.

한 번의 시도로 이 model이 마인크래프트 클론을 만들 수 있다는 사실은 정말 놀랍습니다.

사실적 환각(hallucination) 발생률이 33% 감소한 것을 확인하고 있습니다.

reasoning 모드는 Standard, Extended, Heavy 레벨로 분류됩니다.

OSWorld benchmark에서의 시각적 그라운딩은 현재 업계 최고 수준입니다.

단순한 프롬프트 이상

워크플로를 강화하세요 AI 자동화

Automatio는 AI 에이전트, 웹 자동화 및 스마트 통합의 힘을 결합하여 더 짧은 시간에 더 많은 것을 달성할 수 있도록 도와줍니다.

AI 에이전트
웹 자동화
스마트 워크플로

GPT-5.4 프로 팁

GPT-5.4을 최대한 활용하기 위한 전문가 팁.

Reasoning Effort 조정

작업의 복잡성에 따라 Standard, Extended, 또는 Heavy reasoning 노력을 사용하여 연산 비용과 출력 품질의 균형을 맞추세요.

사전 계획 모니터링

Thinking 변체를 사용할 때 사전 계획을 확인하세요. model이 제안한 논리 경로에 결함이 보이면 생성 중간에 개입할 수 있습니다.

전략적 prompt caching

OpenAI의 자동 prompt caching을 활용해 비용을 절감하려면 prompt 시작 부분에 크고 정적인 context 블록을 배치하세요.

Context 안정성 관리

1.05M window는 견고하지만, 성능은 첫 256K token 내에서 가장 안정적인 것으로 보고됩니다. 중요한 요약 정보는 prompt 끝부분 근처에 배치하세요.

후기

사용자 후기

워크플로를 혁신한 수천 명의 만족한 사용자와 함께하세요

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

관련 AI Models

xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
anthropic

Claude 3.7 Sonnet

Anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
anthropic

Claude Sonnet 4.5

Anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
zhipu

GLM-4.7

Zhipu (GLM)

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M

GPT-5.4에 대한 자주 묻는 질문

GPT-5.4에 대한 일반적인 질문에 대한 답변 찾기