openai

GPT-5.4

GPT-5.4는 1.05M context window와 Extreme Reasoning을 갖춘 OpenAI의 frontier model입니다. 자율 UI 상호작용과 긴 데이터 분석에 탁월합니다.

OpenAIGPT-51M ContextReasoningMultimodal
openai logoopenaiGPT-52026년 3월 5일
컨텍스트
1.1M토큰
최대 출력
128K토큰
입력 가격
$2.50/ 1M
출력 가격
$15.00/ 1M
모달리티:TextImage
기능:비전도구스트리밍추론
벤치마크
GPQA
84.2%
GPQA: 대학원 수준 과학 Q&A. 생물학, 물리학, 화학 분야의 448개 객관식 문제로 구성된 엄격한 벤치마크. 박사 전문가도 65-74%의 정확도만 달성합니다. GPT-5.4이 이 벤치마크에서 84.2%점을 기록했습니다.
HLE
42%
HLE: 고급 전문 추론. 전문 분야에서 전문가 수준의 추론을 보여주는 모델의 능력을 테스트합니다. GPT-5.4이 이 벤치마크에서 42%점을 기록했습니다.
MMLU
91%
MMLU: 대규모 다중 작업 언어 이해. 57개 학술 과목에 걸쳐 16,000개의 객관식 문제로 구성된 종합 벤치마크. GPT-5.4이 이 벤치마크에서 91%점을 기록했습니다.
MMLU Pro
76%
MMLU Pro: MMLU 프로페셔널 에디션. 더 어려운 10지선다형 형식의 12,032개 문제를 포함하는 MMLU의 향상된 버전. GPT-5.4이 이 벤치마크에서 76%점을 기록했습니다.
SimpleQA
56.7%
SimpleQA: 사실 정확성 벤치마크. 직접적인 질문에 정확하고 사실적인 응답을 제공하는 모델의 능력을 테스트합니다. GPT-5.4이 이 벤치마크에서 56.7%점을 기록했습니다.
IFEval
92%
IFEval: 지시 따르기 평가. 모델이 특정 지시와 제약 조건을 얼마나 잘 따르는지 측정합니다. GPT-5.4이 이 벤치마크에서 92%점을 기록했습니다.
AIME 2025
100%
AIME 2025: 미국 초청 수학 시험. 명문 AIME 시험의 경쟁 수준 수학 문제. GPT-5.4이 이 벤치마크에서 100%점을 기록했습니다.
MATH
88.6%
MATH: 수학 문제 해결. 대수, 기하, 미적분 등의 분야를 테스트하는 종합 수학 벤치마크. GPT-5.4이 이 벤치마크에서 88.6%점을 기록했습니다.
GSM8k
99%
GSM8k: 초등학교 수학 8K. 다단계 추론이 필요한 8,500개의 초등학교 수준 수학 문장제. GPT-5.4이 이 벤치마크에서 99%점을 기록했습니다.
MGSM
96%
MGSM: 다국어 초등학교 수학. GSM8k 벤치마크를 10개 언어로 번역한 것. GPT-5.4이 이 벤치마크에서 96%점을 기록했습니다.
MathVista
74%
MathVista: 수학적 시각 추론. 차트, 그래프 등 시각적 요소가 포함된 수학 문제를 푸는 능력을 테스트합니다. GPT-5.4이 이 벤치마크에서 74%점을 기록했습니다.
SWE-Bench
52.8%
SWE-Bench: 소프트웨어 엔지니어링 벤치마크. AI 모델이 오픈소스 Python 프로젝트의 실제 GitHub 이슈를 해결하려고 시도합니다. GPT-5.4이 이 벤치마크에서 52.8%점을 기록했습니다.
HumanEval
85.1%
HumanEval: Python 프로그래밍 문제. 모델이 올바른 Python 함수 구현을 생성해야 하는 164개의 수작업 프로그래밍 문제. GPT-5.4이 이 벤치마크에서 85.1%점을 기록했습니다.
LiveCodeBench
72.5%
LiveCodeBench: 라이브 코딩 벤치마크. 지속적으로 업데이트되는 실제 프로그래밍 챌린지에서 코딩 능력을 테스트합니다. GPT-5.4이 이 벤치마크에서 72.5%점을 기록했습니다.
MMMU
84.2%
MMMU: 멀티모달 이해. 대학 수준 문제에서 비전-언어 모델을 테스트하는 대규모 다분야 멀티모달 이해 벤치마크. GPT-5.4이 이 벤치마크에서 84.2%점을 기록했습니다.
MMMU Pro
61%
MMMU Pro: MMMU 프로페셔널 에디션. 더 도전적인 문제와 더 엄격한 평가를 갖춘 MMMU의 향상된 버전. GPT-5.4이 이 벤치마크에서 61%점을 기록했습니다.
ChartQA
89%
ChartQA: 차트 질문 응답. 차트와 그래프에 제시된 정보를 이해하고 추론하는 능력을 테스트합니다. GPT-5.4이 이 벤치마크에서 89%점을 기록했습니다.
DocVQA
94%
DocVQA: 문서 시각 Q&A. 문서 이미지에서 정보를 추출하는 능력을 테스트하는 문서 시각 질문 응답 벤치마크. GPT-5.4이 이 벤치마크에서 94%점을 기록했습니다.
Terminal-Bench
55%
Terminal-Bench: 터미널/CLI 작업. 명령줄 작업을 수행하고 셸 스크립트를 작성하는 능력을 테스트합니다. GPT-5.4이 이 벤치마크에서 55%점을 기록했습니다.
ARC-AGI
52.9%
ARC-AGI: 추상화 및 추론. AGI를 위한 추상화 및 추론 코퍼스 - 새로운 패턴 인식 퍼즐로 유동 지능을 테스트합니다. GPT-5.4이 이 벤치마크에서 52.9%점을 기록했습니다.

GPT-5.4 소개

GPT-5.4의 기능, 특징 및 더 나은 결과를 얻는 방법에 대해 알아보세요.

Long-Context Reasoning의 새로운 지평

GPT-5.4는 GPT-5 시리즈의 고성능 진화 모델입니다. 업계 최고 수준인 1.05백만 token의 context window를 탑재하여, 방대한 코드 저장소나 수년간의 기록 로그와 같은 거대한 데이터셋을 reasoning fidelity의 손실 없이 처리합니다. 대화형 Mid-Response Steering을 통해 사용자는 실시간으로 모델의 사고 계획을 모니터링하고 조정할 수 있어, 복잡하고 다단계적인 의도에 맞춰 결과를 도출할 수 있습니다.

통합 인텔리전스와 자율적 행동

기술적으로 GPT-5.4는 이전 Codex 계열의 세계적인 코딩 능력과 표준 GPT-5 시리즈의 창의적 뉘앙스를 결합했습니다. Standard, Extended, Heavy 모드를 포함한 조절 가능한 Thinking 모드가 특징입니다. 또한, 강화된 chain-of-thought 프로세싱을 활용하여 박사급 과학 및 논리 문제를 해결합니다. 텍스트를 넘어 GPT-5.4는 native computer use 기능을 도입했습니다. 이는 화면을 해석하고 좌표 기반의 클릭을 실행함으로써 OSWorld-Verified 작업에서 75%의 점수를 달성했습니다.

효율성과 신뢰성

OpenAI는 이전 모델 대비 claim-level 오류가 33% 감소했다고 보고합니다. 덕분에 GPT-5.4는 자율 에이전트와 고위험 의사결정 지원을 위한 1순위 선택지가 되었습니다. token 및 에너지 효율성을 위해 설계되어 이전 버전보다 저렴하게 긴 context를 처리할 수 있습니다. 전사적 코드베이스를 관리하든 자율적인 스케줄링 에이전트로 작동하든, GPT-5.4는 reliability와 agentic performance의 새로운 표준을 세우고 있습니다.

GPT-5.4

GPT-5.4 사용 사례

GPT-5.4을 사용하여 훌륭한 결과를 얻는 다양한 방법을 발견하세요.

대규모 코드 리팩토링

엄격한 아키텍처 표준을 준수하며 300,000 라인이 넘는 레거시 코드베이스를 체계적으로 재작성합니다.

자율 재무 모델링

손익계산서, 대차대조표, 현금흐름표를 AI가 직접 조정하는 복잡한 3대 재무제표 모델을 구축합니다.

대화형 시스템 설계

생성 과정에서 모델의 논리 경로를 조정하여 3D 시뮬레이션이나 물리 기반 게임을 개발합니다.

Agentic Computer Use

네이티브 UI 상호작용을 통해 대량 데이터 입력, 이메일 관리, 소프트웨어 테스트와 같은 다단계 데스크톱 작업을 실행합니다.

Long-Context 법률 분석

수백 개의 법률 문서를 교차 참조하여 불일치를 식별하거나 특정 조항을 높은 재현율로 추출합니다.

박사급 연구 지원

Heavy Reasoning 모드를 사용하여 검증된 논리적 chain을 바탕으로 복잡한 수학 증명과 과학적 문제를 해결합니다.

강점

제한

방대한 1.05M context: context decay 없이 엄청난 코드베이스와 문서 세트를 깊이 있게 분석할 수 있는 업계 최고의 용량을 제공합니다.
Reasoning Latency: Heavy Thinking 모드를 활성화하면 복잡한 논리나 대규모 코드 생성 시 몇 분 정도의 대기 시간이 발생할 수 있습니다.
대화형 Thinking: 응답 도중 경로를 변경할 수 있는 고유한 기능으로, 불필요한 생성과 token 낭비를 획기적으로 줄여줍니다.
Rate Limiting: 초기 출시 기간 동안에는 용량이 확장됨에 따라 엄격한 메시지 제한이나 일시적인 계정 오류가 발생할 수 있습니다.
Native Computer Use: 높은 정확도의 UI 상호작용(OSWorld 75%)을 통해 데스크톱 및 브라우저 환경에서 직접 작업할 수 있습니다.
비선형 스케일링: 일부 창의적인 작업의 경우, 더 가벼운 reasoning 모드가 미학적 디테일 측면에서 heavy 모드보다 뛰어난 성능을 보이기도 합니다.
극강의 token 효율성: 최적화된 아키텍처를 통해 이전 GPT-5 버전보다 낮은 latency와 에너지 소비로 2026년형 frontier 성능을 제공합니다.
1M에서의 Context Rot: context window는 크지만, 256K에서 1M token으로 넘어갈 때 검색 정확도가 크게 떨어집니다.

API 빠른 시작

openai/gpt-5.4

문서 보기
openai SDK
import OpenAI from "openai";

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    model: "gpt-5.4",
    messages: [
      { role: "user", content: "Refactor this controller for better error handling." }
    ],
    reasoning_effort: "heavy"
  });

  console.log(completion.choices[0].message.content);
}

main();

SDK를 설치하고 몇 분 안에 API 호출을 시작하세요.

GPT-5.4에 대한 사람들의 의견

커뮤니티가 GPT-5.4에 대해 어떻게 생각하는지 확인하세요

Codex 내의 GPT-5.4는 엄청난 개선을 보여줍니다... context 손실 없이 150분 동안 연속으로 작동하는 것을 확인했습니다.
ArchMeta1868
reddit
GPT-5.4의 3D 디자인 능력은 타의 추종을 불허합니다. 제 함선 시뮬레이터에서 투명도와 물리를 처리하는 방식은 소름 돋을 정도로 정확했습니다.
AI_Creative_Daily
twitter
응답 도중 수정 기능은 정말 놀랍습니다. 모델이 어디로 향하는지 보고 token을 낭비하기 전에 바로잡을 수 있습니다.
dev_guru_99
reddit
44가지 다른 직무에서 인간을 83%의 확률로 이겼습니다. 변호사, 회계사, 재무 분석가, 관리자까지 말이죠.
Josh Kale
twitter
OpenAI가 드디어 출력 병목 현상을 해결했습니다. 128k 출력 token은 풀스택 애플리케이션을 만드는 개발자들에게 꿈 같은 수치입니다.
TheCodeChannel
youtube
computer use latency가 여전히 있지만, 복잡한 SAP 워크플로우를 처리할 수 있을 만큼 정밀도가 높다는 건 정말 대단합니다.
enterprise_sysadmin
hackernews

GPT-5.4에 대한 동영상

GPT-5.4에 대한 튜토리얼, 리뷰 및 토론 시청

GPT-5.4가 출시되었고, 현재 지구상에서 가장 뛰어난 model일지도 모릅니다.

GPT-5.4 Thinking은 이제 사전에 계획을 제공하므로 모델을 가이드할 수 있습니다.

이 대화형 요소는 reasoning model의 블랙박스 문제를 해결합니다.

표준 작업에서 o1-preview와 비교했을 때 속도가 천지 차이입니다.

긴 대화 내내 일관성 있게 느껴지는 reasoning을 보게 될 것입니다.

GPT-5.4는 대화를 위해 만들어진 게 아니라, 일을 하기 위해 만들어졌습니다.

Deferred loading은 정확도 손실 없이 총 token 사용량을 47% 감소시켰습니다.

computer use 기능은 좌표 기반 시스템으로 UI 요소를 추적합니다.

레거시 Java 코드베이스로 테스트했는데 파일 간 의존성을 실제로 이해했습니다.

AI가 OS 제어자가 되는 세상으로 진입하고 있습니다.

105만 token context window. 매우 긴 context window입니다.

생각하는 동안 탐색할 수 있어 훨씬 효율적입니다.

가격은 비싸지만 방대한 문서 세트에서는 유일하게 작동하는 모델입니다.

Thinking 모드는 prompt의 복잡성에 따라 조정할 수 있습니다.

이전 어떤 GPT 버전보다 사실적 회상(factual recall)에 더 신뢰가 갑니다.

단순한 프롬프트 이상

워크플로를 강화하세요 AI 자동화

Automatio는 AI 에이전트, 웹 자동화 및 스마트 통합의 힘을 결합하여 더 짧은 시간에 더 많은 것을 달성할 수 있도록 도와줍니다.

AI 에이전트
웹 자동화
스마트 워크플로

GPT-5.4 프로 팁

GPT-5.4을 최대한 활용하기 위한 전문가 팁.

Thinking Effort 조절

Standard, Extended 또는 Heavy parameters를 사용하여 정확도와 생성 속도 및 비용 간의 균형을 맞추십시오.

Thinking Plan 검토

모델이 제시한 초기 계획을 모니터링하고, 논리가 벗어날 경우 Mid-Response Steering을 사용하여 수정하십시오.

Deferred Tool Loading 활용

agentic 워크플로우의 경우, deferred loading 레지스트리를 사용하여 초기 token 비용을 최대 47%까지 절감하십시오.

Completeness Contracts 사용

긴 작업 수행 중 모델이 끝까지 작업을 유지할 수 있도록 prompt에 완료 기준을 명확히 정의하십시오.

Max Resolution Vision

UI 요소나 기술 도면을 정밀하게 검사하려면 최대 10.24M 픽셀의 고해상도 이미지를 업로드하십시오.

후기

사용자 후기

워크플로를 혁신한 수천 명의 만족한 사용자와 함께하세요

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

관련 AI Models

moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M

GPT-5.4에 대한 자주 묻는 질문

GPT-5.4에 대한 일반적인 질문에 대한 답변 찾기