openai

GPT-5.4

GPT-5.4 — это frontier model от OpenAI с context window 1,05 млн tokens и Extreme Reasoning. Она отлично справляется с автономным взаимодействием с UI и...

OpenAIGPT-51M ContextReasoningMultimodal
openai logoopenaiGPT-54 марта 2026 г.
Контекст
1.1Mтокенов
Макс. вывод
128Kтокенов
Цена ввода
$2.50/ 1M
Цена вывода
$15.00/ 1M
Модальность:TextImage
Возможности:ЗрениеИнструментыПотоковая передачаРассуждение
Бенчмарки
GPQA
84.2%
GPQA: Научные вопросы уровня докторантуры. Строгий бенчмарк с 448 вопросами с множественным выбором по биологии, физике и химии, созданными экспертами в данных областях. Эксперты с PhD достигают лишь 65-74% точности, в то время как неспециалисты набирают только 34% даже при неограниченном доступе в интернет (отсюда название 'устойчивый к Google'). GPT-5.4 набрал 84.2% в этом бенчмарке.
HLE
42%
HLE: Рассуждение высокого уровня экспертизы. Тестирует способность модели демонстрировать рассуждения экспертного уровня в специализированных областях. Оценивает глубокое понимание сложных тем, требующих знаний профессионального уровня. GPT-5.4 набрал 42% в этом бенчмарке.
MMLU
91%
MMLU: Массовое многозадачное языковое понимание. Комплексный бенчмарк с 16 000 вопросами с множественным выбором по 57 академическим предметам, включая математику, философию, право и медицину. Тестирует широкие знания и способности к рассуждению. GPT-5.4 набрал 91% в этом бенчмарке.
MMLU Pro
76%
MMLU Pro: MMLU профессиональная версия. Улучшенная версия MMLU с 12 032 вопросами в более сложном формате с 10 вариантами ответа. Охватывает математику, физику, химию, право, инженерию, экономику, здравоохранение, психологию, бизнес, биологию, философию и информатику. GPT-5.4 набрал 76% в этом бенчмарке.
SimpleQA
56.7%
SimpleQA: Бенчмарк фактической точности. Тестирует способность модели давать точные, фактические ответы на прямые вопросы. Измеряет надежность и снижает галлюцинации в задачах извлечения знаний. GPT-5.4 набрал 56.7% в этом бенчмарке.
IFEval
92%
IFEval: Оценка следования инструкциям. Измеряет, насколько хорошо модель следует конкретным инструкциям и ограничениям. Тестирует способность соблюдать правила форматирования, ограничения длины и другие явные требования. GPT-5.4 набрал 92% в этом бенчмарке.
AIME 2025
100%
AIME 2025: Американский пригласительный математический экзамен. Математические задачи соревновательного уровня с престижного экзамена AIME, предназначенного для талантливых старшеклассников. Тестирует продвинутое математическое решение задач, требующее абстрактного мышления, а не просто сопоставления паттернов. GPT-5.4 набрал 100% в этом бенчмарке.
MATH
88.6%
MATH: Решение математических задач. Комплексный математический бенчмарк, тестирующий решение задач по алгебре, геометрии, анализу и другим математическим областям. Требует многошагового рассуждения и формальных математических знаний. GPT-5.4 набрал 88.6% в этом бенчмарке.
GSM8k
99%
GSM8k: Математика начальной школы 8K. 8 500 математических задач уровня начальной школы, требующих многошагового рассуждения. Тестирует базовую арифметику и логическое мышление через жизненные сценарии, такие как покупки или расчет времени. GPT-5.4 набрал 99% в этом бенчмарке.
MGSM
96%
MGSM: Многоязычная математика начальной школы. Бенчмарк GSM8k, переведенный на 10 языков, включая испанский, французский, немецкий, русский, китайский и японский. Тестирует математическое рассуждение на разных языках. GPT-5.4 набрал 96% в этом бенчмарке.
MathVista
74%
MathVista: Математическое визуальное рассуждение. Тестирует способность решать математические задачи, включающие визуальные элементы, такие как графики, геометрические диаграммы и научные рисунки. Сочетает визуальное понимание с математическим рассуждением. GPT-5.4 набрал 74% в этом бенчмарке.
SWE-Bench
52.8%
SWE-Bench: Бенчмарк программной инженерии. ИИ-модели пытаются решить реальные проблемы GitHub в проектах Python с открытым исходным кодом с человеческой верификацией. Тестирует практические навыки программной инженерии на производственных кодовых базах. Лучшие модели улучшились с 4,4% в 2023 до более 70% в 2024. GPT-5.4 набрал 52.8% в этом бенчмарке.
HumanEval
85.1%
HumanEval: Задачи программирования на Python. 164 вручную написанные задачи программирования, где модели должны генерировать правильные реализации функций Python. Каждое решение проверяется юнит-тестами. Лучшие модели теперь достигают более 90% точности. GPT-5.4 набрал 85.1% в этом бенчмарке.
LiveCodeBench
72.5%
LiveCodeBench: Бенчмарк живого кодирования. Тестирует навыки программирования на постоянно обновляемых задачах из реального мира. В отличие от статических бенчмарков, использует свежие задачи для предотвращения загрязнения данных и измерения реальных навыков кодирования. GPT-5.4 набрал 72.5% в этом бенчмарке.
MMMU
84.2%
MMMU: Мультимодальное понимание. Массовый мультидисциплинарный мультимодальный бенчмарк понимания, тестирующий модели зрения и языка на задачах университетского уровня по 30 предметам, требующим понимания изображений и экспертных знаний. GPT-5.4 набрал 84.2% в этом бенчмарке.
MMMU Pro
61%
MMMU Pro: MMMU профессиональная версия. Улучшенная версия MMMU с более сложными вопросами и строгой оценкой. Тестирует продвинутое мультимодальное рассуждение на профессиональном и экспертном уровнях. GPT-5.4 набрал 61% в этом бенчмарке.
ChartQA
89%
ChartQA: Вопросы и ответы по диаграммам. Тестирует способность понимать и рассуждать об информации, представленной в диаграммах и графиках. Требует извлечения данных, сравнения значений и выполнения вычислений из визуальных представлений данных. GPT-5.4 набрал 89% в этом бенчмарке.
DocVQA
94%
DocVQA: Визуальные Q&A по документам. Бенчмарк визуальных вопросов и ответов по документам, тестирующий способность извлекать и рассуждать об информации из изображений документов, включая формы, отчеты и отсканированный текст. GPT-5.4 набрал 94% в этом бенчмарке.
Terminal-Bench
55%
Terminal-Bench: Задачи Terminal/CLI. Тестирует способность выполнять операции командной строки, писать shell-скрипты и работать в терминальных средах. Измеряет практические навыки системного администрирования и рабочих процессов разработки. GPT-5.4 набрал 55% в этом бенчмарке.
ARC-AGI
52.9%
ARC-AGI: Абстракция и рассуждение. Корпус абстракции и рассуждения для AGI - тестирует флюидный интеллект через новые головоломки распознавания паттернов. Каждая задача требует обнаружения базового правила из примеров, измеряя общую способность к рассуждению, а не запоминание. GPT-5.4 набрал 52.9% в этом бенчмарке.

О модели GPT-5.4

Узнайте о возможностях, функциях и способах использования GPT-5.4.

На переднем крае long-context reasoning

GPT-5.4 представляет собой высокопроизводительную эволюцию серии GPT-5, отличающуюся лучшим в индустрии context window объемом 1,05 миллиона tokens. Эта model специально разработана для работы с обширными наборами данных, такими как огромные репозитории кода или многолетние исторические логи, без потери способности к высокоточному reasoning. Одной из ключевых особенностей является интерактивное управление «Mid-Response Steering», которое позволяет пользователям визуально отслеживать и корректировать план мышления model в реальном времени, гарантируя, что результат идеально соответствует сложным многоэтапным намерениям.

Единый интеллект и автономные действия

С технической точки зрения GPT-5.4 объединяет в себе мирового уровня возможности кодинга предыдущих специализированных веток Codex с творческими нюансами стандартной серии GPT-5. Она включает в себя специализированный режим «Thinking» с регулируемыми уровнями усилий (Standard, Extended и Heavy), который использует усиленную обработку chain-of-thought для решения научных и логических задач уровня PhD. Помимо текста, GPT-5.4 вводит нативные возможности управления компьютером, достигая результата 75% в задачах OSWorld-Verified за счет интерпретации высокоточных визуальных скриншотов и выполнения кликов по координатам.

Эффективность и надежность

OpenAI сообщает о значительном снижении ошибок на уровне утверждений на 33% по сравнению с предшественниками, что делает GPT-5.4 приоритетным выбором для автономных агентов и поддержки принятия ответственных решений. Несмотря на свою мощь, модель спроектирована с учетом эффективности использования tokens и энергии, что позволяет обрабатывать длинный контекст дешевле, чем в предыдущих итерациях. Будь то управление кодовой базой целого предприятия или работа в качестве автономного агента по планированию, GPT-5.4 устанавливает новый стандарт надежности и agentic производительности в ландшафте генеративного ИИ.

GPT-5.4

Варианты использования GPT-5.4

Откройте для себя различные способы использования GPT-5.4 для достижения отличных результатов.

Рефакторинг крупных кодовых баз

Загрузка и анализ сотен исходных файлов одновременно для обеспечения согласованности между модулями и выявления глубоких семантических багов во всем репозитории.

Автономное agentic планирование

Взаимодействие с электронной почтой и календарями через визуальное распознавание для автономной координации сложных графиков мероприятий и отправки последующих сообщений.

Высокоточное архитектурное проектирование

Генерация сложных 3D-сцен и структурных планов, таких как функциональные станции метро, с использованием более 1000 строк точного кода, готового к симуляции.

Долгосрочное научное планирование

Использование Extreme Reasoning для решения научных задач уровня PhD и проведения многоэтапного анализа, требующего многочасового поддержания состояния.

Расследование инцидентов кибербезопасности

Обработка огромных массивов необработанных логов в рамках одной сессии context window объемом 1,05 млн для автономного выявления, расследования и отчетности о нарушениях безопасности.

Интерактивное Mid-Response Steering

Корректировка курса model на этапе внутреннего «размышления» для изменения архитектурных решений или логических путей без необходимости перезапуска prompt.

Преимущества

Ограничения

Передовой context window 1,05 млн tokens: Обеспечивает лучшую в индустрии способность применять reasoning к массивным наборам данных и кодовым базам в одном prompt без мгновенной потери связности.
Деградация при очень длинном контексте: Замечено, что производительность в задачах с высокой сложностью reasoning значительно падает, как только размер context window превышает отметку в 256K tokens.
Экстремальная точность reasoning: Демонстрирует научные знания уровня PhD (84,2% на GPQA) и идеальные результаты по математике (100% на AIME 2025) в режиме высокой интенсивности reasoning.
Запутанная схема версионности: Сложная линейка вариантов 5.1, 5.2 Thinking, 5.3 Codex и 5.4 создает значительную когнитивную нагрузку для разработчиков API и пользователей чата.
Автономное взаимодействие с UI: Передовое визуальное распознавание позволяет model взаимодействовать с софтом и браузерами с точностью 75% по результатам benchmark OSWorld.
Высокая latency в режиме Heavy: Режимы с максимальной интенсивностью reasoning могут тратить более 8 минут на внутренний chain-of-thought, что делает их непригодными для интерактивных задач в реальном времени.
Эффективность tokens и энергопотребления: Разработана как самая эффективная frontier model от OpenAI на текущий момент, снижающая затраты энергии на сложный reasoning по сравнению с релизом GPT-5.2.
Излишне жесткий alignment: Агрессивный safety fine-tuning может привести к противоречивому поведению, когда model неоправданно спорит с пользователем на безобидные фактические темы.

Быстрый старт API

openai/gpt-5.4

Посмотреть документацию
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    model: "gpt-5.4",
    messages: [{ role: "user", content: "Analyze this 1.05M token log file for security threats." }],
    reasoning_effort: "heavy",
    stream: true,
  });

  for await (const chunk of completion) {
    process.stdout.write(chunk.choices[0]?.delta?.content || '');
  }
}

main();

Установите SDK и начните делать API-запросы за несколько минут.

Что люди говорят о GPT-5.4

Посмотрите, что думает сообщество о GPT-5.4

GPT-5 совершает сокрушительное возвращение... каждая строка сгенерированного кода была полностью рабочей.
immortalsol
reddit
Главная фишка — это, очевидно, context window в 1 млн, по сравнению с ~200k, которые поддерживают другие модели.
Developer
hackernews
Вау, GPT 5.4 безумно хороша. Это должен был быть скачок до версии 6.0. Трудно поверить, что Codex зашел так далеко.
Rahul Sood
twitter
GPT-5.4 набрала сверхвысокие 94,0 балла в NYT Connections. Она просто делает все правильно с первой попытки.
senko
hackernews
GPT-5.4 теперь в индексе Artificial Analysis Intelligence Index... Наравне с Gemini 3.1 Pro.
AiBattle
twitter
Глубина reasoning наконец-то на том уровне, где она может справляться с архитектурными задачами корпоративного масштаба.
CloudArchitect99
reddit

Видео о GPT-5.4

Смотрите обучающие материалы, обзоры и обсуждения о GPT-5.4

Context window в 1 миллион 50 тысяч tokens... это очень длинный context window.

Через 5 минут и 22 секунды размышлений мы получили результат... она протестировала это скорее в agentic стиле.

Обновленная способность анализировать изображения высокой четкости... до 10,24 миллиона пикселей в сумме.

Model на самом деле проводит исследование в вебе, чтобы проверить собственную логику.

Это огромный скачок для agentic рабочих процессов, где нужно сохранять состояние.

В GPT 5.4 есть все... они по сути сказали: окей, 5.2 и GPT 5.3 Codex, давайте-ка сделаем ребенка.

Возможности написания кода просто невероятные. Все практически безупречно.

Чувство стиля во фронтенде сильно отстает от Opus 4.6 и Gemini 3.1 Pro.

Кажется, она гораздо лучше понимает нюансы намерений разработчика.

Цена конкурентоспособна, учитывая размер context window в 1 млн tokens.

Это явно заставляет OpenAI отвечать моделью, которая соответствует этой возможности context window в 1 миллион.

Тот факт, что эта model способна создать клон Minecraft за один проход, просто поражает.

Мы видим снижение уровня фактических галлюцинаций на 33 процента.

Режимы reasoning разделены на уровни Standard, Extended и Heavy.

Визуальное позиционирование в benchmark OSWorld сейчас просто лучшее в индустрии.

Больше чем просто промпты

Улучшите свой рабочий процесс с ИИ-Автоматизацией

Automatio объединяет мощь ИИ-агентов, веб-автоматизации и умных интеграций, чтобы помочь вам достигать большего за меньшее время.

ИИ Агенты
Веб Автоматизация
Умные Процессы

Советы для GPT-5.4

Экспертные советы для максимальной эффективности GPT-5.4.

Переключайте интенсивность Reasoning

Используйте уровни Standard, Extended или Heavy в зависимости от сложности задачи, чтобы сбалансировать вычислительные затраты и качество результата.

Следите за предварительным планом

При использовании Thinking-варианта следите за планом действий; вы можете вмешаться в процессе генерации, если предложенная логика model кажется ошибочной.

Стратегический prompt caching

Размещайте большие статические блоки контекста в начале вашего prompt, чтобы воспользоваться автоматическим prompt caching от OpenAI для экономии средств.

Управляйте стабильностью контекста

Хотя окно в 1,05 млн надежно, сообщается, что производительность наиболее стабильна в пределах первых 256K tokens; держите критически важные резюме ближе к концу prompt.

Отзывы

Что Говорят Наши Пользователи

Присоединяйтесь к тысячам довольных пользователей, которые трансформировали свой рабочий процесс

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Похожие AI Models

xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
anthropic

Claude 3.7 Sonnet

Anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
anthropic

Claude Sonnet 4.5

Anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
zhipu

GLM-4.7

Zhipu (GLM)

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M

Часто задаваемые вопросы о GPT-5.4

Найдите ответы на частые вопросы о GPT-5.4