openai

GPT-5.4

GPT-5.4 — frontier model от OpenAI с context window 1.05M tokens и Extreme Reasoning. Она превосходно справляется с автономным взаимодействием с UI и анализом...

OpenAIGPT-51M ContextReasoningMultimodal
openai logoopenaiGPT-55 марта 2026 г.
Контекст
1.1Mтокенов
Макс. вывод
128Kтокенов
Цена ввода
$2.50/ 1M
Цена вывода
$15.00/ 1M
Модальность:TextImage
Возможности:ЗрениеИнструментыПотоковая передачаРассуждение
Бенчмарки
GPQA
84.2%
GPQA: Научные вопросы уровня докторантуры. Строгий бенчмарк с 448 вопросами с множественным выбором по биологии, физике и химии, созданными экспертами в данных областях. Эксперты с PhD достигают лишь 65-74% точности, в то время как неспециалисты набирают только 34% даже при неограниченном доступе в интернет (отсюда название 'устойчивый к Google'). GPT-5.4 набрал 84.2% в этом бенчмарке.
HLE
42%
HLE: Рассуждение высокого уровня экспертизы. Тестирует способность модели демонстрировать рассуждения экспертного уровня в специализированных областях. Оценивает глубокое понимание сложных тем, требующих знаний профессионального уровня. GPT-5.4 набрал 42% в этом бенчмарке.
MMLU
91%
MMLU: Массовое многозадачное языковое понимание. Комплексный бенчмарк с 16 000 вопросами с множественным выбором по 57 академическим предметам, включая математику, философию, право и медицину. Тестирует широкие знания и способности к рассуждению. GPT-5.4 набрал 91% в этом бенчмарке.
MMLU Pro
76%
MMLU Pro: MMLU профессиональная версия. Улучшенная версия MMLU с 12 032 вопросами в более сложном формате с 10 вариантами ответа. Охватывает математику, физику, химию, право, инженерию, экономику, здравоохранение, психологию, бизнес, биологию, философию и информатику. GPT-5.4 набрал 76% в этом бенчмарке.
SimpleQA
56.7%
SimpleQA: Бенчмарк фактической точности. Тестирует способность модели давать точные, фактические ответы на прямые вопросы. Измеряет надежность и снижает галлюцинации в задачах извлечения знаний. GPT-5.4 набрал 56.7% в этом бенчмарке.
IFEval
92%
IFEval: Оценка следования инструкциям. Измеряет, насколько хорошо модель следует конкретным инструкциям и ограничениям. Тестирует способность соблюдать правила форматирования, ограничения длины и другие явные требования. GPT-5.4 набрал 92% в этом бенчмарке.
AIME 2025
100%
AIME 2025: Американский пригласительный математический экзамен. Математические задачи соревновательного уровня с престижного экзамена AIME, предназначенного для талантливых старшеклассников. Тестирует продвинутое математическое решение задач, требующее абстрактного мышления, а не просто сопоставления паттернов. GPT-5.4 набрал 100% в этом бенчмарке.
MATH
88.6%
MATH: Решение математических задач. Комплексный математический бенчмарк, тестирующий решение задач по алгебре, геометрии, анализу и другим математическим областям. Требует многошагового рассуждения и формальных математических знаний. GPT-5.4 набрал 88.6% в этом бенчмарке.
GSM8k
99%
GSM8k: Математика начальной школы 8K. 8 500 математических задач уровня начальной школы, требующих многошагового рассуждения. Тестирует базовую арифметику и логическое мышление через жизненные сценарии, такие как покупки или расчет времени. GPT-5.4 набрал 99% в этом бенчмарке.
MGSM
96%
MGSM: Многоязычная математика начальной школы. Бенчмарк GSM8k, переведенный на 10 языков, включая испанский, французский, немецкий, русский, китайский и японский. Тестирует математическое рассуждение на разных языках. GPT-5.4 набрал 96% в этом бенчмарке.
MathVista
74%
MathVista: Математическое визуальное рассуждение. Тестирует способность решать математические задачи, включающие визуальные элементы, такие как графики, геометрические диаграммы и научные рисунки. Сочетает визуальное понимание с математическим рассуждением. GPT-5.4 набрал 74% в этом бенчмарке.
SWE-Bench
52.8%
SWE-Bench: Бенчмарк программной инженерии. ИИ-модели пытаются решить реальные проблемы GitHub в проектах Python с открытым исходным кодом с человеческой верификацией. Тестирует практические навыки программной инженерии на производственных кодовых базах. Лучшие модели улучшились с 4,4% в 2023 до более 70% в 2024. GPT-5.4 набрал 52.8% в этом бенчмарке.
HumanEval
85.1%
HumanEval: Задачи программирования на Python. 164 вручную написанные задачи программирования, где модели должны генерировать правильные реализации функций Python. Каждое решение проверяется юнит-тестами. Лучшие модели теперь достигают более 90% точности. GPT-5.4 набрал 85.1% в этом бенчмарке.
LiveCodeBench
72.5%
LiveCodeBench: Бенчмарк живого кодирования. Тестирует навыки программирования на постоянно обновляемых задачах из реального мира. В отличие от статических бенчмарков, использует свежие задачи для предотвращения загрязнения данных и измерения реальных навыков кодирования. GPT-5.4 набрал 72.5% в этом бенчмарке.
MMMU
84.2%
MMMU: Мультимодальное понимание. Массовый мультидисциплинарный мультимодальный бенчмарк понимания, тестирующий модели зрения и языка на задачах университетского уровня по 30 предметам, требующим понимания изображений и экспертных знаний. GPT-5.4 набрал 84.2% в этом бенчмарке.
MMMU Pro
61%
MMMU Pro: MMMU профессиональная версия. Улучшенная версия MMMU с более сложными вопросами и строгой оценкой. Тестирует продвинутое мультимодальное рассуждение на профессиональном и экспертном уровнях. GPT-5.4 набрал 61% в этом бенчмарке.
ChartQA
89%
ChartQA: Вопросы и ответы по диаграммам. Тестирует способность понимать и рассуждать об информации, представленной в диаграммах и графиках. Требует извлечения данных, сравнения значений и выполнения вычислений из визуальных представлений данных. GPT-5.4 набрал 89% в этом бенчмарке.
DocVQA
94%
DocVQA: Визуальные Q&A по документам. Бенчмарк визуальных вопросов и ответов по документам, тестирующий способность извлекать и рассуждать об информации из изображений документов, включая формы, отчеты и отсканированный текст. GPT-5.4 набрал 94% в этом бенчмарке.
Terminal-Bench
55%
Terminal-Bench: Задачи Terminal/CLI. Тестирует способность выполнять операции командной строки, писать shell-скрипты и работать в терминальных средах. Измеряет практические навыки системного администрирования и рабочих процессов разработки. GPT-5.4 набрал 55% в этом бенчмарке.
ARC-AGI
52.9%
ARC-AGI: Абстракция и рассуждение. Корпус абстракции и рассуждения для AGI - тестирует флюидный интеллект через новые головоломки распознавания паттернов. Каждая задача требует обнаружения базового правила из примеров, измеряя общую способность к рассуждению, а не запоминание. GPT-5.4 набрал 52.9% в этом бенчмарке.

О модели GPT-5.4

Узнайте о возможностях, функциях и способах использования GPT-5.4.

Границы reasoning с длинным контекстом

GPT-5.4 представляет собой высокопроизводительную эволюцию серии GPT-5. Модель обладает лидирующим в отрасли context window на 1,05 миллиона tokens. Она способна обрабатывать огромные массивы данных, такие как массивные репозитории кода или многолетние исторические журналы, не теряя при этом глубины reasoning. Интерактивная функция Mid-Response Steering позволяет пользователям отслеживать и корректировать план мышления модели в реальном времени. Это гарантирует, что итоговый результат будет максимально соответствовать сложным многошаговым задачам.

Единый интеллект и автономные действия

Технически GPT-5.4 объединяет лучшие в мире возможности написания кода от предыдущих веток Codex с творческими нюансами стандартной серии GPT-5. Модель оснащена специализированным режимом Thinking с регулируемыми уровнями усилий: Standard, Extended и Heavy. Она использует улучшенную обработку chain-of-thought для решения научных и логических задач уровня PhD. Помимо текста, GPT-5.4 представляет нативные возможности computer use. Она достигает 75% точности в задачах OSWorld, интерпретируя скриншоты и выполняя клики на основе координат.

Эффективность и надежность

OpenAI сообщает о снижении ошибок на уровне утверждений на 33% по сравнению с предшественниками. Это делает GPT-5.4 основным выбором для создания автономных агентов и поддержки принятия решений в критически важных задачах. Модель оптимизирована с точки зрения tokens и энергоэффективности, что обеспечивает более дешевую обработку длинного контекста по сравнению с прошлыми итерациями. Будь то управление всей корпоративной кодовой базой или работа в качестве автономного агента планирования, GPT-5.4 устанавливает новый стандарт надежности и agentic производительности.

GPT-5.4

Варианты использования GPT-5.4

Откройте для себя различные способы использования GPT-5.4 для достижения отличных результатов.

Масштабный рефакторинг кода

Систематическая переработка устаревших кодовых баз объемом более 300 000 строк со строгим соблюдением архитектурных стандартов.

Автономное финансовое моделирование

Создание сложных моделей из трех форм отчетности, где AI сверяет отчеты о прибылях и убытках, балансы и отчеты о движении денежных средств.

Интерактивное проектирование систем

Разработка 3D-симуляций или физических движков для игр путем управления логическим путем модели в процессе генерации.

Agentic Computer Use

Выполнение многошаговых задач на рабочем столе, таких как массовый ввод данных, управление почтой и тестирование ПО через нативное взаимодействие с UI.

Юридический анализ с длинным контекстом

Перекрестная проверка сотен юридических документов для выявления несоответствий или извлечения конкретных пунктов с высокой точностью.

Поддержка научных исследований уровня PhD

Решение сложных математических доказательств и научных проблем с использованием режима Heavy Reasoning для верифицируемых цепочек логики.

Преимущества

Ограничения

Огромный context window 1.05M: Обеспечивает лучшую в индустрии емкость для глубокого анализа колоссальных кодовых баз и наборов документов без потери контекста.
Latency при reasoning: Включение режима Heavy Thinking может привести к ожиданию в несколько минут при решении сложных логических задач или генерации большого объема кода.
Интерактивное мышление: Уникальная возможность навигации во время генерации позволяет пользователям корректировать пути reasoning, значительно сокращая напрасные генерации и затраты tokens.
Ограничение скорости (Rate Limiting): На этапе начального развертывания пользователи могут столкнуться с жесткими лимитами на количество сообщений или временными багами при масштабировании мощностей.
Нативный Computer Use: Высокоточное взаимодействие с UI (75% в OSWorld) позволяет модели работать напрямую в средах десктопа и браузера.
Нелинейное масштабирование: В некоторых творческих задачах более легкие режимы reasoning показывают лучшие результаты в плане эстетической детализации, чем тяжелые.
Экстремальная эффективность tokens: Оптимизированная архитектура обеспечивает производительность уровня frontier 2026 года с меньшей latency и энергопотреблением, чем предыдущие версии GPT-5.
Ухудшение контекста на 1M: Хотя размер окна велик, точность извлечения данных заметно снижается при переходе от 256K к 1M tokens.

Быстрый старт API

openai/gpt-5.4

Посмотреть документацию
openai SDK
import OpenAI from "openai";

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    model: "gpt-5.4",
    messages: [
      { role: "user", content: "Refactor this controller for better error handling." }
    ],
    reasoning_effort: "heavy"
  });

  console.log(completion.choices[0].message.content);
}

main();

Установите SDK и начните делать API-запросы за несколько минут.

Что люди говорят о GPT-5.4

Посмотрите, что думает сообщество о GPT-5.4

GPT 5.4 в Codex, это огромное улучшение... Я видел, как она работала 150 минут подряд без потери контекста.
ArchMeta1868
reddit
Способности GPT 5.4 в 3D-дизайне непревзойденны. То, как она справилась с прозрачностью и физикой в моем симуляторе корабля, было пугающе точным.
AI_Creative_Daily
twitter
Корректировка курса прямо в процессе ответа, это невероятно. Я вижу, куда идет модель, и могу исправить ее, прежде чем она потратит лишние tokens.
dev_guru_99
reddit
Она превзошла людей в 83% случаев на 44 различных должностях. Юрист. Бухгалтер. Финансовый аналитик. Администратор.
Josh Kale
twitter
OpenAI наконец-то устранила узкое место с выводом. 128k выходных tokens, это мечта для разработчиков, создающих full-stack приложения.
TheCodeChannel
youtube
Latency при использовании computer use всё еще есть, но точность достаточно высока, чтобы справляться со сложными SAP-процессами, и это безумие.
enterprise_sysadmin
hackernews

Видео о GPT-5.4

Смотрите обучающие материалы, обзоры и обсуждения о GPT-5.4

GPT 5.4 здесь, и, возможно, у нас появилась новая лучшая модель на планете.

Thinking в GPT 5.4 теперь может предоставлять предварительный план мышления... что позволяет вам направлять модель.

Этот интерактивный элемент решает проблему «черного ящика» у моделей с глубоким reasoning.

Скорость по сравнению с o1-preview колоссальна для стандартных задач.

Вы видите reasoning, который действительно кажется последовательным на протяжении долгих диалогов.

GPT 5.4... была создана не для общения. Она была создана для работы.

Отложенная загрузка... сократила общее использование tokens на 47% без потери точности.

Функционал computer use отслеживает элементы UI с помощью координатной системы.

Я протестировал ее на старой кодовой базе Java, и она действительно поняла зависимости между файлами.

Мы движемся в мир, где AI становится контроллером операционной системы.

1 миллион 50 тысяч tokens в context window. Это очень длинное окно контекста.

Управляйте моделью, пока она думает, это определенно эффективнее в работе.

Цена высокая, но для больших наборов документов это единственная работающая модель.

Режим Thinking можно настраивать в зависимости от сложности вашего prompt.

Она кажется более надежной в плане фактической памяти, чем любая предыдущая версия GPT.

Больше чем просто промпты

Улучшите свой рабочий процесс с ИИ-Автоматизацией

Automatio объединяет мощь ИИ-агентов, веб-автоматизации и умных интеграций, чтобы помочь вам достигать большего за меньшее время.

ИИ Агенты
Веб Автоматизация
Умные Процессы

Советы для GPT-5.4

Экспертные советы для максимальной эффективности GPT-5.4.

Настройка параметров Thinking Effort

Используйте параметры Standard, Extended или Heavy, чтобы сбалансировать потребность в точности со скоростью генерации и стоимостью.

Проверка плана мышления (Thinking Plan)

Контролируйте предварительный план, предоставляемый моделью, и используйте Mid-Response Steering для его корректировки, если логика отклоняется от цели.

Использование отложенной загрузки инструментов

Для agentic рабочих процессов используйте реестр отложенной загрузки, чтобы сократить расходы на входные tokens до 47%.

Использование контрактов на полноту (Completeness Contracts)

Четко определите в своем prompt, что означает «завершенная задача», чтобы модель оставалась сфокусированной при выполнении длительных процессов.

Vision с максимальным разрешением

Загружайте высококачественные изображения размером до 10,24 млн пикселей для точного визуального анализа элементов UI или технических схем.

Отзывы

Что Говорят Наши Пользователи

Присоединяйтесь к тысячам довольных пользователей, которые трансформировали свой рабочий процесс

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Похожие AI Models

moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M

Часто задаваемые вопросы о GPT-5.4

Найдите ответы на частые вопросы о GPT-5.4