openai

GPT-5.1

GPT-5.1은 적응형 사고, 네이티브 multimodality, 그리고 수학 및 기술 분야의 state-of-the-art 성능을 갖춘 OpenAI의 고급 reasoning flagship model입니다.

openai logoopenaiGPT-52025년 11월 12일
컨텍스트
400K토큰
최대 출력
128K토큰
입력 가격
$1.25/ 1M
출력 가격
$10.00/ 1M
모달리티:TextImage
기능:비전도구스트리밍추론
벤치마크
GPQA
88.1%
GPQA: 대학원 수준 과학 Q&A. 생물학, 물리학, 화학 분야의 448개 객관식 문제로 구성된 엄격한 벤치마크. 박사 전문가도 65-74%의 정확도만 달성합니다. GPT-5.1이 이 벤치마크에서 88.1%점을 기록했습니다.
HLE
32.5%
HLE: 고급 전문 추론. 전문 분야에서 전문가 수준의 추론을 보여주는 모델의 능력을 테스트합니다. GPT-5.1이 이 벤치마크에서 32.5%점을 기록했습니다.
MMLU
90.2%
MMLU: 대규모 다중 작업 언어 이해. 57개 학술 과목에 걸쳐 16,000개의 객관식 문제로 구성된 종합 벤치마크. GPT-5.1이 이 벤치마크에서 90.2%점을 기록했습니다.
MMLU Pro
81%
MMLU Pro: MMLU 프로페셔널 에디션. 더 어려운 10지선다형 형식의 12,032개 문제를 포함하는 MMLU의 향상된 버전. GPT-5.1이 이 벤치마크에서 81%점을 기록했습니다.
SimpleQA
52%
SimpleQA: 사실 정확성 벤치마크. 직접적인 질문에 정확하고 사실적인 응답을 제공하는 모델의 능력을 테스트합니다. GPT-5.1이 이 벤치마크에서 52%점을 기록했습니다.
IFEval
91%
IFEval: 지시 따르기 평가. 모델이 특정 지시와 제약 조건을 얼마나 잘 따르는지 측정합니다. GPT-5.1이 이 벤치마크에서 91%점을 기록했습니다.
AIME 2025
94%
AIME 2025: 미국 초청 수학 시험. 명문 AIME 시험의 경쟁 수준 수학 문제. GPT-5.1이 이 벤치마크에서 94%점을 기록했습니다.
MATH
91%
MATH: 수학 문제 해결. 대수, 기하, 미적분 등의 분야를 테스트하는 종합 수학 벤치마크. GPT-5.1이 이 벤치마크에서 91%점을 기록했습니다.
GSM8k
98.5%
GSM8k: 초등학교 수학 8K. 다단계 추론이 필요한 8,500개의 초등학교 수준 수학 문장제. GPT-5.1이 이 벤치마크에서 98.5%점을 기록했습니다.
MGSM
95%
MGSM: 다국어 초등학교 수학. GSM8k 벤치마크를 10개 언어로 번역한 것. GPT-5.1이 이 벤치마크에서 95%점을 기록했습니다.
MathVista
75%
MathVista: 수학적 시각 추론. 차트, 그래프 등 시각적 요소가 포함된 수학 문제를 푸는 능력을 테스트합니다. GPT-5.1이 이 벤치마크에서 75%점을 기록했습니다.
SWE-Bench
76.3%
SWE-Bench: 소프트웨어 엔지니어링 벤치마크. AI 모델이 오픈소스 Python 프로젝트의 실제 GitHub 이슈를 해결하려고 시도합니다. GPT-5.1이 이 벤치마크에서 76.3%점을 기록했습니다.
HumanEval
92.5%
HumanEval: Python 프로그래밍 문제. 모델이 올바른 Python 함수 구현을 생성해야 하는 164개의 수작업 프로그래밍 문제. GPT-5.1이 이 벤치마크에서 92.5%점을 기록했습니다.
LiveCodeBench
74%
LiveCodeBench: 라이브 코딩 벤치마크. 지속적으로 업데이트되는 실제 프로그래밍 챌린지에서 코딩 능력을 테스트합니다. GPT-5.1이 이 벤치마크에서 74%점을 기록했습니다.
MMMU
85.4%
MMMU: 멀티모달 이해. 대학 수준 문제에서 비전-언어 모델을 테스트하는 대규모 다분야 멀티모달 이해 벤치마크. GPT-5.1이 이 벤치마크에서 85.4%점을 기록했습니다.
MMMU Pro
62%
MMMU Pro: MMMU 프로페셔널 에디션. 더 도전적인 문제와 더 엄격한 평가를 갖춘 MMMU의 향상된 버전. GPT-5.1이 이 벤치마크에서 62%점을 기록했습니다.
ChartQA
89%
ChartQA: 차트 질문 응답. 차트와 그래프에 제시된 정보를 이해하고 추론하는 능력을 테스트합니다. GPT-5.1이 이 벤치마크에서 89%점을 기록했습니다.
DocVQA
93%
DocVQA: 문서 시각 Q&A. 문서 이미지에서 정보를 추출하는 능력을 테스트하는 문서 시각 질문 응답 벤치마크. GPT-5.1이 이 벤치마크에서 93%점을 기록했습니다.
Terminal-Bench
58%
Terminal-Bench: 터미널/CLI 작업. 명령줄 작업을 수행하고 셸 스크립트를 작성하는 능력을 테스트합니다. GPT-5.1이 이 벤치마크에서 58%점을 기록했습니다.
ARC-AGI
12%
ARC-AGI: 추상화 및 추론. AGI를 위한 추상화 및 추론 코퍼스 - 새로운 패턴 인식 퍼즐로 유동 지능을 테스트합니다. GPT-5.1이 이 벤치마크에서 12%점을 기록했습니다.

GPT-5.1 소개

GPT-5.1의 기능, 특징 및 더 나은 결과를 얻는 방법에 대해 알아보세요.

Reasoning 아키텍처

GPT-5.1은 System 2 사고 아키텍처를 특징으로 합니다. 이를 통해 model은 쿼리의 복잡성에 따라 처리 시간을 조정할 수 있습니다. 수학적 증명에는 깊은 논리적 추론을 적용하는 반면, 간단한 대화 작업에서는 낮은 latency를 유지합니다. 적응형 reasoning 시스템은 가장 가치가 높은 곳에 연산 자원을 할당합니다.

Multimodal 성능

이 model은 text 및 vision 입력을 위한 옴니 multimodal 프레임워크를 사용합니다. 이전 버전 대비 엔터프라이즈 문서 추출 작업에서 84% 더 낮은 latency를 제공합니다. 향상된 기억 유지력은 장기적인 agentic 워크플로우 전반에서 context가 유지되도록 하여 대규모 소프트웨어 엔지니어링 프로젝트에 적합합니다.

개인화 시스템

새로운 엔진은 어조 및 특성 조절 기능을 가능하게 합니다. 사용자는 system instruction을 통해 model을 전문적, 캐주얼 또는 표현력이 풍부하게 구성할 수 있습니다. 이러한 특성을 통해 개발자는 방대한 few-shot prompting 없이도 특정 브랜드 정체성과 사용자 선호도에 더 잘 맞는 봇을 배포할 수 있습니다.

GPT-5.1

GPT-5.1 사용 사례

GPT-5.1을 사용하여 훌륭한 결과를 얻는 다양한 방법을 발견하세요.

Agentic 소프트웨어 엔지니어링

고정밀 reasoning을 사용하여 대규모 codebase 전반의 복잡한 리팩토링을 자동화합니다.

박사급 연구

검증된 다단계 추론이 필요한 생물학 및 물리학 분야의 난제들을 해결합니다.

엔터프라이즈 문서 분석

방대한 표 문서 집합에서 높은 시각적 정확도로 구조화된 데이터를 추출합니다.

개인화된 고객 지원

사용자 감정에 맞춰 엉뚱하거나 전문적인 등 특정 브랜드 특성을 가진 봇을 배포합니다.

수학 문제 해결

99.6%의 AIME 점수를 활용하여 증명을 검증하고 고급 수학 과정의 튜터 역할을 수행합니다.

Vision 기반 비즈니스 인텔리전스

복잡한 차트와 재무 보고서를 분석하여 시각적 context를 갖춘 요약본을 생성합니다.

강점

제한

엘리트 수학적 reasoning: AIME 2025에서 99.6% 점수를 기록하며, 기존의 거의 모든 경쟁 model을 능가했습니다.
높은 출력 latency: 고난도 reasoning은 복잡한 쿼리에 대해 응답 시간을 20초 이상으로 연장할 수 있습니다.
적응형 처리: 동적 연산(compute) 확장 기능을 통해 단순 엔터프라이즈 문서 작업의 latency를 84%까지 줄였습니다.
네이티브 오디오 부재: Gemini 2.0과 같은 경쟁사에 있는 내장형 음성-대-음성 기능을 지원하지 않습니다.
강화된 성격 제어: 네이티브 어조 조절 기능을 통해 기존 GPT-5보다 더 따뜻하고 인간적인 상호작용이 가능합니다.
출력 비용: 백만 token당 $10의 비용으로, 장문의 reasoning 출력 시 즉각적인 model보다 비용이 훨씬 높습니다.
대규모 context: 400,000 token window와 24시간 caching이 결합되어 방대한 agentic 워크플로우를 지원합니다.
지속되는 문체적 특성: 사용자들은 구체적인 memory instruction에도 불구하고 특정 구두점 패턴을 피하는 데 여전히 어려움을 겪는다고 보고합니다.

API 빠른 시작

openai/gpt-5.1

문서 보기
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

const response = await openai.chat.completions.create({
  model: "gpt-5.1",
  messages: [{ role: "user", content: "Analyze the security of this smart contract." }],
  reasoning_effort: "high",
});

console.log(response.choices[0].message.content);

SDK를 설치하고 몇 분 안에 API 호출을 시작하세요.

GPT-5.1에 대한 사람들의 의견

커뮤니티가 GPT-5.1에 대해 어떻게 생각하는지 확인하세요

Codex의 GPT-5.1 등은 여전히 계획 및 코드 리뷰 작업에서 최고의 검토자입니다.
darrenjr
twitter
평가 결과, GPT-5는 복잡한 reasoning 분야에서 다른 선도 model들보다 최대 190% 더 나은 성능을 보였습니다.
CodeRabbit
twitter
GPT-5.1은 prompt 난이도에 더 잘 맞춰져 있어 쉬운 입력에는 훨씬 적은 token을 소비합니다.
Tech Titans
facebook
이번 릴리스는 성격과 ChatGPT가 임상적이고 메마르게 느껴지지 않게 만드는 데 초점을 맞췄습니다.
Theo
youtube
400k context window는 우리 전체 repo 분석에 큰 도움이 됩니다.
RedditUser99
reddit
여전히 네이티브 오디오가 없는 것은 아쉽지만, reasoning 향상은 진짜입니다.
HackerNewsGuy
hackernews

GPT-5.1에 대한 동영상

GPT-5.1에 대한 튜토리얼, 리뷰 및 토론 시청

GPT 5.1이 출시되었습니다. 더 빠르고, 정확하며, 대화 능력이 뛰어납니다.

처음으로 GPT 5.1 Instant가 적응형 reasoning을 사용하여 언제 생각할지 스스로 결정합니다.

이곳의 논리는 표준 GPT 5 model보다 현저히 뛰어납니다.

이전 프리뷰 버전보다 더 따뜻한 어조를 유지합니다.

개발자라면 확장된 prompt caching으로 비용을 대폭 절감할 수 있을 것입니다.

이전보다 훨씬 더 개인화가 가능합니다.

어조가 훨씬 자연스럽습니다... 5.1이 에너지 면에서 훨씬 낫습니다.

복잡한 워크플로우 단계에서 환각(hallucination) 현상이 줄어든 것을 확인했습니다.

Instant 모드의 속도는 GPT 4o mini와 거의 비슷하지만 더 똑똑합니다.

개인화 기능 덕분에 지나치게 형식적인 태도를 멈추라고 지시할 수 있습니다.

Frontier AI model에 대한 가장 편안한 반복 업데이트 중 하나입니다.

GPT-5 reasoning과 비교했을 때 범퍼카 게임 결과가 성공적이었습니다.

손글씨 문서에 대한 vision 처리가 눈에 띄게 날카로워졌습니다.

reasoning effort 토글이 API 비용을 관리하는 데 최고의 기능이라고 생각합니다.

교과서처럼 들리지 않고 대화할 수 있는 model이라는 느낌이 듭니다.

단순한 프롬프트 이상

워크플로를 강화하세요 AI 자동화

Automatio는 AI 에이전트, 웹 자동화 및 스마트 통합의 힘을 결합하여 더 짧은 시간에 더 많은 것을 달성할 수 있도록 도와줍니다.

AI 에이전트
웹 자동화
스마트 워크플로

GPT-5.1 프로 팁

GPT-5.1을 최대한 활용하기 위한 전문가 팁.

Reasoning Effort 조정

reasoning_effort parameter를 사용하여 수학 문제에는 '높음'으로, 단순 대화에는 '없음'으로 설정하여 latency를 최적화하세요.

대규모 context 활용

400k context window를 활용하여 전체 프로젝트 폴더를 처리하세요. model이 긴 prompt 내에서도 정보를 매우 잘 유지합니다.

어조 조절 (Tone Steering)

system instruction에서 어조 특성을 활성화하여 model이 딱딱하지 않고 팀원처럼 느껴지게 만드세요.

Prompt Caching

24시간 prompt caching을 활용하여 동일한 codebase에서 반복적인 agentic loop를 실행할 때 비용을 절감하세요.

후기

사용자 후기

워크플로를 혁신한 수천 명의 만족한 사용자와 함께하세요

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

관련 AI Models

alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M

GPT-5.1에 대한 자주 묻는 질문

GPT-5.1에 대한 일반적인 질문에 대한 답변 찾기