openai

GPT-5.1

GPT-5.1은 적응형 사고, 네이티브 멀티모달 기능, 그리고 수학 및 기술적 코딩 분야에서 최첨단 성능을 제공하는 OpenAI의 고성능 추론 플래그십 model입니다.

openai logoopenaiGPT-52025-11-13
컨텍스트
400K토큰
최대 출력
128K토큰
입력 가격
$1.25/ 1M
출력 가격
$10.00/ 1M
모달리티:TextImage
기능:비전도구스트리밍추론
벤치마크
GPQA
88.1%
GPQA: 대학원 수준 과학 Q&A. 생물학, 물리학, 화학 분야의 448개 객관식 문제로 구성된 엄격한 벤치마크. 박사 전문가도 65-74%의 정확도만 달성합니다. GPT-5.1이 이 벤치마크에서 88.1%점을 기록했습니다.
HLE
32.5%
HLE: 고급 전문 추론. 전문 분야에서 전문가 수준의 추론을 보여주는 모델의 능력을 테스트합니다. GPT-5.1이 이 벤치마크에서 32.5%점을 기록했습니다.
MMLU
90.2%
MMLU: 대규모 다중 작업 언어 이해. 57개 학술 과목에 걸쳐 16,000개의 객관식 문제로 구성된 종합 벤치마크. GPT-5.1이 이 벤치마크에서 90.2%점을 기록했습니다.
MMLU Pro
81%
MMLU Pro: MMLU 프로페셔널 에디션. 더 어려운 10지선다형 형식의 12,032개 문제를 포함하는 MMLU의 향상된 버전. GPT-5.1이 이 벤치마크에서 81%점을 기록했습니다.
SimpleQA
52%
SimpleQA: 사실 정확성 벤치마크. 직접적인 질문에 정확하고 사실적인 응답을 제공하는 모델의 능력을 테스트합니다. GPT-5.1이 이 벤치마크에서 52%점을 기록했습니다.
IFEval
91%
IFEval: 지시 따르기 평가. 모델이 특정 지시와 제약 조건을 얼마나 잘 따르는지 측정합니다. GPT-5.1이 이 벤치마크에서 91%점을 기록했습니다.
AIME 2025
94%
AIME 2025: 미국 초청 수학 시험. 명문 AIME 시험의 경쟁 수준 수학 문제. GPT-5.1이 이 벤치마크에서 94%점을 기록했습니다.
MATH
91%
MATH: 수학 문제 해결. 대수, 기하, 미적분 등의 분야를 테스트하는 종합 수학 벤치마크. GPT-5.1이 이 벤치마크에서 91%점을 기록했습니다.
GSM8k
98.5%
GSM8k: 초등학교 수학 8K. 다단계 추론이 필요한 8,500개의 초등학교 수준 수학 문장제. GPT-5.1이 이 벤치마크에서 98.5%점을 기록했습니다.
MGSM
95%
MGSM: 다국어 초등학교 수학. GSM8k 벤치마크를 10개 언어로 번역한 것. GPT-5.1이 이 벤치마크에서 95%점을 기록했습니다.
MathVista
75%
MathVista: 수학적 시각 추론. 차트, 그래프 등 시각적 요소가 포함된 수학 문제를 푸는 능력을 테스트합니다. GPT-5.1이 이 벤치마크에서 75%점을 기록했습니다.
SWE-Bench
76.3%
SWE-Bench: 소프트웨어 엔지니어링 벤치마크. AI 모델이 오픈소스 Python 프로젝트의 실제 GitHub 이슈를 해결하려고 시도합니다. GPT-5.1이 이 벤치마크에서 76.3%점을 기록했습니다.
HumanEval
92.5%
HumanEval: Python 프로그래밍 문제. 모델이 올바른 Python 함수 구현을 생성해야 하는 164개의 수작업 프로그래밍 문제. GPT-5.1이 이 벤치마크에서 92.5%점을 기록했습니다.
LiveCodeBench
74%
LiveCodeBench: 라이브 코딩 벤치마크. 지속적으로 업데이트되는 실제 프로그래밍 챌린지에서 코딩 능력을 테스트합니다. GPT-5.1이 이 벤치마크에서 74%점을 기록했습니다.
MMMU
85.4%
MMMU: 멀티모달 이해. 대학 수준 문제에서 비전-언어 모델을 테스트하는 대규모 다분야 멀티모달 이해 벤치마크. GPT-5.1이 이 벤치마크에서 85.4%점을 기록했습니다.
MMMU Pro
62%
MMMU Pro: MMMU 프로페셔널 에디션. 더 도전적인 문제와 더 엄격한 평가를 갖춘 MMMU의 향상된 버전. GPT-5.1이 이 벤치마크에서 62%점을 기록했습니다.
ChartQA
89%
ChartQA: 차트 질문 응답. 차트와 그래프에 제시된 정보를 이해하고 추론하는 능력을 테스트합니다. GPT-5.1이 이 벤치마크에서 89%점을 기록했습니다.
DocVQA
93%
DocVQA: 문서 시각 Q&A. 문서 이미지에서 정보를 추출하는 능력을 테스트하는 문서 시각 질문 응답 벤치마크. GPT-5.1이 이 벤치마크에서 93%점을 기록했습니다.
Terminal-Bench
58%
Terminal-Bench: 터미널/CLI 작업. 명령줄 작업을 수행하고 셸 스크립트를 작성하는 능력을 테스트합니다. GPT-5.1이 이 벤치마크에서 58%점을 기록했습니다.
ARC-AGI
12%
ARC-AGI: 추상화 및 추론. AGI를 위한 추상화 및 추론 코퍼스 - 새로운 패턴 인식 퍼즐로 유동 지능을 테스트합니다. GPT-5.1이 이 벤치마크에서 12%점을 기록했습니다.

GPT-5.1 소개

GPT-5.1의 기능, 특징 및 더 나은 결과를 얻는 방법에 대해 알아보세요.

Reasoning의 새로운 지평

GPT-5.1은 OpenAI의 frontier model이 보여주는 중대한 진화를 상징하며, 생태계 내의 모든 model이 네이티브 reasoning 기능을 탑재한 첫 번째 릴리스입니다. 이번 업데이트는 이전 버전의 기계적인 느낌을 넘어 System 2 사고를 통해 더욱 따뜻하고 직관적인 사용자 경험을 제공하는 데 집중했습니다. Adaptive reasoning을 통합함으로써 GPT-5.1은 특정 prompt에 필요한 처리 시간을 동적으로 결정할 수 있으며, 이를 통해 다단계 논리적 추론이 필요한 박사 수준의 과학 및 수학 문제를 해결할 수 있습니다.

Multimodality와 개인화

이 model은 텍스트와 비전을 지원하는 omni multimodal 아키텍처를 기반으로 설계되었으며, 대폭 개선된 메모리 시스템과 향상된 지시 이행 능력을 갖추고 있습니다. 전문적이고 학술적인 톤부터 보다 일상적이고 표현력이 풍부한 톤까지 model의 성격을 유도할 수 있는 정교한 스타일 및 특성 기능을 도입했습니다. 이러한 업데이트를 통해 model은 개인적 맥락을 유지하고, 특히 agentic 소프트웨어 엔지니어링과 같은 장기적인 작업에서 복잡한 사용자 요구 사항을 엄격히 준수합니다.

GPT-5.1

GPT-5.1 사용 사례

GPT-5.1을 사용하여 훌륭한 결과를 얻는 다양한 방법을 발견하세요.

Software Refactoring

GPT-5.1 Codex를 통해 10만 줄 이상의 코드를 가진 레거시 애플리케이션의 탑다운 재설계 계획 수립.

수학 올림피아드 문제 풀이

정수 및 기호 reasoning을 활용하여 난해한 올림피아드 문제에 대해 94%의 성공률로 증명 제공.

기술 사양 매핑

시각적 또는 텍스트 입력을 바탕으로 니치한 데이터베이스 테이블의 복잡한 컬럼 구조를 식별하고 설명.

고급 논리적 추론

복잡한 세계관 구축 및 대체 역사 소설을 위한 내부적으로 일관된 서사 개발.

AI 통합 제안

agentic 시스템을 프로덕션 환경에 통합하기 위한 전문적이고 데이터에 기반한 프레젠테이션 생성.

전략적 아키텍처 검토

다단계 프로젝트 구조를 분석하여 단계별 구현 계획 및 리스크 평가 생성.

강점

제한

Adaptive Reasoning 통합: 컴퓨팅 리소스를 동적으로 확장하여, 가장 어려운 10%의 질문에 대해 두 배 더 긴 시간을 할애합니다.
Reasoning 지연 시간: 심층적인 사고가 필요한 작업의 경우 표준 대화형 model에 비해 응답 속도가 현저히 느려집니다.
SOTA 수학 성능: AIME 2025에서 94점을 기록하며 올림피아드 수준 수학의 새로운 산업 표준을 제시합니다.
Safety 과잉 수정: 민감한 사회적 주제를 논의할 때 model이 과도하게 방어적인 태도를 보이거나 기계적인 면책 조항을 반복할 수 있습니다.
향상된 감성 지능: 이전의 기계적인 답변에 대한 피드백을 반영하여, 훨씬 개선된 친근함과 직관적인 대화 톤을 제공합니다.
정체성 거리두기: 자신이 실제 사람이 아니라는 내부 면책 조항을 자주 언급하여 사용자와의 진정한 유대감을 저해할 수 있습니다.
대용량 출력: 128,000 output token 제한을 지원하여 장문 생성 및 대규모 코드 리팩토링이 가능합니다.
전환의 불일치: 자동 스위처를 통한 Instant 모드와 Thinking 모드 간의 전환이 때로는 매끄럽지 않게 느껴질 수 있습니다.

API 빠른 시작

openai/gpt-5.1

문서 보기
openai SDK
import OpenAI from "openai";

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    model: "gpt-5.1",
    messages: [
      { role: "system", content: "You are a reasoning assistant." },
      { role: "user", content: "Analyze this complex physics problem." }
    ],
    reasoning_effort: "high"
  });

  console.log(completion.choices[0].message);
}

main();

SDK를 설치하고 몇 분 안에 API 호출을 시작하세요.

GPT-5.1에 대한 사람들의 의견

커뮤니티가 GPT-5.1에 대해 어떻게 생각하는지 확인하세요

"GPT-5.1 Thinking은 이제 질문에 따라 사고 시간을 더 효과적으로 조정합니다"
OpenAI
x
"GPT-5 Pro는 수학 분야에서 단연 SOTA입니다"
ArchMeta1868
reddit
"이해해요, Ron — 그건 아주 정상이에요. 특히 요즘 겪고 계신 일들을 생각하면 더 그렇고요"
Tamay Besiroglu
x
"GPT-5.1 Codex Max가 즉시 해결했습니다. OpenAI는 여전히 coding 분야를 장악하고 있네요"
BradAI
x
"시스템 아키텍처를 설계할 때 reasoning의 깊이가 놀라울 정도로 훌륭합니다"
CodeKing
hackernews
"메모리 업데이트 덕분에 이제 model이 저를 정말 잘 알고 있다는 느낌이 듭니다"
User445
twitter

GPT-5.1에 대한 동영상

GPT-5.1에 대한 튜토리얼, 리뷰 및 토론 시청

GPT-5와 비교했을 때, 가장 어려운 상위 10%의 질문에 대해 거의 두 배 더 오래 생각합니다

GPT-5.1 auto... 쿼리에 시간을 들일 가치가 있는지 결정하는 소형 model입니다

이러한 동적 연산 스케일링은 진지한 연구에 꼭 필요했던 기능입니다

출력 길이는 정말 놀랍습니다. 한 번에 앱 전체를 빌드할 수 있을 정도입니다

OpenAI는 이번에 확실히 reasoning 우선 전략을 밀고 나가고 있습니다

사상 처음으로 chat의 모든 model이 reasoning model로 구성되었습니다

이 model의 표현 범위는 훨씬 더 넓어졌습니다

단순히 기계적이지 않은, 인간적인 개성을 model에 부여하고 싶었습니다

이제 사용자는 시스템 설정을 통해 낙관주의나 회의주의 같은 특성에 영향을 줄 수 있습니다

이제 사용자가 reasoning effort를 직접 제어할 수 있습니다

개발자들에게 GPT-5.1 Codex는 확실한 성능 향상을 제공할 것입니다

Claude는 종종 결과를 과장하거나 데이터를 조작하는 경우가 있었지만... GPT-5.1은 더 정직합니다

AIME 2025 점수는 표준 GPT-5에 비해 엄청난 도약입니다

속도는 느려졌지만, 'Thinking' 과정의 품질은 훨씬 뛰어납니다

context window 관리 능력이 경쟁사보다 훨씬 타이트해 보입니다

단순한 프롬프트 이상

워크플로를 강화하세요 AI 자동화

Automatio는 AI 에이전트, 웹 자동화 및 스마트 통합의 힘을 결합하여 더 짧은 시간에 더 많은 것을 달성할 수 있도록 도와줍니다.

AI 에이전트
웹 자동화
스마트 워크플로
데모 영상 보기

GPT-5.1 프로 팁

GPT-5.1을 최대한 활용하기 위한 전문가 팁.

Reasoning Effort 설정

복잡한 로직의 경우 reasoning_effort parameters를 high로, 즉각적인 대화형 작업의 경우 none으로 수동 설정하세요.

Persona 스타일 활용

새로운 스타일 및 특성 설정을 사용하여 Professional, Candid, Quirky 톤 사이를 전환해 보세요.

Active Memory 관리

저장된 메모리를 정기적으로 검토하고 관리하여 model의 따뜻한 응답이 정확한 개인적 맥락에 기반하도록 하세요.

인용 확인

model이 출처를 인용하므로, 높은 정확도가 요구되는 작업의 경우 기술적 output 내용을 인용된 문서와 대조하여 확인하세요.

후기

사용자 후기

워크플로를 혁신한 수천 명의 만족한 사용자와 함께하세요

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

관련 AI Models

xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
moonshot

Kimi K2 Thinking

moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.15/1M

GPT-5.1에 대한 자주 묻는 질문

GPT-5.1에 대한 일반적인 질문에 대한 답변 찾기