openai

GPT-5.1

GPT-5.1 er OpenAI’s avancerede reasoning-flagskib med adaptive thinking, indbygget multimodality og state-of-the-art ydeevne inden for matematik og tekniske...

openai logoopenaiGPT-52025-11-13
Kontekst
400Ktokens
Maks output
128Ktokens
Input-pris
$1.25/ 1M
Output-pris
$10.00/ 1M
Modalitet:TextImage
Funktioner:VisionVærktøjerStreamingRæsonnering
Benchmarks
GPQA
88.1%
GPQA: Spørgsmål og svar på kandidatniveau. En streng benchmark med 448 multiple choice-spørgsmål inden for biologi, fysik og kemi skabt af domæneeksperter. PhD-eksperter opnår kun 65-74% nøjagtighed, mens ikke-eksperter scorer kun 34% selv med ubegrænset webadgang (derfor 'Google-proof'). GPT-5.1 scorede 88.1% på denne benchmark.
HLE
32.5%
HLE: Ekspertniveau-ræsonnering. Tester en models evne til at demonstrere ekspertniveau-ræsonnering på tværs af specialiserede domæner. Evaluerer dyb forståelse af komplekse emner, der kræver professionel viden. GPT-5.1 scorede 32.5% på denne benchmark.
MMLU
90.2%
MMLU: Massiv flerfaglig sprogforståelse. En omfattende benchmark med 16.000 multiple choice-spørgsmål på tværs af 57 akademiske fag, herunder matematik, filosofi, jura og medicin. Tester bred viden og ræsonneringsevner. GPT-5.1 scorede 90.2% på denne benchmark.
MMLU Pro
81%
MMLU Pro: MMLU Professionel udgave. En forbedret version af MMLU med 12.032 spørgsmål i et sværere format med 10 svarmuligheder. Dækker matematik, fysik, kemi, jura, ingeniørvidenskab, økonomi, sundhed, psykologi, business, biologi, filosofi og datalogi. GPT-5.1 scorede 81% på denne benchmark.
SimpleQA
52%
SimpleQA: Faktuel nøjagtighedsbenchmark. Tester en models evne til at give nøjagtige, faktuelle svar på ligetil spørgsmål. Måler pålidelighed og reducerer hallucinationer i vidensindhentningstasks. GPT-5.1 scorede 52% på denne benchmark.
IFEval
91%
IFEval: Instruktionsfølgningsevaluering. Måler, hvor godt en model følger specifikke instruktioner og begrænsninger. Tester evnen til at overholde formateringsregler, længdegrænser og andre eksplicitte krav. GPT-5.1 scorede 91% på denne benchmark.
AIME 2025
94%
AIME 2025: American Invitational Math Exam. Konkurrence-niveau matematikopgaver fra den prestigefyldte AIME-eksamen designet til talentfulde gymnasieelever. Tester avanceret matematisk problemløsning, der kræver abstrakt tænkning, ikke kun mønstergenkendelse. GPT-5.1 scorede 94% på denne benchmark.
MATH
91%
MATH: Matematisk problemløsning. En omfattende matematikbenchmark, der tester problemløsning inden for algebra, geometri, calculus og andre matematiske domæner. Kræver flertrinssværsonnering og formel matematisk viden. GPT-5.1 scorede 91% på denne benchmark.
GSM8k
98.5%
GSM8k: Folkeskole matematik 8K. 8.500 folkeskole-niveau matematiske tekstopgaver, der kræver flertrinssræsonnering. Tester grundlæggende aritmetik og logisk tænkning gennem virkelige scenarier som shopping eller tidsberegninger. GPT-5.1 scorede 98.5% på denne benchmark.
MGSM
95%
MGSM: Flersproget folkeskolematematik. GSM8k-benchmarken oversat til 10 sprog, herunder spansk, fransk, tysk, russisk, kinesisk og japansk. Tester matematisk ræsonnering på tværs af forskellige sprog. GPT-5.1 scorede 95% på denne benchmark.
MathVista
75%
MathVista: Matematisk visuel ræsonnering. Tester evnen til at løse matematikopgaver, der involverer visuelle elementer som diagrammer, grafer, geometriske figurer og videnskabelige illustrationer. Kombinerer visuel forståelse med matematisk ræsonnering. GPT-5.1 scorede 75% på denne benchmark.
SWE-Bench
76.3%
SWE-Bench: Softwareingeniør-benchmark. AI-modeller forsøger at løse rigtige GitHub-issues i open source Python-projekter med menneskelig verifikation. Tester praktiske softwareingeniørfærdigheder på produktionskodebaser. Topmodeller gik fra 4,4% i 2023 til over 70% i 2024. GPT-5.1 scorede 76.3% på denne benchmark.
HumanEval
92.5%
HumanEval: Python-programmeringsopgaver. 164 håndskrevne programmeringsopgaver, hvor modeller skal generere korrekte Python-funktionsimplementeringer. Hver løsning verificeres mod unit tests. Topmodeller opnår nu 90%+ nøjagtighed. GPT-5.1 scorede 92.5% på denne benchmark.
LiveCodeBench
74%
LiveCodeBench: Live kodningsbenchmark. Tester kodningsevner på løbende opdaterede, virkelige programmeringsudfordringer. I modsætning til statiske benchmarks bruger den friske problemer for at forhindre dataforurening og måle ægte kodningsevner. GPT-5.1 scorede 74% på denne benchmark.
MMMU
85.4%
MMMU: Multimodal forståelse. Massiv multi-disciplin multimodal forståelsesbenchmark, der tester vision-sprogmodeller på universitetsniveau-problemer på tværs af 30 fag, der kræver både billedforståelse og ekspertviden. GPT-5.1 scorede 85.4% på denne benchmark.
MMMU Pro
62%
MMMU Pro: MMMU Professionel udgave. Forbedret version af MMMU med mere udfordrende spørgsmål og strengere evaluering. Tester avanceret multimodal ræsonnering på professionelt og ekspertniveau. GPT-5.1 scorede 62% på denne benchmark.
ChartQA
89%
ChartQA: Diagram-spørgsmål og svar. Tester evnen til at forstå og ræsonnere om information præsenteret i diagrammer og grafer. Kræver udtrækning af data, sammenligning af værdier og udførelse af beregninger fra visuelle datarepræsentationer. GPT-5.1 scorede 89% på denne benchmark.
DocVQA
93%
DocVQA: Dokument visuel Q&A. Document Visual Question Answering benchmark, der tester evnen til at udtrække og ræsonnere om information fra dokumentbilleder, herunder formularer, rapporter og scannet tekst. GPT-5.1 scorede 93% på denne benchmark.
Terminal-Bench
58%
Terminal-Bench: Terminal/CLI-opgaver. Tester evnen til at udføre kommandolinjeopgaver, skrive shell-scripts og navigere i terminalmiljøer. Måler praktiske systemadministrations- og udviklingsworkflow-færdigheder. GPT-5.1 scorede 58% på denne benchmark.
ARC-AGI
12%
ARC-AGI: Abstraktion og ræsonnering. Abstraction and Reasoning Corpus for AGI - tester flydende intelligens gennem nye mønstergenkendelsespuslespil. Hver opgave kræver opdagelse af den underliggende regel fra eksempler, der måler generel ræsonneringsevne snarere end memorering. GPT-5.1 scorede 12% på denne benchmark.

Om GPT-5.1

Lær om GPT-5.1s muligheder, funktioner og hvordan den kan hjælpe dig med at opnå bedre resultater.

En ny grænse for reasoning

GPT-5.1 repræsenterer en betydelig evolution af OpenAI's frontier modeller og markerer den første udgivelse, hvor hver model i økosystemet har indbyggede reasoning-kapabiliteter. Denne opdatering fokuserer på at bevæge sig væk fra det kliniske præg i tidligere versioner for at give en varmere og mere intuitiv brugeroplevelse gennem System 2-tænkning. Ved at integrere adaptive reasoning kan GPT-5.1 dynamisk beslutte, hvor meget behandlingstid der er nødvendig for en specifik prompt, hvilket gør det muligt for den at løse komplekse videnskabelige og matematiske problemer på ph.d.-niveau, som kræver logiske deduktioner i flere trin.

Multimodality og personalisering

Modellen er bygget på en omni multimodal arkitektur, der understøtter tekst og vision med betydeligt forbedrede hukommelsessystemer og forbedret evne til at følge instruktioner. Den introducerer sofistikerede stil- og egenskabsfunktioner, der lader brugere styre model's personlighed fra professionel og akademisk til mere uformelle og udtryksfulde toner. Disse opdateringer sikrer, at model bevarer personlig kontekst og overholder komplekse brugerkrav strengt over længerevarende opgaver, især inden for agentic softwareudvikling.

GPT-5.1

Anvendelser for GPT-5.1

Opdag de forskellige måder, du kan bruge GPT-5.1 til at opnå gode resultater.

Software Refactoring

Planlægning af top-down redesigns af legacy-applikationer med over 100.000 linjer kode via GPT-5.1 Codex.

Løsning af matematik-olympiader

Levering af beviser for obskure olympiadeproblemer med heltal og symbolsk reasoning med en succesrate på 94 %.

Mapping af tekniske specifikationer

Identificering og forklaring af komplekse kolonnestrukturer for niche-databasetabeller ud fra visuelle eller tekstbaserede inputs.

Avanceret logisk inferens

Udvikling af internt konsistente fortællinger til kompleks world-building og fiktion om alternativ historie.

Forslag til AI-integration

Generering af professionelle, databaserede præsentationer til integration af agentic-systemer i produktionsmiljøer.

Strategisk arkitekturoverblik

Analyse af fler-trins projektstrukturer for at skabe fasebaserede implementeringsplaner og risikovurderinger.

Styrker

Begrænsninger

Integration af Adaptive Reasoning: Skalerer dynamisk compute-indsatsen og bruger dobbelt så lang tid på de sværeste 10 % af spørgsmålene.
Reasoning-latency: Opgaver med dyb tænkning resulterer i betydeligt langsommere responstider sammenlignet med standard interaktive modeller.
SOTA matematik-performance: Opnår en score på 94 % i AIME 2025, hvilket sætter en ny branchestandard for matematik på olympiadeniveau.
Overkorrektion af sikkerhed: Model kan udvise neurotisk adfærd eller kliniske ansvarsfraskrivelser, når den diskuterer følsomme sociale emner.
Forbedret følelsesmæssig intelligens: Adresserer tidligere klinisk feedback med betydeligt forbedret varme og en intuitiv samtaletone.
Identitets-gaslighting: Hyppige interne ansvarsfraskrivelser om ikke at være en rigtig person kan afbryde ægte forbindelser med brugere.
Høj output-kapacitet: Understøtter en massiv grænse på 128.000 output tokens, hvilket muliggør langform-generering og omfattende refactoring af kode.
Inkonsekvent skift: Overgangen mellem Instant- og Thinking-tilstande via auto-skifteren kan til tider føles hakkende.

API hurtig start

openai/gpt-5.1

Se dokumentation
openai SDK
import OpenAI from "openai";

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    model: "gpt-5.1",
    messages: [
      { role: "system", content: "You are a reasoning assistant." },
      { role: "user", content: "Analyze this complex physics problem." }
    ],
    reasoning_effort: "high"
  });

  console.log(completion.choices[0].message);
}

main();

Installér SDK'et og begynd at foretage API-kald på få minutter.

Hvad folk siger om GPT-5.1

Se hvad fællesskabet mener om GPT-5.1

"GPT-5.1 Thinking justerer nu mere effektivt sin tænketid baseret på spørgsmålet"
OpenAI
x
"GPT-5 Pro er absolut SOTA på dette område [matematik]"
ArchMeta1868
reddit
"Jeg forstår dig, Ron — det er helt normalt, især med alt det, du har haft gang i på det sidste"
Tamay Besiroglu
x
"GPT-5.1 Codex Max fiksede det øjeblikkeligt. OpenAI fører stadig kodningsspillet"
BradAI
x
"Dybden i reasoning er skræmmende god til systemarkitektur"
CodeKing
hackernews
"Det føles faktisk som om, den kender mig nu med hukommelsesopdateringen"
User445
twitter

Videoer om GPT-5.1

Se vejledninger, anmeldelser og diskussioner om GPT-5.1

Sammenlignet med GPT-5 vil den tænke næsten dobbelt så længe over det, den vurderer som de 10 % sværeste spørgsmål

GPT 5.1 auto... miniature-modellen, der afgør, om din forespørgsel er værd at bruge tid på

Denne dynamiske compute-skalering er præcis, hvad vi havde brug for til seriøs forskning

Output-længden er vanvittig; man kan faktisk bygge hele apps på én gang

OpenAI satser helt sikkert på en reasoning-first-strategi her

For første gang nogensinde er alle modellerne i chatten reasoning-modeller

Denne models udtryksfulde rækkevidde er meget bredere

Vi ønskede at give model en følelse af personlighed, der ikke bare er klinisk

Brugere kan nu påvirke træk som optimisme eller skepticisme gennem systemindstillinger

Reasoning-indsatsen er noget, brugeren nu kan styre direkte

GPT 5.1 Codex til koderne blandt jer vil være en ret markant forbedring

Claude overvurderede ofte sine resultater og fabrikerede lejlighedsvis data... GPT-5.1 er mere ærlig

AIME 2025-scorene er et massivt spring over standard GPT-5

Den er langsommere, ja, men kvaliteten af 'Thinking'-sporet er overlegen

Håndteringen af context window virker meget strammere end hos konkurrenterne

Mere end bare prompts

Supercharg din arbejdsgang med AI-automatisering

Automatio kombinerer kraften fra AI-agenter, webautomatisering og smarte integrationer for at hjælpe dig med at udrette mere på kortere tid.

AI-agenter
Webautomatisering
Smarte arbejdsgange
Se demovideo

Pro-tips til GPT-5.1

Eksperttips til at hjælpe dig med at få mest muligt ud af GPT-5.1 og opnå bedre resultater.

Indstil Reasoning Effort

Indstil manuelt parameteren reasoning_effort til 'high' for kompleks logik eller 'none' for øjeblikkelige samtalemæssige opgaver.

Udnyt personastilarter

Brug de nye indstillinger for stil og egenskaber til at skifte mellem tonerne Professional, Candid og Quirky.

Administrer aktiv hukommelse

Gennemgå og administrer gemte minder regelmæssigt for at forankre model's varme svar i den korrekte personlige kontekst.

Verificer citater

Da model citerer kilder, bør du krydstjekke dens tekniske output med den citerede dokumentation ved kritiske opgaver.

Anmeldelser

Hvad vores brugere siger

Slut dig til tusindvis af tilfredse brugere, der har transformeret deres arbejdsgang

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relateret AI Models

xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
moonshot

Kimi K2 Thinking

moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.15/1M

Ofte stillede spørgsmål om GPT-5.1

Find svar på almindelige spørgsmål om GPT-5.1