xai

Grok-3

Grok-3는 깊은 논리 추론, 128k context window, 그리고 실시간 연구 및 코딩을 위한 X와의 실시간 통합 기능을 갖춘 xAI의 flagship 추론 모델입니다.

xai logoxaiGrok2025년 2월 17일
컨텍스트
128K토큰
최대 출력
8K토큰
입력 가격
$3.00/ 1M
출력 가격
$15.00/ 1M
모달리티:TextImage
기능:비전도구스트리밍추론
벤치마크
GPQA
84.6%
GPQA: 대학원 수준 과학 Q&A. 생물학, 물리학, 화학 분야의 448개 객관식 문제로 구성된 엄격한 벤치마크. 박사 전문가도 65-74%의 정확도만 달성합니다. Grok-3이 이 벤치마크에서 84.6%점을 기록했습니다.
HLE
36%
HLE: 고급 전문 추론. 전문 분야에서 전문가 수준의 추론을 보여주는 모델의 능력을 테스트합니다. Grok-3이 이 벤치마크에서 36%점을 기록했습니다.
MMLU
87.5%
MMLU: 대규모 다중 작업 언어 이해. 57개 학술 과목에 걸쳐 16,000개의 객관식 문제로 구성된 종합 벤치마크. Grok-3이 이 벤치마크에서 87.5%점을 기록했습니다.
MMLU Pro
76.5%
MMLU Pro: MMLU 프로페셔널 에디션. 더 어려운 10지선다형 형식의 12,032개 문제를 포함하는 MMLU의 향상된 버전. Grok-3이 이 벤치마크에서 76.5%점을 기록했습니다.
SimpleQA
42%
SimpleQA: 사실 정확성 벤치마크. 직접적인 질문에 정확하고 사실적인 응답을 제공하는 모델의 능력을 테스트합니다. Grok-3이 이 벤치마크에서 42%점을 기록했습니다.
IFEval
91.2%
IFEval: 지시 따르기 평가. 모델이 특정 지시와 제약 조건을 얼마나 잘 따르는지 측정합니다. Grok-3이 이 벤치마크에서 91.2%점을 기록했습니다.
AIME 2025
93.3%
AIME 2025: 미국 초청 수학 시험. 명문 AIME 시험의 경쟁 수준 수학 문제. Grok-3이 이 벤치마크에서 93.3%점을 기록했습니다.
MATH
94.4%
MATH: 수학 문제 해결. 대수, 기하, 미적분 등의 분야를 테스트하는 종합 수학 벤치마크. Grok-3이 이 벤치마크에서 94.4%점을 기록했습니다.
GSM8k
98.7%
GSM8k: 초등학교 수학 8K. 다단계 추론이 필요한 8,500개의 초등학교 수준 수학 문장제. Grok-3이 이 벤치마크에서 98.7%점을 기록했습니다.
MGSM
92.4%
MGSM: 다국어 초등학교 수학. GSM8k 벤치마크를 10개 언어로 번역한 것. Grok-3이 이 벤치마크에서 92.4%점을 기록했습니다.
MathVista
71.3%
MathVista: 수학적 시각 추론. 차트, 그래프 등 시각적 요소가 포함된 수학 문제를 푸는 능력을 테스트합니다. Grok-3이 이 벤치마크에서 71.3%점을 기록했습니다.
SWE-Bench
49%
SWE-Bench: 소프트웨어 엔지니어링 벤치마크. AI 모델이 오픈소스 Python 프로젝트의 실제 GitHub 이슈를 해결하려고 시도합니다. Grok-3이 이 벤치마크에서 49%점을 기록했습니다.
HumanEval
94.5%
HumanEval: Python 프로그래밍 문제. 모델이 올바른 Python 함수 구현을 생성해야 하는 164개의 수작업 프로그래밍 문제. Grok-3이 이 벤치마크에서 94.5%점을 기록했습니다.
LiveCodeBench
79.4%
LiveCodeBench: 라이브 코딩 벤치마크. 지속적으로 업데이트되는 실제 프로그래밍 챌린지에서 코딩 능력을 테스트합니다. Grok-3이 이 벤치마크에서 79.4%점을 기록했습니다.
MMMU
78%
MMMU: 멀티모달 이해. 대학 수준 문제에서 비전-언어 모델을 테스트하는 대규모 다분야 멀티모달 이해 벤치마크. Grok-3이 이 벤치마크에서 78%점을 기록했습니다.
MMMU Pro
58.5%
MMMU Pro: MMMU 프로페셔널 에디션. 더 도전적인 문제와 더 엄격한 평가를 갖춘 MMMU의 향상된 버전. Grok-3이 이 벤치마크에서 58.5%점을 기록했습니다.
ChartQA
89.2%
ChartQA: 차트 질문 응답. 차트와 그래프에 제시된 정보를 이해하고 추론하는 능력을 테스트합니다. Grok-3이 이 벤치마크에서 89.2%점을 기록했습니다.
DocVQA
92.4%
DocVQA: 문서 시각 Q&A. 문서 이미지에서 정보를 추출하는 능력을 테스트하는 문서 시각 질문 응답 벤치마크. Grok-3이 이 벤치마크에서 92.4%점을 기록했습니다.
Terminal-Bench
52%
Terminal-Bench: 터미널/CLI 작업. 명령줄 작업을 수행하고 셸 스크립트를 작성하는 능력을 테스트합니다. Grok-3이 이 벤치마크에서 52%점을 기록했습니다.
ARC-AGI
12.5%
ARC-AGI: 추상화 및 추론. AGI를 위한 추상화 및 추론 코퍼스 - 새로운 패턴 인식 퍼즐로 유동 지능을 테스트합니다. Grok-3이 이 벤치마크에서 12.5%점을 기록했습니다.

Grok-3 소개

Grok-3의 기능, 특징 및 더 나은 결과를 얻는 방법에 대해 알아보세요.

최첨단 추론과 지능

Grok-3는 xAI의 flagship frontier model로, 컴퓨팅 규모와 논리적 사고에서 상당한 도약을 보여줍니다. 10만 개 이상의 NVIDIA H100 GPU를 탑재한 Colossus 슈퍼컴퓨터 클러스터에서 학습된 이 모델은 복잡한 수학 및 과학적 문제를 처리합니다. 이 모델은 최종 응답을 제공하기 전 추가적인 연산을 통해 스스로의 논리를 검증하는 특화된 추론 모드를 갖추고 있습니다.

실시간 지식 통합

주요 차별점은 X 플랫폼과의 기본 통합입니다. 이를 통해 Grok-3는 일반적인 웹 크롤링에 의존하는 모델보다 더 낮은 latency로 속보, 금융 변화, 글로벌 트렌드를 파악할 수 있습니다. 100만 token의 context window와 결합하여 연구자들이 방대한 양의 최신 데이터를 종합할 수 있도록 지원합니다.

Multimodal 및 Agentic 기능

텍스트를 넘어 Grok-3는 기술 도표, 설계도, 시각적 데이터를 해석할 수 있는 강력한 vision model입니다. 자율 에이전트에서 사용할 수 있는 고급 함수 호출(function calling)을 지원하며, SWE-Bench Verified에서 83.9%를 기록하여 실제 소프트웨어 엔지니어링 문제를 해결하는 데 가장 유능한 모델 중 하나입니다.

Grok-3

Grok-3 사용 사례

Grok-3을 사용하여 훌륭한 결과를 얻는 다양한 방법을 발견하세요.

실시간 시장 분석

실시간 X 데이터를 활용하여 투자자를 위한 금융 정서 및 속보를 분석합니다.

박사급 과학 연구

대학원 수준의 STEM 문제를 해결하고 추론 모드를 통해 방대한 문헌을 분석합니다.

경쟁력 있는 소프트웨어 엔지니어링

프로덕션 수준의 코드를 생성하고 높은 정확도로 GitHub 이슈를 해결합니다.

복잡한 수학적 증명

테스트 시점 compute를 활용하여 다단계 추론이 필요한 올림피아드 수준의 수학 문제를 해결합니다.

기술 문서 해석

multimodal vision 시스템을 통해 설계도와 기술 매뉴얼을 분석합니다.

자율 에이전트 로직

높은 충실도의 계획과 도구 사용이 필요한 agent의 인지 핵심 역할을 수행합니다.

강점

제한

올림피아드 수준의 추론: Deep Thinking 모드를 사용하여 AIME 2025 수학 benchmark에서 100% 만점을 달성했습니다.
높은 환경적 발자국: 학습에 20만 개의 GPU가 필요하며 약 150MW의 전력을 소비하여 지속 가능성에 대한 우려가 있습니다.
방대한 context 용량: 100만 token의 context window를 제공하여 전체 라이브러리나 소프트웨어 프로젝트를 입력할 수 있습니다.
프리미엄 API 가격: 출력 token 100만 개당 $15로, 다른 소규모 frontier 대안 모델보다 상당히 비쌉니다.
타의 추종을 불허하는 실시간 데이터: X와의 직접적인 통합을 통해 현재 사용 가능한 모든 AI model 중 가장 최신 데이터 스트림을 제공합니다.
출력 token 제한: 응답은 일반적으로 4,096 token으로 제한되어 있어 매우 긴 보고서나 코드 파일은 잘릴 수 있습니다.
높은 코딩 정밀도: SWE-Bench Verified에서 83.9%를 기록하여 복잡한 GitHub 이슈 해결 면에서 주요 경쟁사들을 앞섰습니다.
접근 제한: 전체 모델 기능 및 API 키는 종종 X Premium Plus 구독자나 특정 지역으로 제한됩니다.

API 빠른 시작

xai/grok-3

문서 보기
xai SDK
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.XAI_API_KEY,
  baseURL: "https://api.x.ai/v1",
});

async function main() {
  const completion = await client.chat.completions.create({
    model: "grok-3",
    messages: [{ role: "user", content: "X에서 엔비디아(Nvidia)에 대한 현재 시장 정서를 분석해줘." }],
  });

  console.log(completion.choices[0].message.content);
}

main();

SDK를 설치하고 몇 분 안에 API 호출을 시작하세요.

Grok-3에 대한 사람들의 의견

커뮤니티가 Grok-3에 대해 어떻게 생각하는지 확인하세요

Grok-3는 실시간 정서 분석 기능 덕분에 트레이더와 투자자에게 최고의 AI 모델입니다.
Austin Starks
reddit
Gemini와 Sonnet이 실패한 어려운 HVM 코드 완성 prompt를 해결했습니다. Sonnet-3.5보다 높은 '품질' 수준을 느낍니다.
Victor Taelin
twitter
속도가 정말 빠릅니다. 추론, 실시간 정보까지, 현재 존재하는 가장 빠른 flagship model인 것 같습니다.
Matthew Berman
youtube
Grok은 실시간 데이터 접근이 가능하고 다른 모델이 하지 않는 영역까지 기꺼이 파고들어, 파워 유저들에게는 '엣지 있는' 선택지가 됩니다.
Beginning-Willow-801
reddit
GPQA에서의 Grok-3 성능은 놀랍습니다. 확실히 추론 분야에서 1위를 다투고 있습니다.
EpochAIResearch
twitter
1M context window는 실제로 효과적입니다. 초기 prompt의 맥락을 잃지 않고 제 전체 레거시 코드베이스를 처리했습니다.
DevGuru42
hackernews

Grok-3에 대한 동영상

Grok-3에 대한 튜토리얼, 리뷰 및 토론 시청

Grok-3 소개 및 학습 규모.

이 모델은 지능과 진실 추구를 위해 구축되었습니다.

Grok 3 추론 능력... 과학 benchmark에서 OpenAI o1 및 DeepSeek R1 모델을 모두 능가하는 것으로 보입니다.

MMLU에서의 benchmark 성능은 최고 수준의 모델임을 보여줍니다.

Grok 3는 실제로 해결되지 않은 문제들도 해결하려 시도합니다... 반면 다른 모델들은 단순히 풀 수 없다고 말할 것입니다.

일론 머스크는 이것이 현재까지 가장 강력한 AI라고 주장합니다.

Grok 3는 챗봇 Arena의 블라인드 테스트에서 1위를 차지하며 새로운 챔피언이 되었습니다.

X와의 통합은 최신성 측면에서 뚜렷한 이점을 제공합니다.

multimodal 기능은 Grok-2에 비해 크게 향상되었습니다.

가장 강력한 버전이자 최신 버전의 Grok은 grok.com의 웹 버전이 될 것입니다.

Colossus 클러스터의 기술 아키텍처 탐구.

10만 개의 H100 GPU 학습에 대한 논의.

Big brain은 Grok 3만의 진정한 고유 기능입니다... 사용자가 여러 추론 에이전트를 사용하여 복잡한 문제를 해결할 수 있게 합니다.

Grok 3의 개발은 1단계에서 10만 개의 Nvidia H100 GPU를 활용한 X의 Colossus 슈퍼컴퓨터에 의해 가속화되었습니다.

Grok-3가 오픈 웨이트 방식의 투명성에 있어 중요한 진전인 이유에 대한 최종 의견.

단순한 프롬프트 이상

워크플로를 강화하세요 AI 자동화

Automatio는 AI 에이전트, 웹 자동화 및 스마트 통합의 힘을 결합하여 더 짧은 시간에 더 많은 것을 달성할 수 있도록 도와줍니다.

AI 에이전트
웹 자동화
스마트 워크플로

Grok-3 프로 팁

Grok-3을 최대한 활용하기 위한 전문가 팁.

Deep Search 활용

가장 정확한 결과를 얻으려면 최근 한 시간 내의 뉴스 관련 질의에 Deep Search를 사용하세요.

고도화된 추론 활성화

수학 문제의 경우 추론 강도를 높게 설정하여 자기 검증 단계를 유도하세요.

Collections API 활용

민감한 문서는 Collections API에 업로드하여 학습 루프에 데이터가 포함되지 않도록 하세요.

후기

사용자 후기

워크플로를 혁신한 수천 명의 만족한 사용자와 함께하세요

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

관련 AI Models

moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M

Grok-3에 대한 자주 묻는 질문

Grok-3에 대한 일반적인 질문에 대한 답변 찾기