xai

Grok-4

xAI의 Grok-4는 2M token context window와 실시간 X 플랫폼 통합, 그리고 세계 기록적인 reasoning 능력을 갖춘 frontier model입니다.

xai logoxaiGrokJuly 9, 2025
컨텍스트
2.0M토큰
최대 출력
8K토큰
입력 가격
$3.00/ 1M
출력 가격
$15.00/ 1M
모달리티:TextImage
기능:비전도구스트리밍추론
벤치마크
GPQA
87.5%
GPQA: 대학원 수준 과학 Q&A. 생물학, 물리학, 화학 분야의 448개 객관식 문제로 구성된 엄격한 벤치마크. 박사 전문가도 65-74%의 정확도만 달성합니다. Grok-4이 이 벤치마크에서 87.5%점을 기록했습니다.
HLE
44.4%
HLE: 고급 전문 추론. 전문 분야에서 전문가 수준의 추론을 보여주는 모델의 능력을 테스트합니다. Grok-4이 이 벤치마크에서 44.4%점을 기록했습니다.
MMLU
94%
MMLU: 대규모 다중 작업 언어 이해. 57개 학술 과목에 걸쳐 16,000개의 객관식 문제로 구성된 종합 벤치마크. Grok-4이 이 벤치마크에서 94%점을 기록했습니다.
MMLU Pro
81.2%
MMLU Pro: MMLU 프로페셔널 에디션. 더 어려운 10지선다형 형식의 12,032개 문제를 포함하는 MMLU의 향상된 버전. Grok-4이 이 벤치마크에서 81.2%점을 기록했습니다.
SimpleQA
48%
SimpleQA: 사실 정확성 벤치마크. 직접적인 질문에 정확하고 사실적인 응답을 제공하는 모델의 능력을 테스트합니다. Grok-4이 이 벤치마크에서 48%점을 기록했습니다.
IFEval
89.2%
IFEval: 지시 따르기 평가. 모델이 특정 지시와 제약 조건을 얼마나 잘 따르는지 측정합니다. Grok-4이 이 벤치마크에서 89.2%점을 기록했습니다.
AIME 2025
100%
AIME 2025: 미국 초청 수학 시험. 명문 AIME 시험의 경쟁 수준 수학 문제. Grok-4이 이 벤치마크에서 100%점을 기록했습니다.
MATH
92%
MATH: 수학 문제 해결. 대수, 기하, 미적분 등의 분야를 테스트하는 종합 수학 벤치마크. Grok-4이 이 벤치마크에서 92%점을 기록했습니다.
GSM8k
98.4%
GSM8k: 초등학교 수학 8K. 다단계 추론이 필요한 8,500개의 초등학교 수준 수학 문장제. Grok-4이 이 벤치마크에서 98.4%점을 기록했습니다.
MGSM
92.1%
MGSM: 다국어 초등학교 수학. GSM8k 벤치마크를 10개 언어로 번역한 것. Grok-4이 이 벤치마크에서 92.1%점을 기록했습니다.
MathVista
72.4%
MathVista: 수학적 시각 추론. 차트, 그래프 등 시각적 요소가 포함된 수학 문제를 푸는 능력을 테스트합니다. Grok-4이 이 벤치마크에서 72.4%점을 기록했습니다.
SWE-Bench
81%
SWE-Bench: 소프트웨어 엔지니어링 벤치마크. AI 모델이 오픈소스 Python 프로젝트의 실제 GitHub 이슈를 해결하려고 시도합니다. Grok-4이 이 벤치마크에서 81%점을 기록했습니다.
HumanEval
88%
HumanEval: Python 프로그래밍 문제. 모델이 올바른 Python 함수 구현을 생성해야 하는 164개의 수작업 프로그래밍 문제. Grok-4이 이 벤치마크에서 88%점을 기록했습니다.
LiveCodeBench
79.4%
LiveCodeBench: 라이브 코딩 벤치마크. 지속적으로 업데이트되는 실제 프로그래밍 챌린지에서 코딩 능력을 테스트합니다. Grok-4이 이 벤치마크에서 79.4%점을 기록했습니다.
MMMU
75%
MMMU: 멀티모달 이해. 대학 수준 문제에서 비전-언어 모델을 테스트하는 대규모 다분야 멀티모달 이해 벤치마크. Grok-4이 이 벤치마크에서 75%점을 기록했습니다.
MMMU Pro
59.2%
MMMU Pro: MMMU 프로페셔널 에디션. 더 도전적인 문제와 더 엄격한 평가를 갖춘 MMMU의 향상된 버전. Grok-4이 이 벤치마크에서 59.2%점을 기록했습니다.
ChartQA
90.5%
ChartQA: 차트 질문 응답. 차트와 그래프에 제시된 정보를 이해하고 추론하는 능력을 테스트합니다. Grok-4이 이 벤치마크에서 90.5%점을 기록했습니다.
DocVQA
93.2%
DocVQA: 문서 시각 Q&A. 문서 이미지에서 정보를 추출하는 능력을 테스트하는 문서 시각 질문 응답 벤치마크. Grok-4이 이 벤치마크에서 93.2%점을 기록했습니다.
Terminal-Bench
54.2%
Terminal-Bench: 터미널/CLI 작업. 명령줄 작업을 수행하고 셸 스크립트를 작성하는 능력을 테스트합니다. Grok-4이 이 벤치마크에서 54.2%점을 기록했습니다.
ARC-AGI
15.9%
ARC-AGI: 추상화 및 추론. AGI를 위한 추상화 및 추론 코퍼스 - 새로운 패턴 인식 퍼즐로 유동 지능을 테스트합니다. Grok-4이 이 벤치마크에서 15.9%점을 기록했습니다.

Grok-4 소개

Grok-4의 기능, 특징 및 더 나은 결과를 얻는 방법에 대해 알아보세요.

개요

Grok-4는 xAI의 최신 frontier AI 모델로, X 플랫폼에 대한 실시간 접근 권한을 가진 진실을 추구하는 어시스턴트로 설계되었습니다. 200,000개 이상의 GPU를 갖춘 Colossus 슈퍼컴퓨터 클러스터에서 구축된 이 모델은 reasoning, 수학적 문제 해결 및 코딩 능력에서 엄청난 도약을 이루었습니다. 통합 듀얼 모드 아키텍처를 특징으로 하여, 사용자는 복잡한 문제를 위한 딥씽킹 reasoning 모드와 즉각적인 응답을 위한 고속 모드 사이를 자유롭게 전환할 수 있습니다.

기술 혁신

이러한 연산 능력의 세대적 도약은 모든 학문 분야에서 동시에 박사 수준의 성능을 발휘할 수 있게 했습니다. 이 모델은 표준적인 안전 가이드라인보다 객관적인 정보를 우선시하는 정렬 전략을 특징으로 합니다. 거대한 200만 token context window와 X 및 Tesla 차량을 포함한 머스크 생태계로의 통합은 독보적인 경쟁 우위를 제공합니다. STEM 및 기술적 reasoning에서 두각을 나타내지만, 일상적인 창의적 작업과 실시간 뉴스 분석에서도 매우 효율적입니다.

성능 철학

Grok-4는 제일원리 사고(first-principles thinking)와 객관적인 데이터 합성을 우선시합니다. Quasarflux reasoning 엔진을 활용하여 기존 LLM이 흔히 실수하는 다단계 논리 체인을 정확하게 탐색할 수 있습니다. 이는 사실적 정확성이 타협 불가능한 고위험 환경에서 고정밀 출력을 요구하는 개발자와 연구자들에게 필수적인 도구입니다.

Grok-4

Grok-4 사용 사례

Grok-4을 사용하여 훌륭한 결과를 얻는 다양한 방법을 발견하세요.

대학원 수준의 STEM 연구

Thinking 모드를 활용하여 박사 수준의 물리학 문제를 해결하고 복잡한 수학적 증명을 검증합니다.

대규모 저장소 디버깅

2M context window를 활용하여 전체 코드베이스를 입력하고 미세한 레이스 컨디션(race conditions)을 식별합니다.

실시간 금융 정보

X 파이어호스(Firehose)를 모니터링하여 시장 심리와 속보를 분석하고 트레이딩 인사이트를 얻습니다.

자율 에이전트 워크플로우

물류 및 자동화를 위한 강력한 function calling을 통해 복잡한 agentic 작업을 수행합니다.

멀티모달 법률 분석

수천 페이지의 증거 개시(discovery) 문서를 검토하는 동시에 스캔된 증거 사진을 분석합니다.

고급 학술 튜터링

학생의 진도에 맞춰 조정된 STEM 과목에 대해 제일원리(first-principles) 기반의 맞춤형 튜터링을 제공합니다.

강점

제한

독보적인 수학 및 로직: AIME 2025에서 세계 기록인 100% 점수를 획득하며 기술적 작업을 위한 최고의 선택이 되었습니다.
불안정한 기본 로직: 대학원 시험을 완벽히 통과함에도 불구하고, 단어의 글자 수를 세는 것과 같은 사소한 작업에서 가끔 오류가 발생할 수 있습니다.
시장 선도적인 컨텍스트: 200만 token context window를 통해 단일 prompt에서 약 1,500페이지 분량의 텍스트를 분석할 수 있습니다.
높은 진입 장벽: 강력한 Grok-4 Heavy model과 reasoning 기능을 모두 사용하려면 프리미엄 구독이 필요합니다.
라이브 데이터 파이프라인: X 플랫폼의 실시간 데이터 스트림에 대한 독점적인 접근 권한을 통해 글로벌 이벤트에 대한 최신 답변을 보장합니다.
창의적 뉘앙스의 부족: 창의적인 스토리텔링에서는 Claude 4.5에 뒤처지며, 종종 더 실용적이거나 날카로운 톤을 유지합니다.
감성 지능: EQ-Bench3에서의 높은 성능은 미묘한 인간의 감정을 이해하는 탁월한 능력을 보여줍니다.
이미지 생성 일관성: 내부 도구가 여러 이미지 패널 간의 시각적 일관성을 유지하는 데 어려움을 겪는 경우가 있습니다.

API 빠른 시작

xai/grok-4

문서 보기
xai SDK
import { xAI } from '@xai/sdk';

const client = new xAI({
  apiKey: process.env.XAI_API_KEY,
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'grok-4',
    messages: [{ role: 'user', content: 'Analyze the latest news about xAI from the Firehose.' }],
    stream: true,
  });

  for await (const chunk of response) {
    process.stdout.write(chunk.choices[0]?.delta?.content || '');
  }
}

main();

SDK를 설치하고 몇 분 안에 API 호출을 시작하세요.

Grok-4에 대한 사람들의 의견

커뮤니티가 Grok-4에 대해 어떻게 생각하는지 확인하세요

"Grok 4는 공식적으로 경쟁자들을 압도하고 있습니다... xAI가 포식자처럼 생각하는 모델을 만들었음을 증명합니다."
Mario Nawfal
x/twitter
"Grok 4는 benchmark를 파괴하는 박사 수준의 천재지만, 가끔 숫자도 못 셀 때가 있습니다. 이 이중성이 놀랍네요."
Beginning-Willow-801
reddit
"200만 tokens로의 도약은 단순한 홍보용이 아닙니다. 저장소 디버깅 방식을 근본적으로 바꿉니다."
AI Tech Reviews
youtube
"Grok 4는 일반적인 이해력 측면에서 확실히 최고의 모델이며, GPT-5를 훨씬 앞서 있습니다."
YMist_
reddit
"Grok 4.20이 출시되면 사용량이 급증할 것입니다. 3~4주 안에 나옵니다."
Elon Musk
x/twitter
"실시간 X 통합은 이 뉴스 홍수 속에서 내 연구를 가치 있게 유지해 주는 유일한 요소입니다."
DataScientist_Alpha
hackernews

Grok-4에 대한 동영상

Grok-4에 대한 튜토리얼, 리뷰 및 토론 시청

이 답변의 단어 수가 정확히 43개네요... 정말 인상적입니다.

chain-of-thought 과정에서 하노이의 탑 문제를 해결했을 뿐만 아니라, 실제로 증명하고 코드로 시각화까지 해냈습니다.

이 답변이 정말 마음에 듭니다. 핵심을 찌르고 직설적이죠. 미사여구가 전혀 없습니다.

여기서 보여주는 reasoning 능력은 이전 세대에서 보았던 것보다 확실히 한 단계 더 진화했습니다.

마침내 예의를 차리느라 진실을 숨기지 않는 모델이 나온 것 같습니다.

Grok의 실험적인 thinking 토글이 최근 제거되면서... 잠시 구식으로 치부될 뻔했죠.

Grok OS는 흰색 배경에 깨진 아이콘 등 가장 인상적이지 않은 모습이었습니다.

순수한 지식 추출 측면에서 Grok-4는 GPT-5가 놓치는 부분을 일관되게 짚어냅니다.

reasoning 모드에서의 latency는 더 높지만, 출력의 품질이 그 기다림을 정당화합니다.

당신이 머스크 생태계 안에 있다면, 이 통합 기능은 엄청난 생산성 향상 도구가 될 것입니다.

로직을 해결하지 못한다면 아무리 빠른 모델이라도 아무 소용 없습니다. 이건 분명합니다.

10점 만점에 -1점을 주고 싶네요... 완전 엉망입니다. 간단한 Next.js 웹사이트조차 만들지 못합니다.

속도는 빠르지만 로직이 깨져 있다면 높은 초당 tokens가 무슨 의미가 있을까요?

출시 주기를 맞추기 위해 코더(coder) 변체를 급하게 내놓은 것 같은 느낌입니다.

실제로 작동하는 결과물을 원한다면 표준 reasoning model을 고수하세요.

단순한 프롬프트 이상

워크플로를 강화하세요 AI 자동화

Automatio는 AI 에이전트, 웹 자동화 및 스마트 통합의 힘을 결합하여 더 짧은 시간에 더 많은 것을 달성할 수 있도록 도와줍니다.

AI 에이전트
웹 자동화
스마트 워크플로
데모 영상 보기

Grok-4 프로 팁

Grok-4을 최대한 활용하기 위한 전문가 팁.

모드 전환

복잡한 로직에는 Quasarflux 모드를, 속도가 중요한 경우에는 Tensor 모드를 사용하여 비용과 성능을 최적화하세요.

실시간 쿼리

라이브 데이터 파이프라인을 활용하고 학습 데이터 컷오프를 우회하려면 X의 트렌드 주제에 대해 명시적으로 prompt를 작성하세요.

STEM 집중

zero-shot 태스크에서 경쟁 모델을 크게 앞서는 대학원 수준의 수학 작업에는 Grok을 우선적으로 활용하세요.

기본 로직 검증

모델이 사소한 작업에서 일관성이 없을 수 있으므로, 간단한 숫자 세기나 목록 정렬 등은 다시 한번 확인하세요.

후기

사용자 후기

워크플로를 혁신한 수천 명의 만족한 사용자와 함께하세요

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

관련 AI Models

anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Sonnet 4.5

anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M

Grok-4에 대한 자주 묻는 질문

Grok-4에 대한 일반적인 질문에 대한 답변 찾기