xai

Grok-4

xAI의 Grok-4는 200만 token context window, 실시간 X 플랫폼 통합, 세계 기록 수준의 reasoning 성능을 갖춘 frontier model입니다.

xai logoxaiGrok2025년 7월 9일
컨텍스트
2.0M토큰
최대 출력
8K토큰
입력 가격
$3.00/ 1M
출력 가격
$15.00/ 1M
모달리티:TextImage
기능:비전도구스트리밍추론
벤치마크
GPQA
87.5%
GPQA: 대학원 수준 과학 Q&A. 생물학, 물리학, 화학 분야의 448개 객관식 문제로 구성된 엄격한 벤치마크. 박사 전문가도 65-74%의 정확도만 달성합니다. Grok-4이 이 벤치마크에서 87.5%점을 기록했습니다.
HLE
44.4%
HLE: 고급 전문 추론. 전문 분야에서 전문가 수준의 추론을 보여주는 모델의 능력을 테스트합니다. Grok-4이 이 벤치마크에서 44.4%점을 기록했습니다.
MMLU
94%
MMLU: 대규모 다중 작업 언어 이해. 57개 학술 과목에 걸쳐 16,000개의 객관식 문제로 구성된 종합 벤치마크. Grok-4이 이 벤치마크에서 94%점을 기록했습니다.
MMLU Pro
81.2%
MMLU Pro: MMLU 프로페셔널 에디션. 더 어려운 10지선다형 형식의 12,032개 문제를 포함하는 MMLU의 향상된 버전. Grok-4이 이 벤치마크에서 81.2%점을 기록했습니다.
SimpleQA
48%
SimpleQA: 사실 정확성 벤치마크. 직접적인 질문에 정확하고 사실적인 응답을 제공하는 모델의 능력을 테스트합니다. Grok-4이 이 벤치마크에서 48%점을 기록했습니다.
IFEval
89.2%
IFEval: 지시 따르기 평가. 모델이 특정 지시와 제약 조건을 얼마나 잘 따르는지 측정합니다. Grok-4이 이 벤치마크에서 89.2%점을 기록했습니다.
AIME 2025
100%
AIME 2025: 미국 초청 수학 시험. 명문 AIME 시험의 경쟁 수준 수학 문제. Grok-4이 이 벤치마크에서 100%점을 기록했습니다.
MATH
92%
MATH: 수학 문제 해결. 대수, 기하, 미적분 등의 분야를 테스트하는 종합 수학 벤치마크. Grok-4이 이 벤치마크에서 92%점을 기록했습니다.
GSM8k
98.4%
GSM8k: 초등학교 수학 8K. 다단계 추론이 필요한 8,500개의 초등학교 수준 수학 문장제. Grok-4이 이 벤치마크에서 98.4%점을 기록했습니다.
MGSM
92.1%
MGSM: 다국어 초등학교 수학. GSM8k 벤치마크를 10개 언어로 번역한 것. Grok-4이 이 벤치마크에서 92.1%점을 기록했습니다.
MathVista
72.4%
MathVista: 수학적 시각 추론. 차트, 그래프 등 시각적 요소가 포함된 수학 문제를 푸는 능력을 테스트합니다. Grok-4이 이 벤치마크에서 72.4%점을 기록했습니다.
SWE-Bench
81%
SWE-Bench: 소프트웨어 엔지니어링 벤치마크. AI 모델이 오픈소스 Python 프로젝트의 실제 GitHub 이슈를 해결하려고 시도합니다. Grok-4이 이 벤치마크에서 81%점을 기록했습니다.
HumanEval
88%
HumanEval: Python 프로그래밍 문제. 모델이 올바른 Python 함수 구현을 생성해야 하는 164개의 수작업 프로그래밍 문제. Grok-4이 이 벤치마크에서 88%점을 기록했습니다.
LiveCodeBench
79.4%
LiveCodeBench: 라이브 코딩 벤치마크. 지속적으로 업데이트되는 실제 프로그래밍 챌린지에서 코딩 능력을 테스트합니다. Grok-4이 이 벤치마크에서 79.4%점을 기록했습니다.
MMMU
75%
MMMU: 멀티모달 이해. 대학 수준 문제에서 비전-언어 모델을 테스트하는 대규모 다분야 멀티모달 이해 벤치마크. Grok-4이 이 벤치마크에서 75%점을 기록했습니다.
MMMU Pro
59.2%
MMMU Pro: MMMU 프로페셔널 에디션. 더 도전적인 문제와 더 엄격한 평가를 갖춘 MMMU의 향상된 버전. Grok-4이 이 벤치마크에서 59.2%점을 기록했습니다.
ChartQA
90.5%
ChartQA: 차트 질문 응답. 차트와 그래프에 제시된 정보를 이해하고 추론하는 능력을 테스트합니다. Grok-4이 이 벤치마크에서 90.5%점을 기록했습니다.
DocVQA
93.2%
DocVQA: 문서 시각 Q&A. 문서 이미지에서 정보를 추출하는 능력을 테스트하는 문서 시각 질문 응답 벤치마크. Grok-4이 이 벤치마크에서 93.2%점을 기록했습니다.
Terminal-Bench
54.2%
Terminal-Bench: 터미널/CLI 작업. 명령줄 작업을 수행하고 셸 스크립트를 작성하는 능력을 테스트합니다. Grok-4이 이 벤치마크에서 54.2%점을 기록했습니다.
ARC-AGI
15.9%
ARC-AGI: 추상화 및 추론. AGI를 위한 추상화 및 추론 코퍼스 - 새로운 패턴 인식 퍼즐로 유동 지능을 테스트합니다. Grok-4이 이 벤치마크에서 15.9%점을 기록했습니다.

Grok-4 소개

Grok-4의 기능, 특징 및 더 나은 결과를 얻는 방법에 대해 알아보세요.

모델 개요

Grok-4는 xAI의 frontier multimodal 모델입니다. 제1원칙(first-principles) reasoning과 실시간 정보 검색을 우선시하도록 구축되었습니다. 이 모델은 X 소셜 미디어 플랫폼과의 native 통합을 통해 상당한 경쟁 우위를 확보했습니다. 이를 통해 전 세계에서 일어나는 라이브 대화와 뉴스를 실시간으로 분석할 수 있습니다. Colossus 슈퍼컴퓨터를 활용하여 학습되었으며, 수학 및 기술 분야에서 최고 수준의 성능을 보여줍니다.

기술적 역량

이 아키텍처는 reasoning 변형 모델에서 200만 token context window를 지원합니다. 이러한 용량 덕분에 데이터 손실 없이 방대한 코드베이스와 밀도 높은 기술 문서를 처리할 수 있습니다. 사용자가 빠른 상호작용을 위한 고속 모드와 다단계 논리 작업을 위한 정밀 분석 모드 중 하나를 선택할 수 있는 듀얼 모드 시스템을 갖추고 있습니다. Heavy 설정에서는 multi-agent 합의 메커니즘을 적용하여 약 4% 수준의 hallucination 비율을 관리합니다.

생태계 통합

단순 텍스트 생성을 넘어, Grok-4는 native tool 사용과 복잡한 function calling을 위해 설계되었습니다. 이미지 및 오디오 처리를 지원하여 multimodal 애플리케이션을 구축하는 개발자에게 다재다능한 선택지입니다. 일반적인 업계 안전 가이드라인보다는 객관적인 진실 탐구에 정렬(alignment) 전략을 집중했습니다. 그 결과, 다른 frontier model에 비해 논쟁적이거나 민감한 주제에 대한 거부 사례가 적습니다.

Grok-4

Grok-4 사용 사례

Grok-4을 사용하여 훌륭한 결과를 얻는 다양한 방법을 발견하세요.

실시간 감정 분석

X의 실시간 게시물을 분석하여 속보나 제품 출시에 대한 대중의 반응을 파악합니다.

대규모 리포지토리 감사

200만 token window를 사용하여 전체 소프트웨어 리포지토리를 평가하고 아키텍처 결함을 찾습니다.

올림피아드 수준의 수학 문제 풀이

복잡한 수학적 증명과 AIME 수준의 문제에 대한 단계별 솔루션을 제공합니다.

필터링 없는 창의적 콘텐츠 생성

다른 AI 제공업체의 제한적인 필터 없이 캐릭터 중심의 대본과 유머를 생성합니다.

과학 연구 종합

기술적 정확성을 유지하면서 여러 편의 박사급 학술 논문을 동시에 요약합니다.

기술적 디버깅

프로덕션 코드에서 발견하기 어려운 버그를 식별하고 현재 모범 사례를 바탕으로 수정안을 제시합니다.

강점

제한

최상위 수학적 reasoning: AIME 2025 benchmark에서 100% 만점을 달성하며 논리력 면에서 대부분의 frontier model을 능가합니다.
Heavy 모드 latency: multi-agent reasoning 모드는 고정밀 응답을 생성하는 데 몇 분 정도 소요될 수 있습니다.
업계 최고 수준의 context: 200만 token window는 문서 분석과 대규모 코딩 프로젝트에서 전례 없는 깊이를 제공합니다.
불완전한 영상 지원: 텍스트와 이미지 처리 능력은 최고 수준이지만, 프레임 단위의 native 영상 처리는 아직 제공되지 않습니다.
라이브 소셜 인텔리전스: X 플랫폼에 대한 직접적인 액세스를 통해 정적 학습 데이터로는 구현할 수 없는 실시간 정보를 제공합니다.
지역별 액세스 제한: 규제 요건으로 인해 유럽 연합에서는 현재 영구 기억(persistent memory) 기능이 비활성화되어 있습니다.
낮은 거부율: 더 허용적인 안전 아키텍처를 통해 논쟁적인 주제에 대해서도 정직하고 객관적인 대화가 가능합니다.
비전 정밀도 한계: 매우 정밀한 시각적 세부 정보를 해석할 때 모델이 부분적으로 미흡할 수 있음을 인정합니다.

API 빠른 시작

xai/grok-4

문서 보기
xai SDK
import OpenAI from "openai";

const grok = new OpenAI({
  apiKey: process.env.XAI_API_KEY,
  baseURL: "https://api.x.ai/v1",
});

async function main() {
  const completion = await grok.chat.completions.create({
    model: "grok-4",
    messages: [{ role: "user", content: "Search X for the latest news on SpaceX." }],
    stream: true,
  });

  for await (const chunk of completion) {
    process.stdout.write(chunk.choices[0]?.delta?.content || "");
  }
}

main();

SDK를 설치하고 몇 분 안에 API 호출을 시작하세요.

Grok-4에 대한 사람들의 의견

커뮤니티가 Grok-4에 대해 어떻게 생각하는지 확인하세요

Grok 4 fast는 200만 token window를 지원합니다!!! ChatGPT로 왜 그렇게 고생하며 안주했는지 이제 모르겠네요.
myfuturewifee
reddit
ARC-AGI v2 비공개 서브셋에서 15.88%라니 미쳤네요. Grok 4는 몇 달 만에 10% 장벽을 깨뜨린 첫 번째 모델입니다.
Greg (ARC-AGI Lead)
twitter
Grok 4 Heavy의 multi-agent 스터디 그룹 방식은 test-time compute를 사용하는 올바른 방법입니다. 실제로 문제의 핵심을 찾아냅니다.
Tony_xAI
twitter
Grok 4: LiveCodeBench에서 79점... benchmark가 모델의 코딩 체감을 다 설명해주지는 않지만, 이 모델은 정말 신뢰가 갑니다.
thankzr3ddit
reddit
이 모델은 모든 면에서 박사 수준입니다. 무서울 정도로 똑똑하고 어떤 인간보다 빠르게 학습합니다.
Elon Musk
youtube
실시간 검색은 단순한 헤드라인 긁어오기가 아니라 여러 소스에 걸쳐 콘텐츠를 분석합니다.
BitBiasedAI
youtube

Grok-4에 대한 동영상

Grok-4에 대한 튜토리얼, 리뷰 및 토론 시청

Grok 4 Heavy는 더 집중적인 논리와 reasoning 작업용이고, 일반 Grok 4는 다른 작업을 처리합니다.

화면에 그림을 그릴 때 내 손과 손가락을 완벽하게 추적했습니다.

Grok 4는 15초 정도 생각한 후 context window 깊숙이 숨겨진 비밀번호를 찾아냈습니다.

200만 token '건초더미 속 바늘 찾기' 테스트에서의 정확도는 100%였습니다.

이 모델은 드디어 Gemini의 context window가 불안정하다고 느낀 사람들에게 진정한 대안이 되었습니다.

Grok 4는 모든 면에서 박사 수준이며, 대부분의 박사보다 뛰어납니다.

Grok 4 Heavy는 여러 agent를 병렬로 생성합니다... 마치 스터디 그룹 같죠.

API에서 25만 6천의 context 길이를 지원하며, 더 확장할 계획입니다.

Colossus 클러스터에서의 학습을 통해 이전에는 볼 수 없었던 reasoning 능력을 갖게 되었습니다.

현재 존재하는 가장 진실을 추구하는 AI로 설계되었습니다.

Grok 4 Heavy는 단일 prompt에 대해 최대 32개의 병렬 AI 모델을 실행합니다.

실시간 검색은 단순한 헤드라인 긁어오기가 아니라 여러 소스에 걸쳐 콘텐츠를 분석합니다.

Think 모드는 추가적인 연산 시간을 할애하여 계획을 세우고 답변 전 잠재적 오류를 잡아냅니다.

API 액세스 권한이 있다면 로그에서 agent들이 서로 토론하는 것을 실제로 볼 수 있습니다.

오디오를 포함한 multimodal 성능은 이전 세대보다 눈에 띄게 빠릅니다.

단순한 프롬프트 이상

워크플로를 강화하세요 AI 자동화

Automatio는 AI 에이전트, 웹 자동화 및 스마트 통합의 힘을 결합하여 더 짧은 시간에 더 많은 것을 달성할 수 있도록 도와줍니다.

AI 에이전트
웹 자동화
스마트 워크플로

Grok-4 프로 팁

Grok-4을 최대한 활용하기 위한 전문가 팁.

검색 키워드 사용

prompt에 특정 해시태그나 계정을 포함하여 모델의 실시간 X 검색을 유도하세요.

Heavy 모드로 전환

응답 속도보다 정확도가 더 중요한 작업에는 Grok-4 Heavy를 활성화하세요.

상세한 페르소나 제공

허용적인 안전 가이드라인을 활용하여 창의적인 글쓰기를 위한 구체적이고 과감한 페르소나를 정의해 보세요.

외부 링크 분석

채팅창에 라이브 URL을 직접 붙여넣어 모델이 최신 웹 콘텐츠를 검색하고 요약하게 하세요.

후기

사용자 후기

워크플로를 혁신한 수천 명의 만족한 사용자와 함께하세요

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

관련 AI Models

moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Grok-4에 대한 자주 묻는 질문

Grok-4에 대한 일반적인 질문에 대한 답변 찾기