zhipu

GLM-5.1

GLM-5.1은 Zhipu AI의 flagship reasoning 모델로, 202K context window와 복잡한 agentic 엔지니어링을 위한 8시간 자율 실행 루프를 갖추고 있습니다.

ReasoningAgentic AIOpen Weights코딩Multimodal
zhipu logozhipuGLM2026-04-08
컨텍스트
203K토큰
최대 출력
164K토큰
입력 가격
$1.40/ 1M
출력 가격
$4.40/ 1M
모달리티:TextImage
기능:비전도구스트리밍추론
벤치마크
GPQA
86.2%
GPQA: 대학원 수준 과학 Q&A. 생물학, 물리학, 화학 분야의 448개 객관식 문제로 구성된 엄격한 벤치마크. 박사 전문가도 65-74%의 정확도만 달성합니다. GLM-5.1이 이 벤치마크에서 86.2%점을 기록했습니다.
HLE
31%
HLE: 고급 전문 추론. 전문 분야에서 전문가 수준의 추론을 보여주는 모델의 능력을 테스트합니다. GLM-5.1이 이 벤치마크에서 31%점을 기록했습니다.
MMLU
89%
MMLU: 대규모 다중 작업 언어 이해. 57개 학술 과목에 걸쳐 16,000개의 객관식 문제로 구성된 종합 벤치마크. GLM-5.1이 이 벤치마크에서 89%점을 기록했습니다.
MMLU Pro
89%
MMLU Pro: MMLU 프로페셔널 에디션. 더 어려운 10지선다형 형식의 12,032개 문제를 포함하는 MMLU의 향상된 버전. GLM-5.1이 이 벤치마크에서 89%점을 기록했습니다.
IFEval
73%
IFEval: 지시 따르기 평가. 모델이 특정 지시와 제약 조건을 얼마나 잘 따르는지 측정합니다. GLM-5.1이 이 벤치마크에서 73%점을 기록했습니다.
AIME 2025
95.3%
AIME 2025: 미국 초청 수학 시험. 명문 AIME 시험의 경쟁 수준 수학 문제. GLM-5.1이 이 벤치마크에서 95.3%점을 기록했습니다.
MATH
80%
MATH: 수학 문제 해결. 대수, 기하, 미적분 등의 분야를 테스트하는 종합 수학 벤치마크. GLM-5.1이 이 벤치마크에서 80%점을 기록했습니다.
GSM8k
96%
GSM8k: 초등학교 수학 8K. 다단계 추론이 필요한 8,500개의 초등학교 수준 수학 문장제. GLM-5.1이 이 벤치마크에서 96%점을 기록했습니다.
MGSM
90%
MGSM: 다국어 초등학교 수학. GSM8k 벤치마크를 10개 언어로 번역한 것. GLM-5.1이 이 벤치마크에서 90%점을 기록했습니다.
MathVista
70%
MathVista: 수학적 시각 추론. 차트, 그래프 등 시각적 요소가 포함된 수학 문제를 푸는 능력을 테스트합니다. GLM-5.1이 이 벤치마크에서 70%점을 기록했습니다.
SWE-Bench
58.4%
SWE-Bench: 소프트웨어 엔지니어링 벤치마크. AI 모델이 오픈소스 Python 프로젝트의 실제 GitHub 이슈를 해결하려고 시도합니다. GLM-5.1이 이 벤치마크에서 58.4%점을 기록했습니다.
HumanEval
94.6%
HumanEval: Python 프로그래밍 문제. 모델이 올바른 Python 함수 구현을 생성해야 하는 164개의 수작업 프로그래밍 문제. GLM-5.1이 이 벤치마크에서 94.6%점을 기록했습니다.
LiveCodeBench
68%
LiveCodeBench: 라이브 코딩 벤치마크. 지속적으로 업데이트되는 실제 프로그래밍 챌린지에서 코딩 능력을 테스트합니다. GLM-5.1이 이 벤치마크에서 68%점을 기록했습니다.
MMMU
73%
MMMU: 멀티모달 이해. 대학 수준 문제에서 비전-언어 모델을 테스트하는 대규모 다분야 멀티모달 이해 벤치마크. GLM-5.1이 이 벤치마크에서 73%점을 기록했습니다.
MMMU Pro
58%
MMMU Pro: MMMU 프로페셔널 에디션. 더 도전적인 문제와 더 엄격한 평가를 갖춘 MMMU의 향상된 버전. GLM-5.1이 이 벤치마크에서 58%점을 기록했습니다.
ChartQA
89%
ChartQA: 차트 질문 응답. 차트와 그래프에 제시된 정보를 이해하고 추론하는 능력을 테스트합니다. GLM-5.1이 이 벤치마크에서 89%점을 기록했습니다.
DocVQA
93%
DocVQA: 문서 시각 Q&A. 문서 이미지에서 정보를 추출하는 능력을 테스트하는 문서 시각 질문 응답 벤치마크. GLM-5.1이 이 벤치마크에서 93%점을 기록했습니다.
Terminal-Bench
63.5%
Terminal-Bench: 터미널/CLI 작업. 명령줄 작업을 수행하고 셸 스크립트를 작성하는 능력을 테스트합니다. GLM-5.1이 이 벤치마크에서 63.5%점을 기록했습니다.
ARC-AGI
12%
ARC-AGI: 추상화 및 추론. AGI를 위한 추상화 및 추론 코퍼스 - 새로운 패턴 인식 퍼즐로 유동 지능을 테스트합니다. GLM-5.1이 이 벤치마크에서 12%점을 기록했습니다.

GLM-5.1 소개

GLM-5.1의 기능, 특징 및 더 나은 결과를 얻는 방법에 대해 알아보세요.

GLM-5.1은 복잡한 시스템 엔지니어링 및 장기적인 agentic 작업을 위해 설계된 Zhipu AI의 flagship 기반 모델입니다. 7,440억 개의 parameter와 패스당 400억 개의 활성 parameter를 사용하는 MoE(Mixture-of-Experts) 아키텍처로 구축되었으며, 인내심과 자율적인 문제 해결 능력에서 상당한 도약을 의미합니다. 이 모델은 초기 LLM에서 볼 수 있었던 reasoning 정체 현상을 극복하도록 특별히 설계되어, 수천 번의 tool-call과 수백 번의 반복 작업 동안 생산성과 코드 품질을 유지합니다. 인간의 개입 없이 차단 요소를 식별하고, 실험을 실행하며, 전략을 수정합니다.

기술적으로 GLM-5.1은 멀티 agent 시스템의 기본 reasoning 엔진으로서 뛰어난 성능을 발휘합니다. 고수준의 아키텍처 결정을 처리하는 동시에 구현 작업을 더 작은 모델에 위임합니다. 동적 희소 attention 메커니즘으로 지원되는 202K context window를 특징으로 하여 거대한 코드베이스 전반에 걸쳐 일관성을 보장합니다. MIT 라이선스에 따른 open weights 모델로 출시되어 데이터베이스 최적화, GPU 커널 엔지니어링, 풀스택 웹 애플리케이션 개발과 같은 작업을 위한 proprietary frontier 모델의 실행 가능한 로컬 대안을 제공합니다.

KernelBench Level 3 결과는 GLM-5.1이 Claude Opus 4.6에 비해 긴 턴의 agentic ML 워크로드에서 상당한 속도 향상을 유지함을 보여줍니다. 이러한 인내심 덕분에 개발자는 아침에 엔지니어링 작업을 시작하고 하루가 끝날 때 완벽하게 테스트되고 배포된 서비스를 받을 수 있습니다. 샌드박스에서 문제를 재현하는 것부터 최종 pull request를 제출하는 것까지 버그 수정의 전체 수명 주기를 처리합니다.

GLM-5.1

GLM-5.1 사용 사례

GLM-5.1을 사용하여 훌륭한 결과를 얻는 다양한 방법을 발견하세요.

자율 소프트웨어 엔지니어링

인간의 개입 없이 8시간 이상 자율적으로 실행되어 마이크로서비스를 설계, 구현 및 디버깅합니다.

고성능 데이터베이스 튜닝

Rust 기반의 vector 검색 구현을 수백 번 반복하여 최적화합니다.

GPU 커널 최적화

참조 구현을 분석하여 기본 autotune 컴파일러보다 더 빠른 GPU 커널을 생성합니다.

멀티 agent 오케스트레이션

전문화된 소규모 모델들로 구성된 swarm에서 하위 작업 및 tool-call을 조정하는 reasoning 핵심 역할을 합니다.

복잡한 터미널 작업

agentic CLI 도구를 통해 실제 터미널 작업 및 다단계 시스템 관리를 실행합니다.

풀스택 웹 디자인

브라우저 기반 데스크톱 환경을 위한 시각적으로 일관된 UI 레이아웃과 백엔드 로직을 생성합니다.

강점

제한

8시간 반복 수행: 다른 모델에서 흔히 발생하는 reasoning 정체 없이 수천 번의 tool-call 동안 생산성을 유지합니다.
높은 Latency: reasoning 중심의 아키텍처로 인해 일반적인 비-reasoning 모델보다 token 생성 속도가 현저히 느립니다.
SOTA 수준의 코딩 성능: SWE-Bench Pro에서 58.4점을 기록하며 GPT-5.4나 Claude Opus 4.6 같은 독점 모델을 능가합니다.
극단적인 자원 요구: 원본 모델은 1.65TB의 디스크 공간이 필요하며, 양자화 버전조차 실행하려면 256GB의 VRAM 또는 시스템 메모리가 필요합니다.
Open Weights 접근성: MIT 라이선스로 출시되어 기업용 frontier 모델급 reasoning 기능을 로컬에 배포할 수 있습니다.
Prompt 민감도: 전체적인 agentic 성능을 이끌어내려면 reasoning 루프를 안내하기 위한 300줄 이상의 매우 상세한 system prompt가 필요할 수 있습니다.
대규모 컨텍스트 일관성: 202k token까지 안정성과 정확성을 유지하며, 이는 장기적인 agentic 엔지니어링 작업에 필수적입니다.
API 불안정성: 사용자들은 공식 Z.ai 엔드포인트 사용 시 베이징 시간대 피크 타임에 빈번한 500 오류와 속도 제한을 보고하고 있습니다.

API 빠른 시작

zhipu/glm-5.1

문서 보기
zhipu SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.ZHIPU_API_KEY,
  baseURL: 'https://api.z.ai/api/paas/v4'
});

const chat = await client.chat.completions.create({
  model: 'glm-5.1',
  messages: [{ role: 'user', content: '이 데이터베이스 스키마를 최적화해줘.' }],
  stream: true
});

for await (const chunk of chat) {
  process.stdout.write(chunk.choices[0]?.delta?.content || '');
}

SDK를 설치하고 몇 분 안에 API 호출을 시작하세요.

GLM-5.1에 대한 사람들의 의견

커뮤니티가 GLM-5.1에 대해 어떻게 생각하는지 확인하세요

GLM-5.1은 하나의 prompt에서 8시간 내내 루프를 돌았습니다. 대부분의 모델처럼 중단하지 않고 기능을 추가하고 스스로 검토했습니다.
ziwenxu_
twitter
140k 컨텍스트까지 5번 이상 과부하 테스트를 해봤는데 일관성이 유지되었습니다. SOTA의 강력한 경쟁자입니다.
Sensitive_Song4219
reddit
GLM-5.1은 이 benchmark에서 Opus와 거의 동등한 수준입니다. 이제 Arena에서 #1 open 모델입니다.
tmuxvim
hackernews
GLM-5.1과의 스크립트 없는 대화로 NPC가 진심으로 설득되는 것을 볼 때마다 정말 마법 같습니다.
orblabs
reddit
코딩 성능은 진짜입니다. GPT-4o가 계속 환각을 일으키던 Go 백엔드의 race condition을 해결했습니다.
DevScale_AI
twitter
로컬에서 Unsloth로 실행하는 것은 우리 법률 기술 스택의 데이터 프라이버시를 위한 판도를 바꾸는 일입니다.
LawyerWhoCodes
reddit

GLM-5.1에 대한 동영상

GLM-5.1에 대한 튜토리얼, 리뷰 및 토론 시청

GLM-5.1은 이 benchmark에서 45.3%를 기록했는데, 이는 해당 제품군에서 상당한 도약입니다.

매우 느린 모델입니다... 아마도 GLM-5를 구동하는 GPU가 더 많을 것입니다.

tool-call을 처리하는 방식이 표준 GLM 5보다 훨씬 강력합니다.

현재 자신의 하드웨어에서 다운로드하여 실행할 수 있는 가장 강력한 reasoning 모델입니다.

thinking 로그에서 스스로의 실수를 파악하는 과정을 직접 볼 수 있습니다.

8시간 동안 자율적으로 실행되며 수천 번의 반복을 통해 전략을 개선할 수 있습니다.

인기 있는 repo-generation benchmark에서 Gemini 3.1 Pro와 Qwen 3.6 Plus를 능가합니다.

이 모델이 진정으로 빛을 발하는 것은 agentic 모드이며, 어려운 버그를 포기하지 않습니다.

Z.ai는 사실상 frontier급 744B parameter 모델에 대한 페이월을 해제했습니다.

다른 LLM이 시간이 지남에 따라 집중력을 잃는 '정체' 문제를 효과적으로 관리합니다.

품질을 유지하면서 원래 1.65TB에서 236GB로 80% 크기 축소.

오픈 소스의 힘: 양자화된 버전에서도 fireworks를 위한 작동 코드를 작성했습니다.

이 MoE 거대 모델을 불러오려면 최소 256GB의 시스템 RAM이 필요합니다.

202k 컨텍스트의 일관성을 유지하기 위해 동적 희소 attention 메커니즘을 사용합니다.

Unsloth를 사용하면 training 및 inference 프로세스가 훨씬 효율적입니다.

단순한 프롬프트 이상

워크플로를 강화하세요 AI 자동화

Automatio는 AI 에이전트, 웹 자동화 및 스마트 통합의 힘을 결합하여 더 짧은 시간에 더 많은 것을 달성할 수 있도록 도와줍니다.

AI 에이전트
웹 자동화
스마트 워크플로

GLM-5.1 프로 팁

GLM-5.1을 최대한 활용하기 위한 전문가 팁.

Thinking 모드 전환

설정에서 'Thinking' 토글이 활성화되어 있는지 확인하여 8시간 자율 반복 기능을 잠금 해제하세요.

비혼잡 시간대 쿼터 사용

더 저렴한 가격을 이용하려면 베이징 시간 기준 14:00~18:00 이외의 비혼잡 시간대에 대규모 엔지니어링 작업을 수행하세요.

로컬 메모리 요구 사항

Unsloth Dynamic GGUF 양자화를 사용하여 1.6TB 모델을 256GB 시스템 메모리에 맞춰 로컬에서 실행하세요.

전략적인 작업 선택

비용 관리를 위해 GLM-5.1은 아키텍처 reasoning 작업에 할당하고, 일상적인 구현 작업에는 GLM-4.7을 사용하세요.

후기

사용자 후기

워크플로를 혁신한 수천 명의 만족한 사용자와 함께하세요

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

관련 AI Models

zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M

GLM-5.1에 대한 자주 묻는 질문

GLM-5.1에 대한 일반적인 질문에 대한 답변 찾기