zhipu

GLM-5

GLM-5는 Zhipu AI의 744B parameters급 open-weight 강자로, 20만 context window와 함께 긴 호흡의 agentic 작업, 코딩 및 사실적 정확도에서 뛰어난 성능을 발휘합니다.

Open WeightsAgentic EngineeringMoEZhipu AICoding AI
zhipu logozhipuGLM2026년 2월 11일
컨텍스트
200K토큰
최대 출력
128K토큰
입력 가격
$1.00/ 1M
출력 가격
$3.20/ 1M
모달리티:Text
기능:도구스트리밍추론
벤치마크
GPQA
68.2%
GPQA: 대학원 수준 과학 Q&A. 생물학, 물리학, 화학 분야의 448개 객관식 문제로 구성된 엄격한 벤치마크. 박사 전문가도 65-74%의 정확도만 달성합니다. GLM-5이 이 벤치마크에서 68.2%점을 기록했습니다.
HLE
32%
HLE: 고급 전문 추론. 전문 분야에서 전문가 수준의 추론을 보여주는 모델의 능력을 테스트합니다. GLM-5이 이 벤치마크에서 32%점을 기록했습니다.
MMLU
85%
MMLU: 대규모 다중 작업 언어 이해. 57개 학술 과목에 걸쳐 16,000개의 객관식 문제로 구성된 종합 벤치마크. GLM-5이 이 벤치마크에서 85%점을 기록했습니다.
MMLU Pro
70.4%
MMLU Pro: MMLU 프로페셔널 에디션. 더 어려운 10지선다형 형식의 12,032개 문제를 포함하는 MMLU의 향상된 버전. GLM-5이 이 벤치마크에서 70.4%점을 기록했습니다.
SimpleQA
48%
SimpleQA: 사실 정확성 벤치마크. 직접적인 질문에 정확하고 사실적인 응답을 제공하는 모델의 능력을 테스트합니다. GLM-5이 이 벤치마크에서 48%점을 기록했습니다.
IFEval
88%
IFEval: 지시 따르기 평가. 모델이 특정 지시와 제약 조건을 얼마나 잘 따르는지 측정합니다. GLM-5이 이 벤치마크에서 88%점을 기록했습니다.
AIME 2025
84%
AIME 2025: 미국 초청 수학 시험. 명문 AIME 시험의 경쟁 수준 수학 문제. GLM-5이 이 벤치마크에서 84%점을 기록했습니다.
MATH
88%
MATH: 수학 문제 해결. 대수, 기하, 미적분 등의 분야를 테스트하는 종합 수학 벤치마크. GLM-5이 이 벤치마크에서 88%점을 기록했습니다.
GSM8k
97%
GSM8k: 초등학교 수학 8K. 다단계 추론이 필요한 8,500개의 초등학교 수준 수학 문장제. GLM-5이 이 벤치마크에서 97%점을 기록했습니다.
MGSM
90%
MGSM: 다국어 초등학교 수학. GSM8k 벤치마크를 10개 언어로 번역한 것. GLM-5이 이 벤치마크에서 90%점을 기록했습니다.
MathVista
0%
MathVista: 수학적 시각 추론. 차트, 그래프 등 시각적 요소가 포함된 수학 문제를 푸는 능력을 테스트합니다. GLM-5이 이 벤치마크에서 0%점을 기록했습니다.
SWE-Bench
77.8%
SWE-Bench: 소프트웨어 엔지니어링 벤치마크. AI 모델이 오픈소스 Python 프로젝트의 실제 GitHub 이슈를 해결하려고 시도합니다. GLM-5이 이 벤치마크에서 77.8%점을 기록했습니다.
HumanEval
90%
HumanEval: Python 프로그래밍 문제. 모델이 올바른 Python 함수 구현을 생성해야 하는 164개의 수작업 프로그래밍 문제. GLM-5이 이 벤치마크에서 90%점을 기록했습니다.
LiveCodeBench
52%
LiveCodeBench: 라이브 코딩 벤치마크. 지속적으로 업데이트되는 실제 프로그래밍 챌린지에서 코딩 능력을 테스트합니다. GLM-5이 이 벤치마크에서 52%점을 기록했습니다.
MMMU
0%
MMMU: 멀티모달 이해. 대학 수준 문제에서 비전-언어 모델을 테스트하는 대규모 다분야 멀티모달 이해 벤치마크. GLM-5이 이 벤치마크에서 0%점을 기록했습니다.
MMMU Pro
0%
MMMU Pro: MMMU 프로페셔널 에디션. 더 도전적인 문제와 더 엄격한 평가를 갖춘 MMMU의 향상된 버전. GLM-5이 이 벤치마크에서 0%점을 기록했습니다.
ChartQA
0%
ChartQA: 차트 질문 응답. 차트와 그래프에 제시된 정보를 이해하고 추론하는 능력을 테스트합니다. GLM-5이 이 벤치마크에서 0%점을 기록했습니다.
DocVQA
0%
DocVQA: 문서 시각 Q&A. 문서 이미지에서 정보를 추출하는 능력을 테스트하는 문서 시각 질문 응답 벤치마크. GLM-5이 이 벤치마크에서 0%점을 기록했습니다.
Terminal-Bench
56.2%
Terminal-Bench: 터미널/CLI 작업. 명령줄 작업을 수행하고 셸 스크립트를 작성하는 능력을 테스트합니다. GLM-5이 이 벤치마크에서 56.2%점을 기록했습니다.
ARC-AGI
12%
ARC-AGI: 추상화 및 추론. AGI를 위한 추상화 및 추론 코퍼스 - 새로운 패턴 인식 퍼즐로 유동 지능을 테스트합니다. GLM-5이 이 벤치마크에서 12%점을 기록했습니다.

GLM-5 소개

GLM-5의 기능, 특징 및 더 나은 결과를 얻는 방법에 대해 알아보세요.

GLM-5는 자율 agentic 워크플로우와 복잡한 시스템 엔지니어링을 위해 설계된 Zhipu AI의 주력 foundation model입니다. 이 모델은 총 7,440억 개의 parameters를 가진 Mixture-of-Experts(MoE) 아키텍처를 활용하며, 성능과 속도의 균형을 맞추기 위해 inference 중에 400억 개의 parameters가 활성화됩니다. 이는 SWE-bench Verified에서 77.8%를 기록하며, 소프트웨어 엔지니어링 작업에서 proprietary frontier 모델과 동등한 성능을 보이는 최초의 open-weight 시스템입니다.

이 모델은 10만 개의 Huawei Ascend 칩으로 구성된 국내 클러스터를 사용하여 28.5조 개의 tokens으로 학습되었습니다. Multi-head Latent Attention(MLA) 및 DeepSeek Sparse Attention(DSA)과 같은 전문 메커니즘을 통합하여 20만 token context window 전반에서 논리적 일관성을 유지합니다. 이러한 기술 스택 덕분에 GLM-5는 거대 dense 모델들에서 흔히 발생하는 높은 latency 없이도 장기적인 계획 수립과 리소스 관리를 처리할 수 있습니다.

Zhipu AI는 GLM-5를 MIT 라이선스로 공개하여 엔터프라이즈 사용자가 민감한 데이터 처리를 위해 로컬에서 가중치를 배포할 수 있도록 했습니다. 입력 비용은 100만 token당 1달러로, Claude 4.5와 같은 경쟁 모델 대비 6배의 가격 경쟁력을 제공합니다. 또한 전용 Thinking Mode를 포함하여 이전 모델보다 할루시네이션 비율을 상당히 낮췄습니다.

GLM-5

GLM-5 사용 사례

GLM-5을 사용하여 훌륭한 결과를 얻는 다양한 방법을 발견하세요.

자율 소프트웨어 엔지니어링

SWE-bench Verified에서 기록한 77.8%의 성능을 활용하여 복잡한 GitHub 이슈 해결 및 레포지토리 전반의 리팩토링 수행.

엔터프라이즈 도구 오케스트레이션

내부 API 전반에 걸쳐 다단계 agentic 워크플로우를 실행하여 금융 및 법률 분야의 백오피스 자동화 처리.

긴 context의 레포지토리 분석

20만 token의 window를 사용하여 전체 문서 세트나 여러 파일로 구성된 codebase를 단 한 번에 읽고 분석.

개인 AI 동료

OpenClaw와 같은 open-source agent를 구동하여 이메일, 일정 및 백그라운드 작업을 24시간 내내 안정적으로 관리.

온프레미스 프라이빗 인텔리전스

MIT 라이선스 하에 모델을 로컬에 배포하여 민감한 기업 운영 데이터를 완벽하게 보호.

비용 효율적인 agent 확장

reasoning 깊이를 희생하지 않으면서도 최상위 proprietary model 대비 6~8배 낮은 비용으로 대규모 agentic 세션 실행.

강점

제한

엘리트 수준의 코딩 성능: SWE-bench Verified에서 77.8% 점수를 획득하여 자율 소프트웨어 엔지니어링 분야에서 Claude Opus와 같은 proprietary 거대 모델과 대등한 수준입니다.
Native vision 미지원: 이미지나 vision 데이터를 직접 처리하는 기능이 부족하여 최신 멀티모달 UI/UX 워크플로우에서의 활용이 제한됩니다.
6배의 가격 경쟁력: 입력 100만 token당 단 1.00달러로 최상위급 reasoning을 제공하여 대규모 agentic 배포를 경제적으로 실현 가능하게 합니다.
터미널 작업 지연: Terminal-Bench 2.0에서의 성능은 56.2%로, 최상위권 proprietary 경쟁 모델에 비해 다소 뒤처집니다.
MIT 라이선스 가중치: Hugging Face에서 공개된 가중치를 통해 Huawei Ascend나 NVIDIA 하드웨어에서 비공개 로컬 배포가 가능합니다.
할루시네이션 빈도: 초기 benchmark에 따르면 특정 복잡한 reasoning 작업에서 할루시네이션 비율이 약 30%로 나타나, 최상위 라이벌 모델 대비 높은 편입니다.
대규모 context 처리 용량: 20만 token의 window와 12만 8천 token의 출력 용량은 레포지토리 전반의 분석 및 장문 생성 작업에 이상적입니다.
하드웨어 간 차이: Huawei Ascend 하드웨어에서 학습되었기 때문에 표준 NVIDIA 기반 소프트웨어 스택에서 배포 시 약간의 성능 차이가 발생할 수 있습니다.

API 빠른 시작

zai/glm-5

문서 보기
zhipu SDK
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.ZHIPU_API_KEY,
  baseURL: "https://open.bigmodel.cn/api/paas/v4/",
});

const response = await client.chat.completions.create({
  model: "glm-5",
  messages: [{ role: "user", content: "Analyze this repo structure and refactor to GraphQL." }],
  stream: true,
});

for await (const chunk of response) {
  process.stdout.write(chunk.choices[0]?.delta?.content || "");
}

SDK를 설치하고 몇 분 안에 API 호출을 시작하세요.

GLM-5에 대한 사람들의 의견

커뮤니티가 GLM-5에 대해 어떻게 생각하는지 확인하세요

GLM-5는 코딩 능력 면에서 Claude Opus 수준에 근접한 744B open-source 모델인데... 가격 차이가 정말 중요하죠.
Odd-Coconut-2067
reddit
20만 token window는 워크플로우 자체를 바꿔놓습니다. 한 번의 작업으로 20개 이상의 파일을 분석하거나 복잡한 PR diff를 검토할 수 있습니다.
AskCodi
reddit
Claude API 호출에 월 90달러 정도 쓰다가 GLM-5로 바꾸고 15달러 미만으로 줄였는데, 품질 저하는 거의 느끼지 못했습니다.
IulianHI
reddit
할루시네이션 비율이 30%대인 반면, Gemini 3 Pro는 88% 수준입니다.
Sid
youtube
4.7 테스트를 끝내기도 전에 GLM-5가 나왔는데, 일상적인 코딩에서 reasoning 능력의 도약이 확실히 체감됩니다.
able_wong
twitter
Zhipu가 MIT 라이선스로 이 모델을 공개한 건 로컬 LLM 커뮤니티에 엄청난 사건입니다.
dev_tester
twitter

GLM-5에 대한 동영상

GLM-5에 대한 튜토리얼, 리뷰 및 토론 시청

5.2 코덱 모델이나 Opus 4.5와 막상막하입니다.

1시간 이상 걸리는 작업을 문제없이 완수한 첫 번째 open-weight 모델입니다.

할루시네이션 비율이 30%대인 반면, Gemini 3 Pro는 88% 수준입니다.

reasoning 밀도가 GLM-4보다 현저히 높습니다.

내부 코딩 작업을 할 때 사실상 Claude 3.5 Sonnet을 대체합니다.

parameters 수를 거의 두 배로 늘려 744까지 올렸습니다.

훨씬 커졌음에도 불구하고 이전 모델보다 더 빠르거나 비슷한 속도로 작동합니다.

자기 수정이 가능합니다. 거만하게 굴지 마세요. 유효한 질문으로 취급하세요.

sparse attention 메커니즘 덕분에 이 정도 규모의 모델임에도 메모리 사용량이 낮습니다.

open-weight라는 점이 로컬 호스팅의 새로운 챔피언으로 만들었습니다.

그들만의 독자적인 RL 엔진인 Slime을 개발했습니다.

20만 token의 context window는 엔터프라이즈 AI의 정의 자체를 바꿉니다.

SWE-bench verified에서 77.8점을 기록하며 Gemini 3 Pro의 76.2점을 이겼습니다.

Zhipu AI는 국산 하드웨어로도 세계적인 수준의 모델을 학습할 수 있음을 증명하고 있습니다.

단순한 채팅이 아니라 agentic 엔지니어링이 핵심 초점입니다.

단순한 프롬프트 이상

워크플로를 강화하세요 AI 자동화

Automatio는 AI 에이전트, 웹 자동화 및 스마트 통합의 힘을 결합하여 더 짧은 시간에 더 많은 것을 달성할 수 있도록 도와줍니다.

AI 에이전트
웹 자동화
스마트 워크플로

GLM-5 프로 팁

GLM-5을 최대한 활용하기 위한 전문가 팁.

Agentic 모드 활성화

GLM-5는 단순한 대화보다는 자율적인 엔지니어링 작업에 최적화되어 있으므로, prompt에 다단계 계획을 명확히 정의하세요.

로컬 하드웨어 할당

최적의 throughput을 위해 충분한 VRAM을 확보하거나 MindSpore 프레임워크가 탑재된 Huawei Ascend 하드웨어를 사용하는 것이 좋습니다.

Fallback 체인 구현

GLM-5를 메인 reasoning 모델로 설정하고, 비교적 간단한 명령에는 비용 효율적인 GLM-4.7-Flash를 fallback으로 구성하세요.

구조화된 출력 활용

GLM-5는 결과물에 대한 명확한 스키마 요구 사항을 제공했을 때 정밀한 .docx 및 .xlsx 형식 생성에 뛰어난 성능을 보입니다.

후기

사용자 후기

워크플로를 혁신한 수천 명의 만족한 사용자와 함께하세요

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

관련 AI Models

anthropic

Claude 3.7 Sonnet

Anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
deepseek

DeepSeek-V3.2-Speciale

DeepSeek

DeepSeek-V3.2-Speciale is a reasoning-first LLM featuring gold-medal math performance, DeepSeek Sparse Attention, and a 131K context window. Rivaling GPT-5...

131K context
$0.28/$0.42/1M
anthropic

Claude 4.5 Sonnet

Anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
openai

GPT-4o mini

OpenAI

OpenAI's most cost-efficient small model, GPT-4o mini offers multimodal intelligence and high-speed performance at a significantly lower price point.

128K context
$0.15/$0.60/1M
openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
openai

GPT-5.3 Instant

OpenAI

Explore GPT-5.3 Instant, OpenAI's "Anti-Cringe" model. Features a 128K context window, 26.8% fewer hallucinations, and a natural, helpful tone for everyday...

128K context
$1.75/$14.00/1M

GLM-5에 대한 자주 묻는 질문

GLM-5에 대한 일반적인 질문에 대한 답변 찾기