zhipu

GLM-4.7

GLM-4.7 oleh Zhipu AI adalah flagship model MoE 358B yang menampilkan context window 200K, performa SWE-bench elit 73,8%, dan Deep Thinking bawaan untuk...

zhipu logozhipuGLM22 Desember 2025
Konteks
200Ktoken
Output maks.
131Ktoken
Harga input
$0.60/ 1M
Harga output
$2.20/ 1M
Modalitas:TextImage
Kemampuan:VisiAlatStreamingPenalaran
Benchmarks
GPQA
85.7%
GPQA: Tanya Jawab Sains Tingkat Doktoral. Benchmark ketat dengan 448 pertanyaan pilihan ganda dalam biologi, fisika, dan kimia yang dibuat oleh pakar domain. Para ahli PhD hanya mencapai akurasi 65-74%, sementara non-ahli hanya mendapat 34% bahkan dengan akses web tak terbatas (sehingga disebut 'tahan Google'). GLM-4.7 meraih skor 85.7% pada benchmark ini.
HLE
42.8%
HLE: Penalaran Keahlian Tingkat Tinggi. Menguji kemampuan model untuk mendemonstrasikan penalaran tingkat ahli di domain khusus. Mengevaluasi pemahaman mendalam tentang topik kompleks yang membutuhkan pengetahuan tingkat profesional. GLM-4.7 meraih skor 42.8% pada benchmark ini.
MMLU
90.1%
MMLU: Pemahaman Bahasa Multitugas Masif. Benchmark komprehensif dengan 16.000 pertanyaan pilihan ganda meliputi 57 mata pelajaran akademik termasuk matematika, filsafat, hukum, dan kedokteran. Menguji pengetahuan luas dan kemampuan penalaran. GLM-4.7 meraih skor 90.1% pada benchmark ini.
MMLU Pro
84.3%
MMLU Pro: MMLU Edisi Profesional. Versi MMLU yang ditingkatkan dengan 12.032 pertanyaan menggunakan format 10 pilihan yang lebih sulit. Mencakup Matematika, Fisika, Kimia, Hukum, Teknik, Ekonomi, Kesehatan, Psikologi, Bisnis, Biologi, Filsafat, dan Ilmu Komputer. GLM-4.7 meraih skor 84.3% pada benchmark ini.
SimpleQA
46%
SimpleQA: Benchmark Akurasi Faktual. Menguji kemampuan model untuk memberikan respons yang akurat dan faktual terhadap pertanyaan langsung. Mengukur keandalan dan mengurangi halusinasi dalam tugas pengambilan pengetahuan. GLM-4.7 meraih skor 46% pada benchmark ini.
IFEval
88%
IFEval: Evaluasi Kepatuhan Instruksi. Mengukur seberapa baik model mengikuti instruksi dan batasan tertentu. Menguji kemampuan untuk mematuhi aturan format, batas panjang, dan persyaratan eksplisit lainnya. GLM-4.7 meraih skor 88% pada benchmark ini.
AIME 2025
95.7%
AIME 2025: Ujian Matematika Undangan Amerika. Soal matematika tingkat kompetisi dari ujian AIME bergengsi yang dirancang untuk siswa SMA berbakat. Menguji pemecahan masalah matematika tingkat lanjut yang membutuhkan penalaran abstrak, bukan sekadar pencocokan pola. GLM-4.7 meraih skor 95.7% pada benchmark ini.
MATH
92%
MATH: Pemecahan Masalah Matematika. Benchmark matematika komprehensif yang menguji pemecahan masalah dalam aljabar, geometri, kalkulus, dan domain matematika lainnya. Membutuhkan penalaran multi-langkah dan pengetahuan matematika formal. GLM-4.7 meraih skor 92% pada benchmark ini.
GSM8k
98%
GSM8k: Matematika SD 8K. 8.500 soal cerita matematika tingkat SD yang membutuhkan penalaran multi-langkah. Menguji aritmatika dasar dan pemikiran logis melalui skenario dunia nyata seperti belanja atau perhitungan waktu. GLM-4.7 meraih skor 98% pada benchmark ini.
MGSM
94%
MGSM: Matematika SD Multibahasa. Benchmark GSM8k yang diterjemahkan ke 10 bahasa termasuk Spanyol, Prancis, Jerman, Rusia, Cina, dan Jepang. Menguji penalaran matematika dalam berbagai bahasa. GLM-4.7 meraih skor 94% pada benchmark ini.
MathVista
74%
MathVista: Penalaran Matematika Visual. Menguji kemampuan untuk menyelesaikan masalah matematika yang melibatkan elemen visual seperti grafik, diagram geometri, dan figur ilmiah. Menggabungkan pemahaman visual dengan penalaran matematika. GLM-4.7 meraih skor 74% pada benchmark ini.
SWE-Bench
73.8%
SWE-Bench: Benchmark Rekayasa Perangkat Lunak. Model AI mencoba menyelesaikan masalah GitHub nyata dalam proyek Python open-source dengan verifikasi manusia. Menguji keterampilan rekayasa perangkat lunak praktis pada codebase produksi. Model terbaik meningkat dari 4,4% di 2023 menjadi lebih dari 70% di 2024. GLM-4.7 meraih skor 73.8% pada benchmark ini.
HumanEval
94.2%
HumanEval: Masalah Pemrograman Python. 164 masalah pemrograman yang ditulis tangan di mana model harus menghasilkan implementasi fungsi Python yang benar. Setiap solusi diverifikasi dengan unit test. Model terbaik sekarang mencapai akurasi lebih dari 90%. GLM-4.7 meraih skor 94.2% pada benchmark ini.
LiveCodeBench
84.9%
LiveCodeBench: Benchmark Koding Langsung. Menguji kemampuan koding pada tantangan pemrograman dunia nyata yang terus diperbarui. Berbeda dengan benchmark statis, menggunakan masalah baru untuk mencegah kontaminasi data dan mengukur keterampilan koding yang sebenarnya. GLM-4.7 meraih skor 84.9% pada benchmark ini.
MMMU
74.2%
MMMU: Pemahaman Multimodal. Benchmark Pemahaman Multimodal Multi-disiplin Masif yang menguji model penglihatan-bahasa pada masalah tingkat universitas di 30 mata pelajaran yang membutuhkan pemahaman gambar dan pengetahuan ahli. GLM-4.7 meraih skor 74.2% pada benchmark ini.
MMMU Pro
58%
MMMU Pro: MMMU Edisi Profesional. Versi MMMU yang ditingkatkan dengan pertanyaan lebih sulit dan evaluasi lebih ketat. Menguji penalaran multimodal tingkat lanjut di tingkat profesional dan ahli. GLM-4.7 meraih skor 58% pada benchmark ini.
ChartQA
86%
ChartQA: Tanya Jawab Grafik. Menguji kemampuan untuk memahami dan bernalar tentang informasi yang disajikan dalam grafik dan diagram. Membutuhkan ekstraksi data, perbandingan nilai, dan melakukan perhitungan dari representasi visual data. GLM-4.7 meraih skor 86% pada benchmark ini.
DocVQA
93%
DocVQA: Tanya Jawab Visual Dokumen. Benchmark Tanya Jawab Visual Dokumen yang menguji kemampuan untuk mengekstrak dan bernalar tentang informasi dari gambar dokumen termasuk formulir, laporan, dan teks yang dipindai. GLM-4.7 meraih skor 93% pada benchmark ini.
Terminal-Bench
41%
Terminal-Bench: Tugas Terminal/CLI. Menguji kemampuan untuk melakukan operasi baris perintah, menulis skrip shell, dan menavigasi lingkungan terminal. Mengukur keterampilan administrasi sistem praktis dan alur kerja pengembangan. GLM-4.7 meraih skor 41% pada benchmark ini.
ARC-AGI
12%
ARC-AGI: Abstraksi dan Penalaran. Abstraction and Reasoning Corpus untuk AGI - menguji kecerdasan fluida melalui teka-teki pengenalan pola baru. Setiap tugas membutuhkan penemuan aturan yang mendasari dari contoh, mengukur kemampuan penalaran umum daripada menghafal. GLM-4.7 meraih skor 12% pada benchmark ini.

Tentang GLM-4.7

Pelajari tentang kemampuan, fitur, dan cara menggunakan GLM-4.7.

Tinjauan Model

GLM-4.7 adalah flagship large language model yang dikembangkan oleh Zhipu AI. Model ini menggunakan arsitektur Mixture-of-Experts (MoE) dengan 358 miliar total parameter. Model ini dirancang khusus untuk menangani tugas agentic yang kompleks dan long-context reasoning melalui kapabilitas Preserved Thinking dan Interleaved Thinking yang unik. Fitur-fitur ini memungkinkan model untuk mempertahankan logika yang stabil dan status reasoning menengah di seluruh sesi multi-turn, mengatasi penurunan context yang umum terjadi pada alur kerja otonom.

Performa dan Arsitektur

Model ini menawarkan context window 200.000-token yang luas dikombinasikan dengan kapasitas output 131.072-token yang masif. Hal ini membuatnya cocok untuk menghasilkan aplikasi secara menyeluruh atau menganalisis dokumentasi yang luas dalam satu kali proses. Dirilis di bawah lisensi MIT sebagai model open-weight, model ini memberikan coding dan reasoning berkinerja tinggi dengan sebagian kecil dari biaya alternatif proprietary.

Integrasi dan Penggunaan

Model ini sepenuhnya kompatibel dengan format OpenAI API, menyederhanakan integrasi ke dalam ekosistem perangkat lunak yang sudah ada. Developer menggunakannya untuk tugas-tugas rekayasa perangkat lunak berisiko tinggi, di mana model ini mencapai skor 73,8% pada SWE-bench Verified. Kemampuannya untuk memproses dan menganalisis volume dokumentasi teknis yang tinggi antara bahasa Inggris dan Mandarin dengan nuansa linguistik tingkat penutur asli menjadikannya alat yang serbaguna untuk tim pengembangan internasional.

GLM-4.7

Kasus Penggunaan untuk GLM-4.7

Temukan berbagai cara menggunakan GLM-4.7 untuk hasil yang luar biasa.

Rekayasa Perangkat Lunak Otonom

Memanfaatkan kemampuan SWE-bench sebesar 73,8% untuk secara otonom melakukan debug, refactor, dan mengimplementasikan fitur baru di seluruh repositori yang kompleks.

Sintesis Dokumen Kapasitas Tinggi

Memanfaatkan batas output 131k untuk menghasilkan manual teknis yang komprehensif atau seluruh bab buku dari dataset yang besar.

Alur Kerja Agentic Jangka Panjang

Menyebarkan agent yang menggunakan Preserved Thinking untuk menjaga konsistensi dan logika selama ratusan tugas berurutan tanpa kehilangan context.

Kecerdasan Bisnis Bilingual

Memproses dan menganalisis volume dokumentasi teknis yang tinggi antara bahasa Inggris dan Mandarin dengan nuansa linguistik tingkat penutur asli.

Pembuatan Kode UI/UX Otomatis

Menghasilkan arsitektur front-end React atau Next.js yang lengkap dengan animasi canggih dan styling siap produksi dalam satu kali eksekusi.

Pemecahan Masalah Matematika Tingkat Kompetisi

Menyelesaikan masalah matematika tingkat olimpiade yang kompleks dan teka-teki logika simbolik menggunakan mode reasoning-heavy thinking khusus.

Kelebihan

Keterbatasan

Performa Coding Elit: Mencapai skor 73,8% pada SWE-bench Verified, mengungguli hampir semua open-source model dan menandingi API proprietary tingkat atas.
Modalitas Hanya Teks: Tidak seperti Gemini atau GPT-4o, GLM-4.7 tidak memiliki pemrosesan visi atau audio bawaan, sehingga memerlukan model eksternal untuk tugas multimodal.
Batas Output Masif: Batas output 131.072-token adalah salah satu yang tertinggi di industri, memungkinkan pembuatan seluruh aplikasi dalam satu giliran.
Kebutuhan Lokal yang Masif: Dengan 358B parameters, menjalankan model secara lokal memerlukan perangkat keras yang signifikan (sekitar 710GB VRAM), sehingga tidak dapat diakses oleh GPU konsumen.
Arsitektur yang Mengutamakan Agent: Menampilkan Preserved Thinking untuk menjaga konsistensi logis di seluruh tugas jangka panjang, mengatasi penurunan context pada autonomous agents.
Lonjakan Latency Sesekali: Pengguna pada tingkat API pribadi melaporkan perlambatan berkala selama jam sibuk dibandingkan dengan infrastruktur penyedia yang lebih besar.
Nilai Ekonomi Tinggi: Menyediakan kecerdasan setingkat frontier model dengan biaya sekitar 4 hingga 7 kali lebih rendah dibandingkan kompetitor Barat seperti OpenAI atau Anthropic.
Keunikan Kepatuhan Instruksi: Meskipun kuat dalam reasoning, model terkadang mengabaikan batasan struktur file tertentu dalam sesi coding yang sangat kompleks.

Mulai Cepat API

zai/glm-4.7

Lihat Dokumentasi
zhipu SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: 'YOUR_ZAI_API_KEY',
  baseURL: 'https://api.z.ai/api/paas/v4/',
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'glm-4.7',
    messages: [{ role: 'user', content: 'Design a scalable React architecture.' }],
    thinking: { type: 'enabled' }
  });
  console.log(response.choices[0].message.content);
}
main();

Instal SDK dan mulai melakukan panggilan API dalam hitungan menit.

Apa Kata Orang Tentang GLM-4.7

Lihat apa yang dipikirkan komunitas tentang GLM-4.7

GLM-4.7 menangani codebase besar dengan andal berkat context 128k-nya. Sangat berguna untuk tugas subagent guna menghemat biaya API utama.
IulianHI
reddit
GLM-4.7 dari Zhipu AI menandingi proprietary frontier model seperti GPT-5.1 High dalam hal coding. Fitur Preserved Thinking adalah kemenangan besar bagi autonomous agents.
Etienne Noumen
youtube
GLM-4.7 terus menjadi open-weights model paling cerdas di Intelligence Index v4.0, berada di depan DeepSeek V3.2.
Artificial Analysis
twitter
Model China menutup kesenjangan dengan cepat dalam kegunaan coding. Skor SWE-bench 73% ini bukanlah lelucon untuk rilis open weight.
Epoch AI
hackernews
Kecepatan reasoning sebenarnya cukup layak untuk model sebesar ini. Menangani logika kompleks jauh lebih baik daripada iterasi sebelumnya.
Bijan Bowen
youtube
GLM-4.7 mendarat di posisi #6 di AI Index, melampaui Kimi K2. Temukan mengapa model seharga $2 ini menggantikan GPT-5.2 dalam alur kerja coding.
TowardsAI
twitter

Video Tentang GLM-4.7

Tonton tutorial, ulasan, dan diskusi tentang GLM-4.7

Panjang context di sini adalah 200k dan maksimum output tokens adalah 128k yang sebenarnya sangat mumpuni.

Baiklah, itu sangat mengesankan. Tidak ada model lain yang memasukkan fitur khusus dengan tingkat kompleksitas seperti itu.

Kecepatan reasoning sebenarnya cukup layak untuk model sebesar ini.

Ini menangani logika kompleks jauh lebih baik daripada iterasi sebelumnya.

Model ini merupakan peningkatan signifikan dalam hal konsistensi logis.

Model GLM sebenarnya mengimplementasikan arsitektur yang lebih baik dengan menempatkan semua mock data dalam satu file.

Yang satu ini jelas merupakan lompatan besar. Benchmark tersebut dibenarkan oleh pengujian yang saya lakukan.

Model ini memahami context dari seluruh proyek tanpa saya perlu mengingatkannya.

Kemampuan coding-nya bisa dibilang setara dengan model terbaik yang ada.

Anda mendapatkan reasoning kelas atas dengan biaya yang jauh lebih murah.

Skornya 73,8 persen pada Swaybench verified, yang benar-benar luar biasa untuk open-source model.

Anda benar-benar dapat melihat bahwa model ini berfungsi dan benar-benar bekerja. Sedangkan generasi Gemini 3 Pro tidak berfungsi sama sekali.

Kecepatan generasi untuk tingkat kecerdasan ini sungguh luar biasa.

Ini jelas dirancang untuk developer yang membutuhkan output kode yang dapat diandalkan.

Zhipu AI benar-benar melampaui diri mereka sendiri dengan penyesuaian arsitektur MoE di sini.

Lebih dari sekadar prompt

Tingkatkan alur kerja Anda dengan Otomatisasi AI

Automatio menggabungkan kekuatan agen AI, otomatisasi web, dan integrasi cerdas untuk membantu Anda mencapai lebih banyak dalam waktu lebih singkat.

Agen AI
Otomasi Web
Alur Kerja Cerdas

Tips Pro untuk GLM-4.7

Tips ahli untuk memaksimalkan GLM-4.7.

Aktifkan Thinking Mode untuk Logika

Atur parameter thinking ke enabled untuk tugas coding atau matematika guna memanfaatkan jejak reasoning internal model dan meningkatkan akurasi.

Gunakan SDK yang Kompatibel dengan OpenAI

Integrasikan GLM-4.7 ke dalam alur kerja yang ada dengan menggunakan OpenAI SDK dan mengubah base URL ke endpoint Z.ai.

Maksimalkan Output 131K

Saat menghasilkan konten panjang, berikan kerangka terperinci terlebih dahulu untuk membantu model menjaga koherensi struktural hingga batas token yang masif.

Optimalkan System Prompt untuk Agent

Definisikan persyaratan Preserved Thinking di dalam system message untuk memastikan model menggunakan kembali status reasoning di sesi multi-turn.

Testimoni

Apa Kata Pengguna Kami

Bergabunglah dengan ribuan pengguna puas yang telah mengubah alur kerja mereka

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Terkait AI Models

openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M

Pertanyaan yang Sering Diajukan tentang GLM-4.7

Temukan jawaban untuk pertanyaan umum tentang GLM-4.7