Z.ai가 MIT 라이선스 glm-5-2|GLM-5.2 (753B MoE, 40B 활성, 1M 컨텍스트)를 공개했다. SWE-bench Pro 62.1로 GPT-5.5를 앞서고, API 단가는 입력 $1.40 / 출력 $4.40 — Opus 대비 5~8배 저렴하다.
한눈에256 expert MoE, 토큰당 8 activate, DeepSeek Sparse Attention + IndexShare로 1M 컨텍스트 FLOPs 2.9배 감소추론 노력(reasoning effort) 2단 —high(균형) /max(한계) — 가 API 파라미터로 노출SWE-bench Pro 62.1, FrontierSWE 74.4%, Terminal-Bench 2.1 81.0, GDPval-AA v2 1524(=GPT-5.5 xhigh)
실무자: Claude Code 대체로 자가 호스팅·온프레 도입 시 ROI를 다시 계산해볼 가치가 있다. 리더: Anthropic Fable 해외 차단 이틀 후 풀린 가중치 — 공급망·규제 리스크 대응책으로 평가할 만하다.
6월 13일 Z.ai (구 Zhipu AI)가 GLM-5.2를 공개했다. 같은 주에 Hugging Face의 zai-org/GLM-5.2 저장소와 ModelScope에 가중치가 mit-license|MIT 라이선스로 풀렸고, GLM Coding Plan과 종량제 API가 순차 개방됐다. 트윗 핵심은 "같은 가격(GLM-5.1과 동일), 코딩·에이전트 능력 도약, 1M 컨텍스트, 2단 추론, MIT" 다섯 줄이다.
이미지: Z.ai의 GLM-5.2 공식 발표, 출처: @Zai_org on X

무엇이 일어났나
Z.ai는 GLM-5.2를 "From Vibe Coding to Agentic Engineering" 슬로건으로 포지셔닝한다. 단순 코드 보조에서 장기 자율 agentic-ai|에이전트 엔지니어링으로의 이행을 표적으로 한다는 신호다. 발표는 미 상무부가 Anthropic에 Fable 5/Mythos 5 해외 접속 차단을 48시간 안에 시행하라고 명령한 직후 이틀 만에 이뤄졌고, 즈푸AI 주가는 발표 당일 급등했다. BIS의 2025년 1월 Entity List 등재 이후 Z.ai가 일관되게 취해온 "오픈웨이트 우선" 전략의 연장선이다.
외부 반응에서 가장 회자된 사례는 Wharton의 @emollick 의 시(詩) 테스트다. 6연 4행, 연마다 모음 하나씩 제거하는 압운시 과제에서 GLM-5.2(max)는 "a correct poem (& the Welsh is fun)" 으로 제약을 충족했으나, Anthropic Fable은 "사라지는 글자를 시의 주제로 엮어 넣는" 메타적 처리를 보여 — 벤치마크가 잡지 못하는 영역의 격차를 시연했다. 이 게시물은 "오픈웨이트가 코딩은 따라잡았으나 창의는 아직"이라는 클러스터 핵심 주장의 출발점이 됐다.
이미지: Mollick의 GLM-5.2 vs Fable 압운시 비교, 출처: @emollick on X

숫자로 보기
- 파라미터: 총 ~753B, 토큰당 활성 ~40B, 256 expert, top-8 routing
- 컨텍스트: 입력 1,000,000 / 출력 131,072 토큰 (GLM-5.1의 약 5배)
- API 종량제: 입력 $1.40 / 출력 $4.40 / 캐시 입력 $0.26 (100만 토큰 기준)
- 구독: GLM Coding Plan Lite $3~6/mo, Pro $15~19/mo, Max ≈ $80/mo
- Artificial Analysis Intelligence Index v4.1: 51 (오픈웨이트 1위, MiniMax-M3 44, DeepSeek V4 Pro 44, Kimi K2.6 43)
- 핵심 벤치마크: SWE-bench Pro 62.1 (GPT-5.5 58.6) / FrontierSWE 74.4% (Opus 4.8 75.1%) / MCP-Atlas 77.0 / Terminal-Bench 2.1 81.0 / GDPval-AA v2 1524 (= GPT-5.5 xhigh 1514)
- 비용 효율: 태스크당 출력 ~43k 토큰 (MiniMax-M3 24k 대비 비효율), 태스크당 약 $0.46
아키텍처 & 학습 핵심
어텐션 계열은 deepseek-sparse-attention|DeepSeek Sparse Attention(DSA) 기반이다. Z.ai가 이번에 추가한 indexshare|IndexShare는 4개 트랜스포머 레이어마다 경량 인덱서를 공유시키는 기법으로, 1M 컨텍스트에서 토큰당 FLOPs를 2.9배 감소시킨다. 여기에 개선된 multi-token-prediction|MTP 레이어를 KVShare와 결합해 speculative-decoding|추측 디코딩 수용 길이를 최대 20% 향상시켰다고 보고됐다. 1M 컨텍스트 자가 호스팅 시 throughput에 직접 영향을 주는 변경이다.
RL 단계에서는 그룹 단위 어드밴티지(GRPO 계열)에서 개별 롤아웃·토큰 단위 어드밴티지의 Critic-Based PPO로 전환했다고 밝혔다. 보상 해킹 대응으로 규칙 기반 필터 + LLM 심사를 결합한 2단계 anti-hack을 거치고, slime 인프라로 약 이틀 만에 10개 이상 전문가 모델을 병합하는 병렬 OPD 학습을 적용했다.
두 단계 추론 — high vs max
GLM-5.2는 reasoning effort 를 모델 카드와 API 파라미터로 직접 노출한다.
GLM-5.2 (high)— 일반 코딩·에이전트 워크플로. 지연·비용·정확도의 균형점.GLM-5.2 (max)— 장기 추론·하드 벤치마크 타겟. Mollick이 쓴 압운시도 max 모드다.
실무적으로는 chain-of-thought|CoT 길이가 길어질수록 출력 토큰 단가가 누적되므로, 단순 코드 완성·테스트 보조엔 high, 다단계 디버깅·아키텍처 변경엔 max로 분기하는 정책이 현실적이다. 태스크당 평균 43k 출력 토큰이라는 수치는 max 비중을 줄여야 할 강한 이유다.
왜 중요한가 — 실무 도입 관점
현장에서 의미 있는 변화는 셋이다. (1) Claude Code 대안의 등장. GLM Coding Plan Pro $15~19/mo 라인은 노골적으로 Claude Code Subscription 대체를 노린 가격이다. (2) 온프레 옵션의 현실화. 8×H100 클래스에서 정밀도 손실 없이 추론 가능하며, 커뮤니티는 이미 unsloth GGUF, lukealonso NVFP4, mxfp4 MLX 양자화 버전을 배포 중이다. (3) 데이터 거버넌스 분리. 호스트 API를 쓰면 중국 관할권에 데이터가 들어가지만, 셀프호스팅하면 그 위험이 사라진다 — 금융·정부·헬스케어에 의미 있는 차이다.
누가 이득, 누가 손해
득: 온프레 인프라 보유 팀, 비용 민감 스타트업, 데이터 거버넌스가 외부 API를 막아온 부문, GLM 친화 토크나이저 위에 빌드한 mcp-protocol|MCP 도구 생태계. 손해: Anthropic·OpenAI의 코딩 API 마진, 단순 자동완성으로 차별화하던 SaaS, 그리고 폐쇄형 모델만 지원하던 IDE 통합 도구들. Claude Opus 4.8(입력 $5/출력 $25) 기준 출력 단가 격차는 5~8배다.
더 깊이
GLM-5.2의 코딩 우위는 단순 파라미터 수보다 롱호라이즌 태스크 설계에서 나온다. SWE-bench Pro·FrontierSWE·MCP-Atlas·Terminal-Bench 2.1 모두 "한 번에 끝나지 않는 작업"의 평가다. 특히 Terminal-Bench 2.1 81.0은 GLM-5.1의 62.0에서 큰 폭의 도약이다 — 셸 환경에서 다단계 도구 호출과 상태 추적 능력이 개선됐다는 신호다. 과학 추론에서도 CritPt +16(→21%), HLE +12(→40%), GPQA Diamond +3(→89%) 의 도약이 보고됐다.
Mollick이 시연한 "창의 격차"는 정량 지표로 환원하기 어려운 영역이다. swyx의 Latent Space는 IndexShare 기반 추측 디코딩의 산업적 의의를 별도로 다뤘다. trendingtopics.eu는 "중국 오픈 LLM이 구글 최상위 모델까지 제친 사건" 으로 보도했다.
아직 알 수 없는 것
- 출시 트윗에 공식 벤치마크 표가 없어 SWE-bench Pro 62.1 등의 수치는 후속 블로그·서드파티(Artificial Analysis, BenchLM, llm-stats) 재현에 의존.
- 멀티모달 부재 — 비전·오디오는 향후 GLM-5.2-V 분리 가능성이 거론되나 미확정.
- 호스트 API 사용 시 중국 데이터 관할권 — TechTimes가 명시적으로 우려를 제기.
- 장기 자율 코딩 시나리오에서 prompt-injection 내성·보안 회귀에 대한 외부 감사 미공개.
- 태스크당 43k 출력 토큰의 비효율 — 운영 비용 모델링에서 무시 못 할 변수.
5분 실습 (보통 · 10분)
- OpenRouter 또는 z.ai API 키 발급 후 환경변수 설정.
- 사내 모노레포에서 최근 머지된 PR 3개를 골라 diff와 컨텍스트(관련 파일 5~10개)를 한 번에 1M 컨텍스트에 던지고 "이 PR이 다른 모듈에 일으킬 리그레션 후보를 파일·라인 단위로 나열하라" 요청.
reasoning="high"와reasoning="max"두 모드를 같은 입력에 실행.- 같은 입력을 Claude Opus 4.8과 GPT-5.5에 동일하게 실행.
- 출력 토큰 수·지연·실제 리그레션 적중률을 표로 정리해 ROI 산출.
더 읽어보기
- VentureBeat — GLM-5.2 beats GPT-5.5 for 1/6 the cost · 2026 · 가격·벤치마크 종합
- Hugging Face Z.ai 공식 블로그 · 2026 · IndexShare·MTP·anti-hack PPO 1차 자료
- Artificial Analysis — GLM-5.2 Intelligence Index 51 · 2026 · 독립 벤치마크 재현
- Latent Space — IndexShare 산업적 의의 · 2026
- OpenRouter GLM-5.2 가격표 · 2026 · 종량제 단가
- TechTimes — China data risk · 2026 · 호스트 API 데이터 관할권 분석