Z.ai가 GLM-5.2를 MIT로 풀고 Fireworks가 day-zero 호스팅을 시작하면서, GPT-5.5의 1/6 가격으로 프런티어급 코딩·에이전트 성능을 자가 호스팅 가능한 시대가 열렸다.

한눈에753B/40B-active MoE, 1M 컨텍스트, MIT 라이선스 — 상업적 사용·재배포 모두 자유Fireworks 가격 입력 $1.40 / 출력 $4.40 per 1M (캐시드 $0.26)로 GPT-5.5 대비 약 1/6FrontierSWE 74.4, SWE-bench Pro 62.1, Design Arena Elo 1위로 프런티어 폐쇄형과 종이 한 장 차이

실무자: OpenAI·Anthropic API 호환 포맷을 둘 다 제공해 Claude Code, Cursor, 자체 에이전트 하네스를 거의 그대로 옮길 수 있다. 리더: 폐쇄형 API의 가격·정책·지정학 리스크에 대한 유의미한 백업이 처음 등장했다.

2026년 6월 17일 베이징 zai 가 glm-5-2 풀 웨이트를 Hugging Face와 ModelScope에 MIT 라이선스로 공개했다. 코딩 구독은 6월 13일부터 월 $12.60에 먼저 열렸고, 같은 주 미 상무부가 Anthropic Fable 5·Mythos 5를 외국인 차단 명령한 직후라 타이밍이 정치적으로 절묘했다. Knowledge Atlas Tech 주가는 30% 넘게 급등했다.

이미지: GLM-5.2 어텐션 아키텍처, 출처: @rasbt on X

무엇이 일어났나

GLM-5.2는 GLM-5/5.1 계보 위에 IndexShare를 새로 얹은 mixture-of-experts 모델이다. 총 753B / 활성 40B / 384 expert / 61 layer 구성, 컨텍스트 1M 토큰 (출력 최대 131K)이 핵심 사양이다. 사고 노력은 High / Max 두 단계로 사용자가 직접 선택할 수 있어 지연·비용·품질을 노브 하나로 조정한다.

@jeremyphoward는 "Opus 4.8과 gpt-5-5에 최소한 필적한다"고 평가했고, @rasbt는 "오늘 시점 최고의 open-weight 모델"이라 못박았다. Howard는 추론 서빙을 Fireworks AI 로 돌리고 있다고 덧붙였다 — 다른 곳은 이만큼 빠르지 않을 수 있다는 단서와 함께.

숫자로 보기

  • 가격 (Fireworks 자체 호스팅): 입력 $1.40 / 1M, 출력 $4.40 / 1M, 캐시드 입력 $0.26 / 1M (롱컨텍스트 에이전트에 결정적)
  • 지연: TTFT ≈ 1.14s, speculative-decoding accept length 4.56 → 5.47 토큰 (+20%)
  • 컨텍스트: 1M (GLM-5.1 대비 5배), 출력 131K
  • 벤치마크: FrontierSWE 74.4 (vs GPT-5.5 72.6, Opus 4.8 75.1), SWE-bench Pro 62.1 (vs GPT-5.5 58.6), Terminal-Bench 2.1 81.0, Design Arena Elo 1360 (#1), Code Arena Frontend #2 (Opus 4.7 대비 +29점)
  • GPQA-Diamond: 91.4 (Fireworks 검증)

왜 중요한가

실무 도입의 의사결정 포인트는 세 가지로 정리된다.

첫째, API 호환성. Z.ai는 GLM-5.2를 OpenAI 호환·Anthropic 호환 포맷 양쪽으로 제공한다. claude-code, cursor, 자체 에이전트 하네스를 거의 코드 수정 없이 백엔드만 바꾸면 된다. Anthropic 차단으로 갈 곳을 잃은 미국·EU 사용자에게는 이주 비용이 사실상 무료다.

둘째, 가격 곡선의 재구성. 캐시드 입력 $0.26 / 1M은 1M 컨텍스트에서 시스템 프롬프트·도구 정의·코드베이스 인덱스를 캐시에 박아두는 retrieval-augmented-generation 대체 워크플로(roll-up-the-whole-repo)에서 결정적이다. 캐시드 토큰 비중이 60~80%인 에이전트 워크로드라면, 실효 단가는 명목보다 한 자릿수 더 내려간다.

셋째, 프런티어 코딩에서의 실제 우위. Fireworks 자체 평가에서 GPQA-Diamond 91.4를 기록했고, 프런트엔드 코딩(Code Arena)에서는 Fable 5를 제외한 모든 Opus 시리즈를 능가해 전체 2위에 올랐다. 디자인 시스템·React/Vue 컴포넌트 생성·CSS 튜닝이 일상인 풀스택 엔지니어에게는 직접적 이득이다.

누가 이득, 누가 손해

이득: (1) 자체 GPU 풀을 가진 팀 — vLLM/SGLang으로 셀프 호스팅하면 토큰당 변동비가 거의 사라진다. (2) 데이터 주권이 강제되는 산업(의료·금융·정부·EU). (3) Cursor/Continue/Aider 등 폐쇄형 API에 의존하던 코딩 도구 — 라우팅 옵션이 늘어 사용자 가격 부담을 낮출 수 있다.

손해: (1) GPT-5.5/Opus 4.8 가격 정책에 의존하던 SaaS 코딩 어시스턴트 — 마진 압박. (2) 단가 경쟁에 따른 OpenRouter 라우터들의 수익 구조 재편. 단, Hacker News 사용자들은 Max 모드의 사고 토큰 폭증으로 OpenRouter에서 "꽤 빠르게 $5를 태웠다"고 보고 — 가격 우위가 워크로드별로 다르게 나타난다는 점은 주의.

더 깊이

GLM-5.2의 1M 컨텍스트를 "공칭"이 아닌 "실효"로 만드는 핵심은 세 단계 어텐션 스택이다. (Raschka)

  1. multi-head-latent-attention (MLA) — Key/Value를 저랭크 잠재공간으로 사영해 KV 캐시를 압축, 헤드별 KV는 추론 시 가벼운 프로젝션으로 복원. KV 캐시 메모리·HBM 대역폭 절감.
  2. deepseek-sparse-attention (DSA) — ReLU-게이트 다중헤드 lightning indexer가 이전 토큰을 스코어링, top-k=2048개 위치만 풀 어텐션에 통과. 레이어당 O(L²) → O(L·k).
  3. indexshare — 인덱서를 4개 레이어마다 1회만 실행하고 이후 3개 레이어는 동일 top-k 재사용. 1M 컨텍스트에서 토큰당 FLOPs 2.9× 감소.

여기에 MTP(Multi-Token Prediction) + KVShare 기반 speculative decoding이 얹혀 accept length가 +20%. 결과적으로 1M 입력을 받아도 TTFT 1초대를 유지한다.

학습 측면에서는 자체 RL 인프라 slime으로 화이트박스/블랙박스 롤아웃, trajectory compaction, 서브에이전트 워크플로를 지원한다. 10여 개 전문가 모델을 약 2일 만에 머지했고, 장기지평 코딩 태스크에서는 그룹 단위 최적화 대신 critic-based PPO를 채택했다. 보상 해킹 방지로 규칙 필터 + LLM 의도 검증의 2단계 anti-hack을 추가했다.

VentureBeat가 "GPT-5.5의 1/6 비용으로 동급 성능"이라 헤드라인을 뽑은 근거가 이것이다. 다만 Artificial Analysis의 Coding Index에서는 GLM-5.2 Max가 50.7로 Opus 4.6(48.1)을 넘지만 GPT-5.5 변형(58.5~59.1)에는 미치지 못한다는 다른 데이터도 있다 — 평가 셋에 따라 순위가 흔들린다는 사실은 도입 전 자체 평가를 권한다.

아직 알 수 없는 것

  • 멀티모달 부재: Howard가 "유일한 큰 결함"이라 부른 부분. 4월 1일 출시된 GLM-5V-Turbo가 비전 변형이지만 GLM-5.2 본체로 흡수될 로드맵은 미공개.
  • Max 모드의 사고 토큰 효율: HN에서 보고된 사례 — Max가 단순 코딩 태스크에 15분간 45k 토큰 소모, GPT-5.5 xhigh의 16k 대비 비효율. High 모드에서 토큰 2~2.5× 절감하면서 품질 유지라는 워크어라운드 보고됨. 실서비스 도입 시 기본값을 High로 두는 편이 안전.
  • 장기지평 일반화: 공개 벤치마크 외 METR/Cognition 류 평가 부재.
  • 공식 파라미터 혼선: 753B vs 744B 표기 불일치 (활성 40B는 일치).
  • 데이터 거버넌스: Z.ai 클라우드 API 사용 시 중국 국가정보법 적용 가능성 — 민감 데이터는 셀프 호스팅 권고.

5분 실습 (보통 · 5분)

기존 Claude Code 워크플로에 GLM-5.2를 끼워 본다.

  1. https://fireworks.ai 가입 후 API 키 발급, $5 크레딧 충전.
  2. 환경변수 설정: export ANTHROPIC_BASE_URL=https://api.fireworks.ai/inference/v1/anthropicexport ANTHROPIC_API_KEY=<fireworks-key>.
  3. claude CLI 실행 (Anthropic 호환 포맷이라 그대로 동작), 모델 옵션에 accounts/fireworks/models/glm-5p2와 thinking effort high 지정.
  4. 현재 리포지토리에서 평소 쓰던 리팩토링·디버깅 프롬프트 5개를 동일 입력으로 GLM-5.2 (High) / Claude Opus 4.8에 각각 던지고 결과를 나란히 본다.
  5. 토큰 사용량, 첫 토큰 지연, 결과 품질을 표로 정리해 비용 대비 만족도가 임계점을 넘는지 확인.

더 읽어보기