코히어가 30B/3B-활성 mixture-of-experts 코딩 모델 north-mini-code를 (1) ollama 공식 라이브러리, (2) openrouter 무료 엔드포인트, (3) 자유 수정 가능한 Apache 2.0 가중치 — 세 채널로 한꺼번에 풀었다. 단일 h100에 SWE-Bench Verified pass@10 80.2%, Terminal-Bench v2 55.1%.

한눈에ollama pull north-mini-code-1.0 — 9GB(q4_K_M)부터 61GB(bf16)까지, MLX 변종 포함OpenRouter cohere/north-mini-code:free — 입력 256K / 출력 64K, JSON 스키마 툴 호출, 평균 134 tok/sApache 2.0 + Cohere AUP — 파인튜닝·디스틸레이션·도메인 어댑테이션 권장

실무자: OpenCode·Codex·SWE-Agent·mini-SWE-Agent 같은 에이전트 하니스에 곧장 꽂을 수 있어, 자가 호스팅 또는 무료 게이트웨이 양쪽으로 평가·도입 결정을 빠르게 굴릴 수 있다. 리더: 단일 H100에서 돌면서 동급 오픈웨이트를 코딩 벤치에서 앞서는 모델이 무료/오픈으로 풀린 것은 사내 코딩 보조의 total-cost-of-ownership 곡선을 다시 그리게 한다.

코히어의 트윗 세 개는 짧지만 함의는 크다. 6월 9일 1차 공개 시점에는 코히어 자체 API, Model Vault, Hugging Face 위주였다. 이번 업데이트는 로컬 추론(Ollama)서드파티 무료 게이트웨이(OpenRouter) — 즉 현실에서 실제로 평가 사이클을 돌리는 두 핵심 채널을 열었다는 점에서 단순 "분배 채널 추가" 이상이다.

노스 미니 코드 OpenRouter 모델 페이지

이미지: OpenRouter에 등록된 코히어 노스 미니 코드 무료 엔드포인트, 출처: North Mini Code (free) — OpenRouter

무엇이 일어났나

@cohere은 "세 가지 업데이트로 노스 미니 코드를 더 접근 가능하게 만들었다"고 운을 떼고, 후속 두 트윗에서 (a) Ollama 등록 — "이제 로컬에서 돌리고 codex, OpenClaw와 함께 쓰라", (b) OpenRouter 무료 사용 + 가중치 자유 수정을 안내했다. Ollama 라이브러리 페이지(north-mini-code-1.0)는 이미 4,027회 다운로드를 기록 중이고, ollama launch claude --model north-mini-code-1.0처럼 Claude Code·Codex App·OpenCode·Hermes Agent·OpenClaw 등 6개 코딩 에이전트를 한 줄 명령으로 노스 미니 코드 백엔드 위에 띄울 수 있는 런처 통합까지 제공한다.

OpenRouter 쪽은 cohere/north-mini-code:free로 단일 프로바이더(코히어 자체) 직접 포워딩 구조다. 입력 0 USD / 출력 0 USD, latency p50 0.49s, throughput 151 tok/s(best), 평균 134 tok/s, tool-call error rate 3.15%로 측정된다. 가중치는 Hugging Face의 w4a16 빌드와 풀 체크포인트로 받을 수 있다.

숫자로 보기

  • 아키텍처: 30B total / 3B active, 128 experts · top-8 활성 · SwiGLU · 라우터 sigmoid+top-k
  • 어텐션: 슬라이딩 윈도우(RoPE) : 글로벌(no positional) = 3:1 인터리브
  • 컨텍스트: 입력 256K / 출력 64K (Ollama 빌드는 488K 명시)
  • 실측 처리량: Cohere API 199~208 tok/s, OpenRouter 평균 134 tok/s
  • Devstral Small 2 대비: 출력 토큰 처리량 최대 2.8배, 인터-토큰 지연 30% 우위
  • 벤치마크: AA Coding Index 33.4 / SWE-Bench Verified pass@10 80.2% / Terminal-Bench v2 55.1% / τ²-Bench Telecom 37.4%(약점) / GDPval-AA 14%(약점)

왜 중요한가

현업 관점에서 핵심은 세 가지다.

(1) 평가-도입 사이클의 마찰 제거. GPU 없이 OpenRouter 무료 티어에서 토큰 한도 안에서 곧장 swe-bench 스타일 태스크를 돌려보고, 가능성이 보이면 H100 한 장에서 vllm 또는 Ollama로 자가 호스팅으로 옮기는 경로가 단순하다. 같은 슬러그(cohere/north-mini-code:free)가 OpenAI 호환 SDK에서 그대로 작동한다.

(2) 에이전트 하니스 친화성. Cohere 블로그가 강조했듯, 이 모델은 단일 스캐폴드가 아니라 SWE-Agent, mini-SWE-Agent, OpenCode, Terminus 2 네 가지 하니스 전반에 걸쳐 post-train됐다. 즉 특정 프롬프트 템플릿에 과적합되지 않았다는 주장이고, 실제로 native tool-use + interleaved thinking을 지원해 JSON 스키마로 툴 정의를 넣을 수 있다. "생각 내용을 다음 턴으로 forwarding"하라는 가이드는 흔한 함정이니 시스템 설계 시 명시 보존하라.

(3) 비용 구조 재정의. Devstral Small 2 대비 2.8배 throughput·30% 지연 우위는 자가 호스팅 시 토큰당 비용을 의미 있게 누른다. 다만 Artificial Analysis가 지적한 "verbose 경향" — 같은 평가를 풀 때 출력 토큰을 더 많이 쓴다 — 은 누적 비용에서 일부 상쇄 요인이다. 토큰당 가격 우위가 작업당 가격 우위로 그대로 번역되지 않을 수 있으니 실제 워크로드 기준 미터링이 필요하다.

누가 이득, 누가 손해

이득: (a) 규제 산업의 사내 개발팀(은행·정부·헬스케어) — '주권 AI' 서사가 코딩 보조로 확장, (b) 오픈웨이트 파인튜닝 워크플로를 가진 팀 — Apache 2.0 + 검증 가능 보상 학습 가중치는 도메인 RL 추가 학습에 좋은 출발점, (c) GPU 인프라가 이미 있는 회사 — 단일 H100 요건은 클러스터 스케줄링 부담이 작다.

손해/압박: GitHub Copilot·Cursor·폐쇄형 API 기반 코딩 보조 서비스는 "우리 서비스가 왜 필요한가"를 다시 정당화해야 한다. 단, 비코딩 에이전트 일반 능력에선 갭이 있으므로 고객 대면·일반 추론 워크로드는 여전히 폐쇄형 강자에게 유리하다.

더 깊이

Hugging Face 기술 블로그에 따르면 학습은 2단계 SFT 후 [reinforcement-learning-from-verifiable-rewards]로 마감됐다. 1단계 SFT는 코드 70% / 에이전틱 툴 사용 데이터 43% / 단일 턴 경시·과학 프로그래밍 27%(중복 허용 분류) 혼합, 2단계는 고품질 에이전틱·추론 샘플 45억 토큰 추가, RLVR은 약 5,000개 실 저장소에서 추출한 7만+ 검증 가능 과제로 진행됐다. 단순히 코드 LM이 아니라 에이전트 trajectory 전체에 보상을 흘린 RL 모델이라는 점이 SWE-Bench 강세의 가장 그럴듯한 설명이다.

Artificial Analysis는 "긴 문맥 검색·지시 따르기 점수가 평이해 복잡한 다단 추론·대형 문서 분석에는 부적합하다" 고 분명히 못 박았다. AA-LCR 32.3%, IFBench 57.6%, GDPval-AA 14%가 그 근거다. 따라서 실무 패턴은 "코딩·터미널 태스크는 노스 미니 코드, 일반 추론·고객 대면은 더 강한 모델과 페어링" 의 라우팅 설계가 합리적이다.

아직 알 수 없는 것

  • Ollama/llama.cpp의 128-experts MoE 완전 지원 여부. 코히어는 Unsloth GGUF로 9GB부터 풀 BF16까지 가능하다고 했지만, Developers Digest는 "공식 지원이 아니라 우회"라는 평가를 했다. 양자화 손실과 라우팅 정확성은 실측이 필요하다.
  • OpenRouter 무료 티어의 지속성. 단일 프로바이더 포워딩 구조 특성상 정책 변경 가능성 존재. SLA가 필요한 워크로드라면 자가 호스팅이나 코히어 자체 API로 미리 이중화하라.
  • "OpenClaw"의 정체. OpenRouter Apps 페이지에는 "OpenClaw is an open-source AI agent that connects to your messaging apps"로 등재돼 1.63B 토큰을 이 모델에 보낸다. Ollama 런처 통합 대상이기도 하지만 공식 제품 페이지·문서는 부족하다.
  • 후속 'North' 시리즈. 일반형 에이전트 모델로 확장될지 코히어는 공식적으로 밝히지 않았다.

5분 실습 (실무자용 · 5분)

  1. OpenRouter 가입 후 키 발급 → 환경변수 OPENROUTER_API_KEY 설정.
  2. 본인 레포의 최근 PR diff를 프롬프트에 넣어 호출:
curl -N https://openrouter.ai/api/v1/chat/completions \
  -H "Authorization: Bearer $OPENROUTER_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"model":"cohere/north-mini-code:free","stream":true,
       "messages":[{"role":"user","content":"Review this diff and suggest 3 testability improvements:\n<diff>"}]}'
  1. 같은 입력을 ollama pull north-mini-code-1.0 후 로컬에서도 실행, 출력 토큰 수·지연·제안 품질 비교.
  2. OpenCode 또는 SWE-Agent에 base_url을 OpenRouter로 지정해 한 라운드 SWE-Bench 인스턴스를 풀어보고 pass@10 체감 확인.

더 읽어보기