Cohere의 North Mini Code, Ollama·OpenRouter로 더 가까이

코히어가 30B/3B-활성 mixture-of-experts 코딩 모델 north-mini-code를 (1) ollama 공식 라이브러리, (2) openrouter 무료 엔드포인트, (3) 자유 수정 가능한 Apache 2.0 가중치 — 세 채널로 한꺼번에 풀었다. 단일 h100에 SWE-Bench Verified pass@10 80.2%, Terminal-Bench v2 55.1%.

한눈에ollama pull north-mini-code-1.0 — 9GB(q4_K_M)부터 61GB(bf16)까지, MLX 변종 포함OpenRouter cohere/north-mini-code:free — 입력 256K / 출력 64K, JSON 스키마 툴 호출, 평균 134 tok/sApache 2.0 + Cohere AUP — 파인튜닝·디스틸레이션·도메인 어댑테이션 권장

실무자: OpenCode·Codex·SWE-Agent·mini-SWE-Agent 같은 에이전트 하니스에 곧장 꽂을 수 있어, 자가 호스팅 또는 무료 게이트웨이 양쪽으로 평가·도입 결정을 빠르게 굴릴 수 있다. 리더: 단일 H100에서 돌면서 동급 오픈웨이트를 코딩 벤치에서 앞서는 모델이 무료/오픈으로 풀린 것은 사내 코딩 보조의 total-cost-of-ownership 곡선을 다시 그리게 한다.

코히어의 트윗 세 개는 짧지만 함의는 크다. 6월 9일 1차 공개 시점에는 코히어 자체 API, Model Vault, Hugging Face 위주였다. 이번 업데이트는 로컬 추론(Ollama) 과 서드파티 무료 게이트웨이(OpenRouter) — 즉 현실에서 실제로 평가 사이클을 돌리는 두 핵심 채널을 열었다는 점에서 단순 "분배 채널 추가" 이상이다.

이미지: OpenRouter에 등록된 코히어 노스 미니 코드 무료 엔드포인트, 출처: North Mini Code (free) — OpenRouter

무엇이 일어났나

@cohere은 "세 가지 업데이트로 노스 미니 코드를 더 접근 가능하게 만들었다"고 운을 떼고, 후속 두 트윗에서 (a) Ollama 등록 — "이제 로컬에서 돌리고 codex, OpenClaw와 함께 쓰라", (b) OpenRouter 무료 사용 + 가중치 자유 수정을 안내했다. Ollama 라이브러리 페이지(north-mini-code-1.0)는 이미 4,027회 다운로드를 기록 중이고, ollama launch claude --model north-mini-code-1.0처럼 Claude Code·Codex App·OpenCode·Hermes Agent·OpenClaw 등 6개 코딩 에이전트를 한 줄 명령으로 노스 미니 코드 백엔드 위에 띄울 수 있는 런처 통합까지 제공한다.

OpenRouter 쪽은 cohere/north-mini-code:free로 단일 프로바이더(코히어 자체) 직접 포워딩 구조다. 입력 0 USD / 출력 0 USD, latency p50 0.49s, throughput 151 tok/s(best), 평균 134 tok/s, tool-call error rate 3.15%로 측정된다. 가중치는 Hugging Face의 w4a16 빌드와 풀 체크포인트로 받을 수 있다.

숫자로 보기

아키텍처: 30B total / 3B active, 128 experts · top-8 활성 · SwiGLU · 라우터 sigmoid+top-k
어텐션: 슬라이딩 윈도우(RoPE) : 글로벌(no positional) = 3:1 인터리브
컨텍스트: 입력 256K / 출력 64K (Ollama 빌드는 488K 명시)
실측 처리량: Cohere API 199~208 tok/s, OpenRouter 평균 134 tok/s
Devstral Small 2 대비: 출력 토큰 처리량 최대 2.8배, 인터-토큰 지연 30% 우위
벤치마크: AA Coding Index 33.4 / SWE-Bench Verified pass@10 80.2% / Terminal-Bench v2 55.1% / τ²-Bench Telecom 37.4%(약점) / GDPval-AA 14%(약점)

왜 중요한가

현업 관점에서 핵심은 세 가지다.

(1) 평가-도입 사이클의 마찰 제거. GPU 없이 OpenRouter 무료 티어에서 토큰 한도 안에서 곧장 swe-bench 스타일 태스크를 돌려보고, 가능성이 보이면 H100 한 장에서 vllm 또는 Ollama로 자가 호스팅으로 옮기는 경로가 단순하다. 같은 슬러그(cohere/north-mini-code:free)가 OpenAI 호환 SDK에서 그대로 작동한다.

(2) 에이전트 하니스 친화성. Cohere 블로그가 강조했듯, 이 모델은 단일 스캐폴드가 아니라 SWE-Agent, mini-SWE-Agent, OpenCode, Terminus 2 네 가지 하니스 전반에 걸쳐 post-train됐다. 즉 특정 프롬프트 템플릿에 과적합되지 않았다는 주장이고, 실제로 native tool-use + interleaved thinking을 지원해 JSON 스키마로 툴 정의를 넣을 수 있다. "생각 내용을 다음 턴으로 forwarding"하라는 가이드는 흔한 함정이니 시스템 설계 시 명시 보존하라.

(3) 비용 구조 재정의. Devstral Small 2 대비 2.8배 throughput·30% 지연 우위는 자가 호스팅 시 토큰당 비용을 의미 있게 누른다. 다만 Artificial Analysis가 지적한 "verbose 경향" — 같은 평가를 풀 때 출력 토큰을 더 많이 쓴다 — 은 누적 비용에서 일부 상쇄 요인이다. 토큰당 가격 우위가 작업당 가격 우위로 그대로 번역되지 않을 수 있으니 실제 워크로드 기준 미터링이 필요하다.

누가 이득, 누가 손해

이득: (a) 규제 산업의 사내 개발팀(은행·정부·헬스케어) — '주권 AI' 서사가 코딩 보조로 확장, (b) 오픈웨이트 파인튜닝 워크플로를 가진 팀 — Apache 2.0 + 검증 가능 보상 학습 가중치는 도메인 RL 추가 학습에 좋은 출발점, (c) GPU 인프라가 이미 있는 회사 — 단일 H100 요건은 클러스터 스케줄링 부담이 작다.

손해/압박: GitHub Copilot·Cursor·폐쇄형 API 기반 코딩 보조 서비스는 "우리 서비스가 왜 필요한가"를 다시 정당화해야 한다. 단, 비코딩 에이전트 일반 능력에선 갭이 있으므로 고객 대면·일반 추론 워크로드는 여전히 폐쇄형 강자에게 유리하다.

더 깊이

Hugging Face 기술 블로그에 따르면 학습은 2단계 SFT 후 [reinforcement-learning-from-verifiable-rewards]로 마감됐다. 1단계 SFT는 코드 70% / 에이전틱 툴 사용 데이터 43% / 단일 턴 경시·과학 프로그래밍 27%(중복 허용 분류) 혼합, 2단계는 고품질 에이전틱·추론 샘플 45억 토큰 추가, RLVR은 약 5,000개 실 저장소에서 추출한 7만+ 검증 가능 과제로 진행됐다. 단순히 코드 LM이 아니라 에이전트 trajectory 전체에 보상을 흘린 RL 모델이라는 점이 SWE-Bench 강세의 가장 그럴듯한 설명이다.

Artificial Analysis는 "긴 문맥 검색·지시 따르기 점수가 평이해 복잡한 다단 추론·대형 문서 분석에는 부적합하다" 고 분명히 못 박았다. AA-LCR 32.3%, IFBench 57.6%, GDPval-AA 14%가 그 근거다. 따라서 실무 패턴은 "코딩·터미널 태스크는 노스 미니 코드, 일반 추론·고객 대면은 더 강한 모델과 페어링" 의 라우팅 설계가 합리적이다.

아직 알 수 없는 것

Ollama/llama.cpp의 128-experts MoE 완전 지원 여부. 코히어는 Unsloth GGUF로 9GB부터 풀 BF16까지 가능하다고 했지만, Developers Digest는 "공식 지원이 아니라 우회"라는 평가를 했다. 양자화 손실과 라우팅 정확성은 실측이 필요하다.
OpenRouter 무료 티어의 지속성. 단일 프로바이더 포워딩 구조 특성상 정책 변경 가능성 존재. SLA가 필요한 워크로드라면 자가 호스팅이나 코히어 자체 API로 미리 이중화하라.
"OpenClaw"의 정체. OpenRouter Apps 페이지에는 "OpenClaw is an open-source AI agent that connects to your messaging apps"로 등재돼 1.63B 토큰을 이 모델에 보낸다. Ollama 런처 통합 대상이기도 하지만 공식 제품 페이지·문서는 부족하다.
후속 'North' 시리즈. 일반형 에이전트 모델로 확장될지 코히어는 공식적으로 밝히지 않았다.

5분 실습 (실무자용 · 5분)

OpenRouter 가입 후 키 발급 → 환경변수 OPENROUTER_API_KEY 설정.
본인 레포의 최근 PR diff를 프롬프트에 넣어 호출:

curl -N https://openrouter.ai/api/v1/chat/completions \
  -H "Authorization: Bearer $OPENROUTER_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"model":"cohere/north-mini-code:free","stream":true,
       "messages":[{"role":"user","content":"Review this diff and suggest 3 testability improvements:\n<diff>"}]}'

같은 입력을 ollama pull north-mini-code-1.0 후 로컬에서도 실행, 출력 토큰 수·지연·제안 품질 비교.
OpenCode 또는 SWE-Agent에 base_url을 OpenRouter로 지정해 한 라운드 SWE-Bench 인스턴스를 풀어보고 pass@10 체감 확인.

더 읽어보기

Cohere 공식 블로그 — North Mini Code · 2026 · 주권 AI 포지셔닝
Hugging Face — Introducing North Mini Code · 2026 · SFT/RLVR 학습 레시피
Ollama 라이브러리 north-mini-code-1.0 · 양자화 빌드와 런처 통합
OpenRouter — North Mini Code (free) · 처리량·툴 호출 에러율
Artificial Analysis 분석 · 벤치마크와 약점
MarkTechPost · 모델 첫 소개 분석
The New Stack · 닉 프로스트 인터뷰
Hugging Face — w4a16 weights · 양자화 체크포인트