중국 AI 회사 DeepSeek이 4월 25일 차세대 모델 V4 Preview를 공개하고 가중치까지 함께 풀었다. 1조 6천억 매개변수의 V4-Pro와 2840억 매개변수의 V4-Flash 두 가지 버전이며, 한 번에 100만 토큰(책 한 권 분량) 분량의 글을 다룰 수 있고 답을 깊이 따져서 내놓는 thinking-mode|사고 모드를 켜고 끌 수 있다. Hugging Face는 DeepSeek의 상징인 고래 이모지(🐳)와 함께 "돌아왔다"는 단 한 줄 트윗으로 환영했다.

V4 발표 자료

이미지: V4 발표 자료, 출처: @deepseek_ai on X

무엇이 일어났나

@deepseek_ai 공식 계정 발표에 따르면 V4-Pro는 1.6T 총 매개변수에 49B 활성 매개변수를, V4-Flash는 284B 총에 13B 활성을 갖는다. "총"과 "활성"이 따로 나오는 이유는 V4가 mixture-of-experts|전문가 혼합 구조이기 때문이다. 입력에 따라 거대한 모델 안에서 일부 전문가만 깨워 답을 만들기에, 실제 계산 비용은 활성 매개변수만큼만 들고 보관할 가중치는 1.6T만큼 많다.

API 사용자는 base_url을 그대로 두고 모델 이름만 deepseek-v4-pro 또는 deepseek-v4-flash로 바꾸면 된다. OpenAI ChatCompletions와 Anthropic API 양쪽 형식을 모두 지원한다. 다만 기존 deepseek-chat과 deepseek-reasoner는 2026년 7월 24일 15:59 UTC에 완전히 폐지되고, 그 전에는 v4-flash로 자동 라우팅된다.

같은 날 DeepSeek은 별도 글에서 공식 채널 외의 메시지는 자사 입장이 아니라고 못 박았다. 발표 직후 사칭 계정과 가짜 정보가 돌고 있다는 신호다.

왜 중요한가

세 가지가 한꺼번에 움직였다. 첫째, open-weights|공개 가중치다. 누구든 모델을 내려받아 직접 돌릴 수 있다 — 단, V4-Pro는 가중치만 1TB가 넘으니 평범한 노트북으론 불가능하고 사실상 회사·연구실 인프라용이다. 둘째, 100만 토큰 컨텍스트다. 책 한 권 분량의 자료를 한 번에 던질 수 있어서 긴 코드베이스를 통째로 읽혀 리팩토링을 시키거나, 수백 페이지 PDF를 묻고 답할 수 있다. 셋째, 사고 모드다. 단순 질문에는 빠르게 답하고, 어려운 문제에는 내부 추론을 길게 풀게 토글할 수 있다.

와튼스쿨의 Ethan Mollick(@emollick)은 V4-Pro로 tikz-sparks|TikZ Sparks 유니콘 그리기 — 모델에게 텍스트로만 유니콘 그림 코드를 짜게 시키는 비공식 평가 — 를 돌려보고 결과를 공개했다. 같은 테스트의 Kimi K2.6 결과와 격차가 컸고, 본인도 왜 이렇게 차이가 나는지 모르겠다고 적었다.

더 깊이

DeepSeek API 문서에 따르면 사고 모드는 단순한 on/off가 아니다. reasoning_effort 매개변수로 high 또는 max 수준을 정할 수 있고, Claude Code나 OpenCode 같은 복잡한 에이전트 요청은 자동으로 max로 설정된다. low와 medium은 호환을 위해 high로 매핑된다.

미묘한 점이 하나 더 있다. 사고 모드에서 모델은 답(content) 외에 사고 과정(reasoning_content)을 따로 반환하는데, 도구 호출이 없는 일반 대화에서는 다음 턴에 사고 내용을 다시 넘기지 않아도 되지만, 도구를 호출한 턴의 사고 내용은 반드시 다음 요청에 함께 보내야 한다. 안 보내면 API가 400 에러를 던진다. 이 작은 규칙을 놓치면 에이전트가 갑자기 멈춘다.

아직 알 수 없는 것

Mollick 본인이 오픈 모델은 좋은 벤치마크 점수가 늘 의미 있는 건 아니라며 결과를 신중하게 받았다. Kimi K2.6과의 격차가 V4의 진짜 능력 차이인지, 프롬프팅이나 시드의 차이인지 분리할 정보는 아직 없다. 정식 V4 모델의 가격, 기술 보고서의 학습 데이터 구성도 미공개다.

5분 실습

  1. https://chat.deepseek.com 에 접속해 로그인한다.
  2. Instant Mode(V4-Flash, 사고 모드 끔) 상태에서 평소 쓰던 코드 30~50줄을 붙여 넣고 "이 코드를 더 빠르게 만들어 줘"라고 요청한다. 답을 메모.
  3. 같은 프롬프트를 Expert Mode(V4-Pro, 사고 모드 켬)에 다시 입력해 답과 풀이 과정을 비교한다.
  4. 답이 얼마나 정확해졌는지, 시간은 얼마나 더 걸렸는지 직접 체감한다.

더 읽어보기