중국 AI 회사 DeepSeek이 4월 25일 차세대 모델 V4 Preview를 공개하고 가중치까지 함께 풀었다. 1조 6천억 매개변수의 V4-Pro와 2840억 매개변수의 V4-Flash 두 가지 버전이며, 한 번에 100만 토큰(책 한 권 분량) 분량의 글을 다룰 수 있고 답을 깊이 따져서 내놓는 thinking-mode|사고 모드를 켜고 끌 수 있다. Hugging Face는 DeepSeek의 상징인 고래 이모지(🐳)와 함께 "돌아왔다"는 단 한 줄 트윗으로 환영했다.

이미지: V4 발표 자료, 출처: @deepseek_ai on X
무엇이 일어났나
@deepseek_ai 공식 계정 발표에 따르면 V4-Pro는 1.6T 총 매개변수에 49B 활성 매개변수를, V4-Flash는 284B 총에 13B 활성을 갖는다. "총"과 "활성"이 따로 나오는 이유는 V4가 mixture-of-experts|전문가 혼합 구조이기 때문이다. 입력에 따라 거대한 모델 안에서 일부 전문가만 깨워 답을 만들기에, 실제 계산 비용은 활성 매개변수만큼만 들고 보관할 가중치는 1.6T만큼 많다.
API 사용자는 base_url을 그대로 두고 모델 이름만 deepseek-v4-pro 또는 deepseek-v4-flash로 바꾸면 된다. OpenAI ChatCompletions와 Anthropic API 양쪽 형식을 모두 지원한다. 다만 기존 deepseek-chat과 deepseek-reasoner는 2026년 7월 24일 15:59 UTC에 완전히 폐지되고, 그 전에는 v4-flash로 자동 라우팅된다.
같은 날 DeepSeek은 별도 글에서 공식 채널 외의 메시지는 자사 입장이 아니라고 못 박았다. 발표 직후 사칭 계정과 가짜 정보가 돌고 있다는 신호다.
왜 중요한가
세 가지가 한꺼번에 움직였다. 첫째, open-weights|공개 가중치다. 누구든 모델을 내려받아 직접 돌릴 수 있다 — 단, V4-Pro는 가중치만 1TB가 넘으니 평범한 노트북으론 불가능하고 사실상 회사·연구실 인프라용이다. 둘째, 100만 토큰 컨텍스트다. 책 한 권 분량의 자료를 한 번에 던질 수 있어서 긴 코드베이스를 통째로 읽혀 리팩토링을 시키거나, 수백 페이지 PDF를 묻고 답할 수 있다. 셋째, 사고 모드다. 단순 질문에는 빠르게 답하고, 어려운 문제에는 내부 추론을 길게 풀게 토글할 수 있다.
와튼스쿨의 Ethan Mollick(@emollick)은 V4-Pro로 tikz-sparks|TikZ Sparks 유니콘 그리기 — 모델에게 텍스트로만 유니콘 그림 코드를 짜게 시키는 비공식 평가 — 를 돌려보고 결과를 공개했다. 같은 테스트의 Kimi K2.6 결과와 격차가 컸고, 본인도 왜 이렇게 차이가 나는지 모르겠다고 적었다.
더 깊이
DeepSeek API 문서에 따르면 사고 모드는 단순한 on/off가 아니다. reasoning_effort 매개변수로 high 또는 max 수준을 정할 수 있고, Claude Code나 OpenCode 같은 복잡한 에이전트 요청은 자동으로 max로 설정된다. low와 medium은 호환을 위해 high로 매핑된다.
미묘한 점이 하나 더 있다. 사고 모드에서 모델은 답(content) 외에 사고 과정(reasoning_content)을 따로 반환하는데, 도구 호출이 없는 일반 대화에서는 다음 턴에 사고 내용을 다시 넘기지 않아도 되지만, 도구를 호출한 턴의 사고 내용은 반드시 다음 요청에 함께 보내야 한다. 안 보내면 API가 400 에러를 던진다. 이 작은 규칙을 놓치면 에이전트가 갑자기 멈춘다.
아직 알 수 없는 것
Mollick 본인이 오픈 모델은 좋은 벤치마크 점수가 늘 의미 있는 건 아니라며 결과를 신중하게 받았다. Kimi K2.6과의 격차가 V4의 진짜 능력 차이인지, 프롬프팅이나 시드의 차이인지 분리할 정보는 아직 없다. 정식 V4 모델의 가격, 기술 보고서의 학습 데이터 구성도 미공개다.
5분 실습
- https://chat.deepseek.com 에 접속해 로그인한다.
- Instant Mode(V4-Flash, 사고 모드 끔) 상태에서 평소 쓰던 코드 30~50줄을 붙여 넣고 "이 코드를 더 빠르게 만들어 줘"라고 요청한다. 답을 메모.
- 같은 프롬프트를 Expert Mode(V4-Pro, 사고 모드 켬)에 다시 입력해 답과 풀이 과정을 비교한다.
- 답이 얼마나 정확해졌는지, 시간은 얼마나 더 걸렸는지 직접 체감한다.