| Developed by | Community |
|---|---|
| Type | Concept |
| Aliases | reasoning model, 리즈닝 모델 |
| Related | 사고 사슬 (chain-of-thought), 프론티어 모델, GPT-Rosalind, Codex (OpenAI), 프롬프트 엔지니어링 |
무엇인가
추론 모델은 답을 즉시 내놓지 않고, 마치 사람이 어려운 문제를 풀 때처럼 머릿속으로 단계별로 따져 본 뒤에야 최종 답을 내놓는 [[frontier-model]]이다. 일반 챗봇이 즉답 시험이라면, 추론 모델은 시험지 여백에 풀이 과정을 길게 적은 다음 답을 적는 학생에 가깝다.
왜 다른가
기존 LLM은 '다음 단어가 뭘까'를 빠르게 예측하는 데 특화되어 있다. 그래서 단순 질문에는 강하지만, 다단계 수학·논리·코드 디버깅처럼 중간 단계에서 한 번이라도 실수하면 무너지는 문제에 약했다. 추론 모델은 이 약점을 inference-time compute, 즉 답하기 전에 더 오래 '생각'하는 시간을 들여 보강한다. 같은 모델 가중치라도 더 길게 생각시키면 정답률이 올라가는 현상이 관측되었기 때문이다.
어떻게 학습되나
회사들이 공개하는 방식은 조금씩 다르지만 큰 그림은 비슷하다. 먼저 [[chain-of-thought]] 형태의 풀이 과정을 모델에게 보여 주고 따라 쓰게 한다. 그다음 강화학습으로 '정답이 맞았는가'라는 신호만 주고, 모델이 스스로 더 효율적인 풀이 방식을 찾도록 한다. 이 과정에서 모델은 자기 검증, 다른 접근 시도, 실수 발견 후 수정 같은 행동을 학습한다.
어디에 쓰나
- 어려운 수학·과학 문제 풀이
- 복잡한 코드 작성·디버깅 (예: [[codex]])
- 도메인 특화 연구 보조 (예: [[gpt-rosalind]] 같은 생명과학 추론 모델)
- 여러 단계로 도구를 호출해야 하는 에이전트 작업
일상적인 챗 응답이나 짧은 요약에는 굳이 추론 모델을 쓸 필요가 없다. 더 느리고 더 비싸기 때문이다. 추론 모델은 '정답이 중요하고 시간을 더 써도 되는' 문제에 어울린다.
한계
긴 풀이를 만들수록 비용과 지연이 커진다. 또 모델이 길게 '생각'한다고 해서 그 풀이가 사람이 검증할 수 있는 진짜 추론인지는 또 다른 문제다. 풀이 과정은 그럴듯해 보이지만 결론은 틀린 경우도 흔하다. 그래서 추론 모델의 답도 결국 사람이 결과를 한 번 더 확인하는 워크플로우가 필요하다.
무엇인가
추론 모델은 사용자에게 답을 돌려주기 전에 내부적으로 긴 풀이(thinking)를 생성하도록 후학습된 LLM이다. 사용자는 최종 결과만 받지만, 과금과 지연은 이 hidden CoT 토큰까지 포함해서 계산된다.
대표 모델
- OpenAI: o1, o3 계열, [[gpt-rosalind]] (생명과학 특화)
- Anthropic: Claude의 extended thinking 모드
- Google: Gemini 2.5 Thinking 계열
- DeepSeek: R1 (가중치 공개, GRPO 기반)
API 사용 패턴
대부분의 제공자가 reasoning_effort 또는 thinking budget 같은 파라미터를 노출한다. low/medium/high 식으로 생각 깊이를 고를 수 있고, 높일수록 정확도와 비용이 같이 오른다. 일부 API는 thinking 토큰을 계정에 노출해 디버깅에 쓰게 해 주지만, 이를 그대로 fine-tune 데이터로 쓰는 것은 약관에서 막혀 있는 경우가 많다.
[[prompt-engineering]] 측면에서 한 가지 주의점이 있다. 프롬프트는 짧게, 작업 정의를 명확히 한 뒤 모델이 알아서 길게 생각하게 두는 편이 잘 작동한다. 일반 LLM에서 흔히 쓰던 '단계별로 생각해 봐' 같은 지시는 추론 모델에서는 종종 역효과를 낸다. 모델이 이미 내부적으로 그 일을 하기 때문이다.
언제 쓸까
체크리스트로 판단:
- 한 번 틀리면 사람이 다시 검증해야 할 만큼 중요한 결과인가
- 다단계 추론·계산·코드 합성이 필요한가
- 응답 지연 수 초~수 분을 사용자가 받아들일 수 있는가
셋 모두 yes면 추론 모델 후보. 그렇지 않으면 일반 LLM이 비용·UX 모두 유리하다.
운영 주의점
- 비용: thinking 토큰이 출력의 5-20배로 쌓이는 일이 흔하다. 사용량 알람을 모델별로 따로 걸어라.
- 캐싱: 시스템 프롬프트는 캐시되지만 thinking 부분은 보통 캐시 대상이 아니다.
- 평가: 단일 정답 벤치마크 한 번이 아니라, 여러 시드로 pass@k를 봐야 모델의 실력이 정확히 보인다.
- 안전: 길게 생각하는 만큼 jailbreak 시도가 풀이 안에서 누적될 수 있다. system 메시지 강화와 출력 모니터링이 필수다.
에이전트와의 결합
[[codex]] 같은 코딩 에이전트, [[mcp-protocol]] 기반 도구 호출, RAG 파이프라인은 추론 모델과 자연스럽게 짝을 이룬다. 도구 호출 사이의 '다음에 뭘 할지' 결정 자체가 추론을 요구하기 때문이다. 단, 도구 호출이 잦은 워크플로우에서는 매 스텝마다 thinking이 누적되므로 비용 곡선을 미리 시뮬레이션해 두는 것이 좋다.
정의
추론 모델은 inference-time compute를 정답률 향상에 적극 사용하도록 후학습된 LLM 계열이다. 핵심 학습 신호는 RLVR(Reinforcement Learning with Verifiable Rewards)로, 정답을 자동 채점할 수 있는 도메인—수학, 코드, 형식 검증 가능한 과학 문제—에서 reward가 주어진다.
학습 파이프라인
대표적인 단계는 다음과 같다.
1단계 — base + long-CoT SFT
사전학습된 base LLM에 long [[chain-of-thought]] 시연 데이터로 SFT. 이 단계에서 모델은 step-by-step 형식, 중간 검증, backtracking 같은 행동의 토큰 분포를 익힌다.
2단계 — RLVR
검증 가능한 문제(AIME, Codeforces, GPQA 등)에 대해 정답 여부만으로 reward를 주는 RL. PPO나 GRPO 같은 알고리즘이 쓰인다. KL penalty로 base policy에서 너무 멀어지지 않게 하고, length penalty로 hidden CoT가 무한히 길어지는 것을 막는다.
3단계 — 일반화
검증 가능한 도메인에서 학습한 reasoning이 다른 도메인으로 전이되는 것이 관측된다. 이는 단순한 task-specific tuning이 아니라 일반 reasoning capability가 강화된다는 가설을 뒷받침한다.
실험적 관찰
- inference-time scaling: 같은 가중치로 test-time에 더 많은 토큰을 쓸수록 정답률이 거의 로그-선형으로 상승. (OpenAI o1 시스템 카드, DeepSeek-R1 테크 리포트)
- emergent self-correction: RL이 진행될수록 모델이 스스로 'wait, that's wrong' 류의 표현을 늘리며 풀이를 수정하는 행동이 자연 발생한다.
- 도메인 전이: 수학+코드만으로 RL해도 일반 추론 벤치(예: GPQA)에서 점수 상승이 보고된다.
수학적 직관
inference-time compute의 효율은 거칠게 다음 형태로 모델링된다. 단일 샘플 정답 확률이 p일 때, k개 후보를 뽑아 self-verifier로 best-of-k를 고르면 유효 정답 확률은 대략 1-(1-p)^k에 수렴한다. RLVR로 학습된 추론 모델은 이 self-verifier를 같은 가중치 안에 내장하므로, 외부 verifier 없이도 비슷한 효과를 본다. 즉 parameter scaling 대신 sequential test-time sampling으로 정확도를 사는 trade-off다.
주요 모델·논문 흐름
- OpenAI o1 (2024-09)
- DeepSeek-R1 (2025-01, 가중치 공개, GRPO)
- Anthropic Claude extended thinking
- Qwen QwQ, Sky-T1 등 오픈 모델 시도
한계와 열린 문제
- faithfulness: hidden CoT가 실제 결정 인과를 반영하는가. 실험적으로 부분만 그렇다는 결과가 누적되고 있다.
- 안전성: 길게 생각할수록 [[biorisk]] 같은 위험 도메인에서 의도하지 않은 능력이 드러날 수 있다. 위험 평가는 thinking 토큰 전체를 보고 진행해야 한다.
- 평가 누수: 검증 가능 도메인에 과적합되면, [[bixbench]]나 [[labbench2]] 같은 벤치에서 진짜 새로운 추론을 측정하는지 의문이 남는다.
- 비용 효율성: 같은 정확도를 더 작은 모델 + 더 많은 토큰으로 달성하는 것이 단순히 매개변수를 키우는 것보다 유리하다는 chinchilla-식 trade-off가 새 형태로 등장하고 있다.
인접 개념과의 관계
[[chain-of-thought]] 프롬프팅이 manual eliciting이라면, 추론 모델은 그 능력을 가중치에 영구화한 형태다. agentic [[langchain]] 워크플로우와 결합하면 도구 호출 결정에서도 추론 시간을 쓸 수 있다. 즉 추론 모델은 단일 모델 능력 향상이 아니라, '에이전트 시스템의 정책 함수가 점점 비싸고 정확해지는' 흐름의 일부로 봐야 한다.