| Developed by | Allen AI · DeepSeek 등 다수 |
|---|---|
| Type | Technique |
| Aliases | RLVR, Reinforcement Learning from Verifiable Rewards |
| Related | 에이전틱 AI, AI 에이전트, 전문가 혼합 (Mixture-of-Experts) |
무엇인가
검증 가능한 보상 기반 강화학습(RLVR, Reinforcement Learning from Verifiable Rewards)은 AI에게 답이 분명히 옳고 그른 문제를 풀게 한 뒤, 그 결과를 자동으로 채점해 학습시키는 방법이다. 사람이 일일이 "이 답이 좋다, 저 답이 별로다"라고 판단하는 대신, 컴퓨터가 즉시 정답 여부를 가려준다.
왜 중요한가
기존의 사람 피드백 기반 학습 방식(RLHF)은 사람이 모델의 답을 비교하고 점수를 매겨야 했다. 이 작업은 비싸고 느리며, 평가자에 따라 기준도 흔들린다. 반면 수학 문제나 프로그래밍 과제처럼 답이 명확한 영역에서는 컴퓨터가 곧장 채점할 수 있다. 예를 들어 다음과 같다.
- 수학 문제: 모델이 내놓은 숫자가 정답과 같은가?
- 코딩 문제: 모델이 작성한 코드가 단위테스트를 모두 통과하는가?
- 논리 퍼즐: 결과가 규칙을 어기지 않는가?
이런 자동 채점 신호는 깨끗하고 일관되며, 사실상 무한히 반복할 수 있다. 그래서 모델은 사람의 손을 빌리지 않고도 수많은 문제를 풀어보며 스스로 실력을 키운다.
어떻게 작동하는가
대략 다음 단계로 굴러간다.
- 모델이 한 문제에 대해 여러 후보 답을 내놓는다.
- 검증기(예: 컴파일러, 단위테스트, 수식 평가기)가 각 답이 맞는지 확인한다.
- 맞은 답은 "잘했어"라는 신호를, 틀린 답은 "다시 해"라는 신호를 받는다.
- 모델은 이 신호를 바탕으로 다음에 더 잘 맞히도록 내부 가중치를 조금씩 조정한다.
이 과정을 수백만 번 반복하면 모델은 점차 어려운 문제도 풀 수 있게 된다. DeepSeek-R1이나 OpenAI의 추론 모델 계열이 이런 식으로 "길게 생각하면서" 답을 도출하는 능력을 학습한 대표적 사례다. 최근 화제가 된 [[gpt-5-5]] 같은 추론·에이전트 모델들도 이 학습 방식의 흐름 위에 서 있다.
한계는 무엇인가
자동 채점이 가능한 영역은 한정적이다. "이 시가 아름다운가", "이 답이 친절한가" 같은 주관적 질문은 검증기가 판단하기 어렵다. 또한 모델이 검증기의 허점을 파고들어 진짜 풀이가 아닌 편법으로 정답만 맞히는 reward hacking 문제도 자주 보고된다. 그래서 RLVR은 RLHF나 다른 학습 방식과 함께 쓰이는 경우가 많다.
개요
RLVR은 outcome-based reward를 자동 검증기에서 받아 정책 모델을 갱신하는 RL 학습 레짐이다. RLHF가 사람이 라벨링한 선호 데이터로 학습된 reward model에 의존했다면, RLVR은 단위테스트, 수식 평가기, 컴파일러, 정형 증명기 등 결정론적 verifier를 보상 함수로 직접 사용한다.
핵심 구성 요소
- 검증기(verifier): 정답 비교, 테스트 러너, 컴파일 성공 여부, 수식 등가성 확인기 등. 보상은 보통 0/1 또는 부분 점수로 떨어진다.
- 정책 모델(policy): 학습 대상 LLM. 한 프롬프트에 대해 여러 응답을 샘플링한다.
- 알고리즘: PPO가 전통적이지만, 최근에는 critic 없이 그룹 내 상대 점수로 advantage를 잡는 GRPO(Group Relative Policy Optimization)가 DeepSeek-R1에서 부각되며 널리 채택됐다.
대표적 사용 사례
- DeepSeek-R1: 수학·코딩 도메인에서 RLVR로 long chain-of-thought reasoning을 학습. SFT 콜드 스타트 없이 RL만으로 reasoning이 emergent하게 자라는 R1-Zero 변형도 공개됐다.
- Qwen 추론 시리즈: 수학·코드 검증기를 reward로 사용하는 RL 단계를 표준 파이프라인에 포함.
- OpenAI o1/o3, GPT-5 reasoning 계열: 공식 디테일은 비공개지만 자동 검증 가능한 도메인에서 outcome reward로 추론 깊이를 늘렸다는 분석이 다수다.
이런 방식은 특히 코드 생성, 수학 풀이, 정형 추론에서 강력하며, 최근 [[agentic-ai]] 시스템의 의사결정 품질을 끌어올리는 핵심 동력으로 자리잡았다. [[claude-code]], [[codex]] 같은 코딩 에이전트 도구가 "테스트가 통과할 때까지 고친다"는 루프로 동작할 수 있는 배경에는 이런 검증 가능 보상 학습으로 길러진 reasoning이 깔려 있다.
실무에서 적용할 때
자체 도메인에 RLVR을 도입하려면 다음을 고려해야 한다.
- 검증기 신뢰성: 테스트가 너무 약하면 모델이 통과만 하는 잘못된 답을 학습한다. flaky test, edge case 누락은 곧바로 reward hacking으로 이어진다.
- 샘플 다양성: 한 프롬프트당 G개 응답을 샘플링하는 GRPO에서는 G가 너무 작으면 advantage가 죽고, 너무 크면 비용이 치솟는다. 8~64 범위가 흔히 쓰인다.
- 롤아웃 인프라: 긴 reasoning 응답을 대량 생성해야 하므로 vLLM, SGLang 같은 추론 서버와 비동기 rollout 파이프라인이 사실상 필수다.
- 콜드 스타트: 작은 모델은 RLVR만으로 진전이 없을 수 있다. 통상 SFT로 reasoning 스타일을 먼저 주입한 뒤 RL을 얹는다.
오픈 구현체로는 verl, OpenRLHF, TRL의 GRPO 트레이너 등이 활발히 쓰인다.
정의와 배경
검증 가능한 보상 기반 강화학습(RLVR)은 모델 출력의 정답성 또는 행위 결과를 결정론적 검증기로 자동 평가해 outcome-based reward로 환원한 뒤, 이를 신호로 정책 모델을 갱신하는 강화학습 레짐이다. RLHF가 인간이 매긴 선호로부터 학습된 reward model에 의존하는 반면, RLVR은 reward를 외부 함수 r(x, y) → {0, 1} 또는 부분 점수 형태로 직접 정의한다. 검증기는 통상 코드 단위테스트, 정수·기호 답안 비교, 수식 등가성, SAT/SMT 솔버, 정형 증명기, 환경 시뮬레이터 결과 등으로 구성된다. 용어 자체는 Allen AI의 Tülu 3 보고서에서 명시적으로 정착됐고, DeepSeek-R1을 거치며 reasoning model 학습의 표준 어휘로 자리잡았다.
알고리즘적 기전
대표적 학습 알고리즘은 PPO와 그 파생인 GRPO이다. GRPO는 동일 프롬프트 x에 대해 G개의 응답 {y_i}를 샘플링한 뒤, 그룹 내 보상 평균과 표준편차로 normalize한 advantage A_i = (r_i − mean(r)) / std(r)를 계산해 critic 없이 정책을 갱신한다. 이는 value head 학습 비용을 없애고, 검증기 신호가 이산적·희소한 RLVR 환경에 자연스럽게 맞는 구조다. 손실은 PPO와 동일하게 clipped importance ratio 형태를 갖되, KL penalty를 reference 모델과의 거리로 비교적 강하게 걸어 모드 붕괴와 분포 표류를 막는다.
DeepSeek-R1-Zero 실험은 SFT 없이 base model에 직접 GRPO를 적용해도 reasoning trace 길이와 정확도가 동시에 emergent하게 증가함을 보였다. 이는 verifiable reward가 단지 정답을 외우게 하는 것이 아니라 self-reflection, backtracking, subgoal decomposition 같은 메타 추론 패턴을 길러낸다는 점을 시사한다.
한계와 열린 문제
- 검증기 가능 도메인의 협소성: RLVR은 정답이 결정 가능한 영역에서만 직접 적용된다. 창의적 글쓰기, 대화 품질, 사실성 등은 별도 reward model 또는 LLM-as-judge가 필요하며, 이 경우 RLVR의 핵심 장점인 신호 깨끗함이 약해진다.
- Reward hacking: 단위테스트가 부실하면 모델이 테스트 케이스를 hardcode하거나, 수치 답만 맞히고 풀이는 비논리적인 형태로 수렴한다. process supervision, executable trace 검증, 다중 검증기 앙상블 등이 보완책으로 연구되고 있다.
- 분포 일반화: 검증 가능한 학습 분포(수학·코딩)에서 길러진 reasoning 능력이 비검증 도메인으로 얼마나 전이되는가는 활발한 논쟁 주제다. 일부 결과는 강한 transfer를 보고하지만, 도메인 특수적 fragility — 일종의 [[jagged-frontier]] — 도 함께 보고된다.
- 샘플 효율과 비용: 긴 reasoning rollout × 큰 G × 수만 step 학습은 현실적으로 매우 비싸다. off-policy 재사용, replay buffer, prefix sharing, 비동기 actor-learner 분리 등 시스템 최적화가 핵심 연구 영역이다.
- 검증기 자체의 진실성: 검증기에도 버그·누락이 있다. 검증기를 학습에 함께 적응시키거나, 인간 검수와 결합하는 하이브리드 보상 설계가 시도된다.
인접 개념과의 관계
RLVR은 RLHF, DPO 같은 선호 기반 학습과 직교적으로 결합되며, [[mixture-of-experts]] 아키텍처와 함께 reasoning 모델의 표준 학습 스택을 형성하는 추세다. 또한 [[agentic-ai]]·[[ai-agent]] 학습에서 도구 사용 결과를 검증기로 환원해 reward로 쓰는 시도 — 예컨대 브라우저 작업 성공 여부, 파일 시스템 상태 변화, API 호출 결과의 사양 부합성 — 가 차세대 RLVR 확장으로 연구되고 있다.