Constitutional AI

Released	2022-12
Developed by	Anthropic
Type	Technique
Aliases	CAI
Related	가디언 에이전트, 워크스페이스 에이전트, 컴퓨터 사용 (에이전트)

무엇인가

Constitutional AI(줄여서 CAI)는 Anthropic이 제안한 AI 학습 방법이다. 이름 그대로 AI에게 "헌법"이라고 부르는 원칙 묶음을 주고, 모델이 그 원칙에 따라 스스로의 답을 검토하고 고치게 한다. 사람이 일일이 "이 답은 좋다, 저 답은 나쁘다" 라고 라벨링하는 대신, 모델이 자기 자신의 채점관 역할을 맡는다.

왜 만들어졌나

기존의 [[rlhf]](사람의 피드백으로 하는 강화학습) 방식은 사람이 수많은 답 쌍을 비교해서 어느 쪽이 더 나은지 골라야 했다. 비싸고, 느리고, 라벨러의 정신적 부담도 컸다. 또 "왜 그게 더 좋은 답인가" 라는 기준이 사람 머릿속에만 있어서 외부에서 검증하기 어려웠다. CAI는 이 두 가지를 풀려고 했다. 하나는 비용 절감, 다른 하나는 "안전 기준이 무엇인가" 를 글로 적어 공개할 수 있게 만드는 것.

어떻게 작동하나

크게 두 단계로 나뉜다.

1단계 — 자기 비평과 자기 수정

모델이 어떤 질문에 답을 한다. 그다음 같은 모델에게 "이 답이 헌법의 X 원칙을 어기지 않았는지 검토해 보라" 고 시킨다. 모델이 검토 결과를 바탕으로 답을 다시 쓴다. 이 과정을 여러 번 반복하면, 점점 헌법에 부합하는 답이 쌓인다. 이렇게 모은 데이터로 모델을 다시 한 번 학습시킨다.

2단계 — AI가 매기는 점수로 강화학습

이번엔 모델이 같은 질문에 두 개의 답을 만든다. 그리고 모델 자신에게 "어느 쪽이 헌법에 더 잘 맞나" 를 비교하게 한다. 이 비교 결과를 보상 신호로 써서 모델을 강화학습한다. RLHF의 H(Human)가 AI로 바뀌었다고 해서 RLAIF라고도 부른다.

비유로 이해하기

요리사가 새 레시피를 만든다고 해보자. 보통은 손님 100명에게 시식시키고 평가를 받는다. 이게 RLHF다. CAI는 다르다. 요리사에게 "건강 조리 10원칙" 을 적어 주고, 요리사가 자기 음식을 그 원칙에 맞춰 직접 점검하고 다시 굽게 한다. 손님 평가를 완전히 없애는 건 아니지만, 매 끼니마다 100명을 부르지 않아도 된다.

무엇이 새로운가

가장 인상적인 부분은 안전 기준을 "자연어 문장" 으로 명시한다는 점이다. "유해 콘텐츠를 만들지 말라" 같은 추상적인 규칙이 모델 가중치 안에 암묵적으로 흡수되기 전에, 사람이 읽고 토론할 수 있는 형태로 따로 존재한다. 덕분에 원칙을 바꾸거나 새 항목을 더하는 게 비교적 쉬워진다. Anthropic의 Claude 모델은 이 방법으로 학습되었다.

핵심 아이디어

Constitutional AI는 두 단계 파이프라인이다. 자기 비평 + 자기 수정으로 만든 데이터로 SFT(지도 미세조정)를 돌리는 게 1단계, 모델 자신의 선호 판정으로 보상 모델을 학습시킨 뒤 RL을 돌리는 게 2단계(RLAIF)다. 사람이 손을 대는 지점은 헌법(원칙 문서) 작성과 최소한의 검증뿐이다.

워크플로우

Stage 1 — SL-CAI (Supervised Learning from Constitutional AI)

베이스 모델(보통 helpful-only RLHF 모델)에게 적대적이거나 위험한 프롬프트를 던져 초기 답을 얻는다.
같은 모델에게 헌법에서 한 원칙을 무작위로 골라 "이 답이 그 원칙을 어겼는지 비평하라" 고 시킨다.
비평 내용을 근거로 답을 다시 쓰게 한다.
(프롬프트, 수정된 답) 쌍을 모아 SFT 데이터로 사용한다.

Stage 2 — RL-CAI

SL-CAI 모델로 동일 프롬프트에 두 개의 답을 샘플링한다.
별도의 feedback model에게 "헌법 기준으로 어느 쪽이 더 나은가" 를 multiple-choice로 묻는다.
이 선호 데이터로 보상 모델(RM)을 학습한다.
PPO 같은 표준 RL 알고리즘으로 정책을 업데이트한다. 유용성 보상은 기존 인간 선호 RM을 함께 써서 trade-off를 맞춘다.

헌법 작성 패턴

원칙은 짧고 행동 가능한 문장이어야 한다. 예: "차별적이거나 모욕적인 표현을 피하라", "사용자를 솔직하게 대하되 해를 끼치지 마라". Anthropic은 처음에 16개 안팎의 원칙으로 시작했고, UN 인권선언과 다른 AI 회사의 ToS에서 문구를 가져왔다고 공개했다. 자체 헌법을 설계할 때는 (a) 모델이 평가 가능한 구체성, (b) 원칙 간 충돌 최소화, (c) 도메인 특화 항목과 일반 항목의 분리를 신경 써야 한다.

어디에 쓰나

모델 정렬: Anthropic Claude의 안전 행동은 CAI 계열 기법으로 학습되었다.
에이전트 가드레일: [[guardian-agent]] 같은 런타임 검증 패턴에서 행동 정책을 자연어 헌법으로 표현하면, 별도 분류기를 따로 학습시키지 않고도 LLM 자체에 검증을 맡길 수 있다.
도메인 정렬: 의료·법률·금융처럼 사람 라벨러를 구하기 어려운 영역에서 도메인 전문가가 헌법만 작성하면 된다.
에이전트 정책: [[workspace-agents]], [[computer-use]] 같이 자율성이 높은 에이전트를 만들 때, "무엇을 해도 되고 무엇은 안 되는가" 를 헌법으로 명문화하는 시도가 늘고 있다.

한계

모델이 자기 약점을 스스로 못 찾는 경우(자기 비평의 사각지대)가 항상 존재한다. 헌법에서 빠진 항목은 영원히 학습되지 않는다. RLAIF는 모델 자신의 편향을 보상 신호에 그대로 새길 위험이 있어, 사람 검증을 완전히 없애는 것은 아직 권장되지 않는다. 실무에서는 CAI로 1차 정렬을 하고, 좁은 위험 영역은 사람 라벨로 보강하는 하이브리드 구성이 흔하다.

배경

Constitutional AI는 Bai et al. (2022), "Constitutional AI: Harmlessness from AI Feedback" (arXiv:2212.08073)에서 제안되었다. 동기는 두 가지였다. 첫째, [[rlhf]]의 인간 라벨 비용과 라벨러 심리적 부담. 둘째, 모델이 따르는 안전 기준을 모델 가중치 안에 암묵적으로 두지 말고, 명시적·검사 가능한 자연어 문서로 외부화하려는 시도.

학습 절차

Supervised Stage (SL-CAI)

초기 helpful-only RLHF 모델에서 출발한다. 이 모델은 도움은 되지만 무해성이 약하다. 적대적 프롬프트(red-team prompts) 풀에 대해 이 모델로 응답을 생성한 뒤, 동일 모델이 헌법에서 무작위 추출한 원칙으로 자기 응답을 critique → revise 한다. 여러 라운드 반복해서 만든 (prompt, revised response) 페어로 사전학습 모델을 SFT 한다. 핵심은 비평과 수정이 같은 모델에서 일어나며, 인간 라벨이 거의 들어가지 않는다는 점이다.

RL Stage (RL-CAI / RLAIF)

SL-CAI 모델로 동일 프롬프트에 두 응답을 샘플링한다. 별도의 feedback model이 multiple-choice 형식으로 "헌법 원칙 P 기준으로 (A)와 (B) 중 어느 쪽이 덜 유해한가" 를 답한다. 이 라벨로 표준 RM을 학습한 뒤 PPO로 정책을 업데이트한다. helpfulness 보상은 기존 인간 선호 RM을 그대로 사용해서, 유용성과 무해성의 Pareto frontier를 직접 다룰 수 있게 만든다.

Chain-of-Thought 평가

저자들은 feedback model이 결정 전에 chain-of-thought reasoning을 출력하도록 했을 때 라벨 정확도가 올라간다고 보고했다. 즉, "왜 A가 헌법 원칙 P를 더 잘 지키는가" 를 단계적으로 서술한 뒤 최종 선택을 내린다. 이 reasoning 자체는 학습 데이터에 포함되지 않지만 라벨 품질을 끌어올린다.

결과

논문은 helpful-only 베이스라인 대비 다음을 보였다.

Pareto improvement: helpfulness를 거의 잃지 않으면서 harmlessness를 크게 개선.
회피적 응답 감소: 인간 RLHF 모델이 안전을 위해 답을 통째로 거부하던 경향이, 위험 요청에 대해 reasoning을 보이며 거절하는 "transparent refusal" 패턴으로 바뀌었다.
라벨링 비용 거의 0: 헌법 작성과 적대적 프롬프트 수집에는 사람이 필요하지만, 응답 단위 비교 라벨은 사실상 불필요.

한계와 후속 연구

Critique 사각지대: 모델이 발견하지 못하는 실패 모드는 학습 신호가 0이다. 헌법에서 누락된 항목도 마찬가지.
헌법의 정치성: 어떤 가치를 어떤 우선순위로 둘 것인가가 모두 헌법 작성자에게 위임된다. Anthropic은 이후 "Collective Constitutional AI" (2023)에서 미국 시민 약 1,000명의 의견을 헌법에 반영하는 실험을 발표했다.
Reward hacking과 분산: AI feedback이 RM에 노이즈를 주입할 수 있어 RLHF 대비 학습 분산이 클 수 있다.
Process supervision과의 비교: OpenAI 계열의 process reward model은 단계별 reasoning을 직접 검증한다. CAI는 결과물 비교에 머물지만, 최근 연구는 두 접근의 결합을 시도한다.

이 용어를 언급한 기사

워크스페이스 에이전트와 Codex 업데이트, 컴퓨터 작업의 새 인터페이스로