| Released | 2022-01 |
|---|---|
| Developed by | Google Research (Wei et al.) |
| Type | Technique |
| Aliases | CoT, 사고 연쇄 |
| Related | 추론 모델, 프롬프트 엔지니어링, ChatGPT Images 2.0, Codex (OpenAI) |
무엇인가
복잡한 수학 문제를 풀 때 우리는 머릿속으로만 답을 떠올리지 않는다. 종이에 식을 적고 한 줄씩 짚어가며 결론에 도달한다. 사고 사슬은 AI에게 같은 일을 시키는 방법이다. 답만 내놓지 말고, 답에 어떻게 도달했는지 한 단계씩 풀어 쓰게 한다.
왜 필요한가
언어 모델은 빠르게 답하는 데는 능숙하지만 문제가 여러 단계로 얽힐수록 중간에 길을 잃기 쉽다. "사과 5개 중 2개를 동생에게 주고 다시 3개를 받으면 몇 개?" 같은 단순한 산수도, 그냥 답하라고 하면 틀리고 풀이 과정을 적어 보라고 하면 맞히는 경우가 많다. 단계를 적는 동안 모델 스스로 자기 추론을 점검하는 효과가 생기기 때문이다.
어떻게 시키는가
가장 단순한 사고 사슬은 프롬프트 한 줄로 만든다. 질문 끝에 "단계별로 생각해 보자(let's think step by step)" 같은 문구를 붙이면, 모델은 답 대신 추론 과정을 먼저 출력하기 시작한다. 더 정성껏 쓰려면 질문-풀이-답 형식의 예시 두세 개를 함께 보여 주면 된다.
요즘은 이 사고 과정이 모델에 통째로 내장되기도 한다. [[reasoning-model]]이라 불리는 새로운 종류의 AI는 사용자에게는 깔끔한 답만 보여주지만 내부적으로는 긴 사고 사슬을 펼친 뒤 답을 정리한다. [[chatgpt-images-2]] 같은 "생각하는" 이미지 모델도 비슷한 발상이다 — 그림을 그리기 전에 어떤 구도와 색을 쓸지 스스로 토의하고 출력한다.
일상의 비유
요리 레시피를 떠올려 보자. "맛있는 김치찌개 만들기"라는 한 줄짜리 지시보다 "1) 돼지고기를 볶는다 2) 김치를 넣고…" 같은 단계별 레시피가 실수가 적다. 사고 사슬은 AI에게 레시피를 적어 가며 요리하게 만드는 셈이다.
주의할 점
길게 풀어 쓴다고 항상 답이 정확해지는 건 아니다. 잘못된 전제로 시작하면 그 전제를 따라 그럴듯한 추론이 길게 이어져 오히려 틀린 답을 더 자신 있게 내놓을 수 있다. 또 같은 문제도 추론 과정을 보여 달라고 하면 응답이 길어져 속도와 비용이 늘어난다. 가벼운 질문에는 굳이 사고 사슬을 강제할 필요가 없다.
핵심 아이디어
사고 사슬은 모델에게 "중간 추론을 텍스트로 출력하라"고 요구해 다단계 추론 정확도를 끌어올리는 기법이다. [[prompt-engineering]]의 가장 효과 큰 기본기 중 하나이며, 도구 호출 시퀀스나 코드 생성처럼 단계 의존성이 강한 작업에서 특히 차이가 크다.
적용 방법
Zero-shot CoT
추가 예시 없이 프롬프트 끝에 "단계별로 생각해 보자" 같은 트리거 문장을 붙이는 가장 가벼운 방법이다. GPT-4 급 이상 모델에서는 산수·논리 문제 정확도를 의미 있게 올린다.
Few-shot CoT
질문-추론-답 쌍의 예시를 2~5개 프롬프트에 포함한다. 모델은 예시의 추론 구조를 모방해 같은 형식으로 답한다. 도메인이 좁고 형식 일관성이 중요한 경우(예: SQL 생성, 회계 계산) 효과가 크다.
Self-consistency
같은 질문에 대해 사고 사슬을 N번 샘플링하고 가장 자주 등장한 최종 답을 선택한다. 단일 패스보다 정확도가 높지만 토큰 비용이 N배.
Built-in reasoning
[[reasoning-model]] 계열(o1, Claude의 extended thinking 등)은 사고 사슬을 학습 단계에서 내재화한다. 사용자는 별도 트리거 없이 일반 프롬프트만 주면 모델이 내부적으로 길게 생각한 뒤 응축된 답을 돌려준다. API에서는 reasoning_effort 같은 파라미터로 사고 길이를 조절한다.
도구 사용과의 결합
에이전트가 [[codex]]처럼 도구를 연쇄 호출할 때 한 단계의 결과를 보고 다음 단계를 결정한다. 이때 모델이 "다음에 무엇을, 왜 호출하는가"를 짧게 말로 풀어 쓰게 하면 잘못된 도구 선택이 줄어든다. ReAct 패턴(Reason + Act)이 사고 사슬을 도구 호출과 인터리브하는 대표 사례다.
운영 시 주의사항
- 토큰·지연 비용: 사고 사슬은 응답 길이를 수배 늘린다. 사용자에게 보여줄 필요가 없으면 내부에서만 추론하고 최종 답만 노출하라.
- 프롬프트 노출: 일부 reasoning 모델은 내부 사고를 외부에 공개하지 않는다. 디버깅용으로 의존하지 말 것.
- 잘못된 자신감: 길고 일관된 추론이 정답을 보장하지는 않는다. 검증 단계(테스트 실행, 별도 모델 검토)를 함께 두라.
- 비용 대비 효과: 단순 분류·요약처럼 단일 추론으로 충분한 작업은 CoT를 강제하면 비용만 늘고 품질은 그대로다.
언제 쓰는가
산수, 다단계 논리, 코드 디버깅, 도구 시퀀싱, 다중 제약 만족 — 한 번에 답이 안 나오는 작업이라면 일단 시도하라. 단발성 분류나 가벼운 요약은 보통 이득이 작다.
정의와 기원
사고 사슬은 Wei et al. (2022) "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models"에서 명시적으로 제안됐다. 핵심 발견은 모델 규모가 충분히 클 때(논문에서는 PaLM 540B 기준), few-shot 프롬프트에 중간 추론 단계를 포함시키는 것만으로 GSM8K 같은 수학 추론 벤치마크의 정확도가 17.9%에서 56.9%로 도약한다는 점이었다. 이 효과는 작은 모델에서는 거의 나타나지 않아 emergent ability 논쟁의 대표 사례가 되기도 했다.
메커니즘 가설
텍스트를 통한 추가 계산
Transformer의 forward pass는 고정된 깊이로 한 토큰을 생성한다. 중간 추론을 텍스트로 출력하면 모델은 사실상 자기 출력을 다시 입력으로 받아 더 깊은 계산을 펼치는 효과를 낸다. Pfau et al. (2024)는 의미 없는 filler token만 더해도 일정 부분 성능이 오른다고 보고했고, 이는 "추론의 '내용'이 아니라 추가 계산 슬롯 자체가 기여한다"는 해석을 뒷받침한다.
분해 사전(prior)
CoT 예시는 문제를 부분 문제로 나누는 스키마를 제공한다. Madaan & Yazdanbakhsh (2022)는 추론 사슬에서 의미적 내용을 부분적으로 변형해도 효과가 크게 줄지 않음을 보였고, 이는 형식·구조가 핵심 신호임을 시사한다.
Self-consistency
Wang et al. (2022)는 동일 질문에 대해 다양한 추론 경로를 샘플링한 뒤 다수결로 답을 고르는 방식이 단일 greedy 디코딩보다 일관되게 우월함을 보였다. 이는 CoT가 단일 정답 분포가 아닌 정답 영역으로 수렴하는 다중 경로 분포를 유도한다는 견해와 부합한다.
변형과 확장
- Zero-shot CoT (Kojima et al., 2022): "Let's think step by step" 한 문장만 추가해도 InstructGPT 계열에서 의미 있는 향상 관찰.
- Tree-of-Thoughts (Yao et al., 2023): 선형 사슬 대신 분기·역추적 가능한 탐색 트리로 확장.
- ReAct (Yao et al., 2022): 추론과 도구 호출(action)을 인터리브해 외부 환경과의 상호작용에서 hallucination을 줄임.
- Process supervision (Lightman et al., 2023, "Let's Verify Step by Step"): 최종 답이 아니라 각 추론 단계에 대한 보상 모델을 학습해 단계별 오류를 직접 줄임.
학습 단계로의 내재화
2024년 후반부터 OpenAI o1, DeepSeek-R1, Anthropic의 extended thinking 등 [[reasoning-model]] 계열이 사고 사슬을 추론 시 프롬프트 트릭이 아니라 학습 목표에 직접 통합했다. 일반적으로 RL with verifiable rewards(수학·코딩처럼 정답 검증이 가능한 도메인) 또는 process reward model을 통해 긴 사고 사슬을 생성하도록 사후 학습한다. 결과적으로 사용자가 별도 트리거를 주지 않아도 모델이 내부적으로 수천~수만 토큰의 사고를 펼친 뒤 응답한다. [[chatgpt-images-2]]처럼 멀티모달 영역에서도 같은 패러다임이 확장되고 있다.
한계
- Faithfulness 문제: Turpin et al. (2023)는 모델이 출력하는 추론이 실제 결정에 사용된 내부 계산을 충실히 반영하지 않을 수 있음을 보였다. 그럴듯한 추론이 사후 합리화일 가능성이 있다.
- Inverse scaling: Lanham et al. (2023) 등은 일부 작업에서 CoT가 오히려 성능을 떨어뜨리는 사례를 보고했다.
- 계산 비용: 토큰 수가 수배~수십 배로 증가해 실시간성·비용 제약이 엄격한 시스템에는 부담.
- 분포 편향: 학습 데이터에 흔한 추론 패턴은 잘 따라하지만, 새로운 형식의 다단계 문제에서는 일반화가 떨어질 수 있다.
평가 벤치마크
GSM8K, MATH, BBH(BIG-Bench Hard), HumanEval, ARC-AGI 등이 CoT 기여를 측정하는 표준이다. 최근 reasoning model 평가는 단발 정확도뿐 아니라 사고 토큰 예산 대비 정확도(pareto frontier)도 함께 보고한다.