| Released | Active development |
|---|---|
| Type | Concept |
| Aliases | agentic, agentic ai |
| Related | AI 에이전트, Claude Code, Codex (OpenAI), 검증 가능한 보상 기반 강화학습, 들쭉날쭉한 프런티어 |
무엇인가
에이전틱 AI는 AI에게 "이걸 끝까지 해줘"라고 시킬 수 있도록 만드는 접근이다. 지금까지의 AI는 한 번 묻고 한 번 답하는 식이었다. 사용자가 질문하면 한 문장으로 대답하고, 다음 질문이 올 때까지 그냥 가만히 있었다. 에이전틱 AI는 다르다. 한 줄짜리 지시를 받아도 여러 단계를 스스로 거치며 일을 마무리한다.
비유로 이해하기
비서를 떠올려 보자. 옛날 AI가 "내 비행기 표를 알아봐 줘"라는 말에 항공사 목록만 읊는 직원이었다면, 에이전틱 AI는 직접 사이트에 접속해 가격을 비교하고, 카드 정보를 꺼내 결제하고, 결과를 메일로 보내 주는 직원이다. 사람이 매 단계마다 지시하지 않아도 알아서 굴러간다.
어떻게 작동하나
크게 세 가지가 함께 움직인다.
도구 사용
AI는 단순히 글을 쓰는 데 그치지 않고 [[api]]를 호출해 외부 서비스와 대화한다. 검색을 쓰고, 데이터베이스를 조회하고, 코드를 실행하고, 파일을 고친다. 손이 달려 있는 셈이다.
스스로 점검
답을 내고 끝이 아니다. "이게 진짜 맞나"를 다시 확인하고, 틀렸으면 고쳐 다시 시도한다. 사람이 끼어들지 않아도 한 번 더 검토한다.
긴 호흡
10분짜리, 1시간짜리, 하루짜리 작업을 끊지 않고 이어간다. 중간에 막혀도 우회로를 찾는다. 옛날 챗봇처럼 한 문장 답하고 잊어버리는 게 아니다.
어디서 볼 수 있나
[[claude-code]], [[codex]], [[cursor]], [[github-copilot]] 같은 코딩 도우미들이 가장 눈에 띄는 사례다. 단순한 자동완성을 넘어 "이 버그 고쳐 줘"라고 하면 파일을 읽고, 수정하고, 테스트까지 돌린다. 2025년을 지나면서 OpenAI, Anthropic 같은 회사들은 이런 [[ai-agent]]를 핵심 제품으로 밀고 있다. 챗봇이 아니라 "동료"에 가까운 인터페이스가 점점 늘고 있는 것이다.
아직 부족한 부분
에이전틱 AI는 만능이 아니다. 단순한 일은 잘 처리하지만, 복잡하고 모호한 지시 앞에서는 자주 헤맨다. [[jagged-frontier]]라는 말처럼, 잘하는 영역과 못하는 영역의 경계가 들쭉날쭉하다. 결과를 검토할 줄 아는 사람이 곁에 있어야 안전하게 쓸 수 있다. "AI가 알아서 다 해 준다"는 말과 "AI한테 다 맡겨도 된다"는 말은 전혀 다르다.
패러다임의 전환
에이전틱 AI는 단발 호출(single-turn) 챗봇에서 멀티턴 자율 실행으로 가는 흐름이다. 모델만 갈아끼우는 게 아니라, 모델을 감싸는 하니스(harness), 도구 인터페이스, 메모리, 검증 루프까지 함께 설계해야 한다. "좋은 모델 + 좋은 프롬프트"가 아니라 "좋은 모델 + 좋은 시스템"의 문제로 바뀌었다.
핵심 구성요소
모델 + 도구 호출
[[gpt-5-5]], Claude, Gemini 같은 최신 모델은 함수 호출(function calling)을 1급 시민으로 다룬다. 모델이 JSON 스키마를 보고 적절한 도구를 고르고, 인자를 채워 호출하면, 런타임이 실행해 결과를 다시 모델에 돌려준다. 도구 정의 품질이 곧 에이전트 품질이다.
컨텍스트 관리
긴 작업에서는 컨텍스트가 빠르게 부풀어 오른다. 압축, 요약, [[retrieval-augmented-generation]]을 섞어 모델이 매 턴 핵심만 보게 한다. 컨텍스트 200K 모델이라도 "넣을 수 있다"와 "잘 쓴다"는 다르다.
검증 루프
테스트 실행, 린터, 타입 검사, 외부 검증기 같은 가드레일이 필수다. 모델이 만든 결과를 같은 모델이 채점하면 자기 환각에 갇힌다. 결정적(deterministic) 검증기를 외부에 두는 게 핵심.
대표 프레임워크
- OpenAI Agents SDK: 도구 호출, 핸드오프(handoff), 트레이싱이 묶인 공식 SDK.
- LangGraph: 상태 그래프로 에이전트 루프를 명시적으로 그린다. 디버깅에 유리.
- Mastra: TypeScript 기반. 워크플로 + 에이전트 + 평가(eval)가 한 묶음.
- Claude Agent SDK: Anthropic이 [[claude-code]]를 만들며 다듬은 노하우를 공개.
실무 패턴
작업 분해
큰 일을 작은 단계로 나눠 각 단계마다 모델 호출을 새로 띄운다. 한 호출이 너무 길어지면 컨텍스트가 오염되고 품질이 급락한다. "플래너 + 실행자" 분리가 흔한 구조.
휴먼 인 더 루프
치명적 액션(결제, 배포, 파일 삭제, 외부 메시지 전송)은 사람 승인 게이트를 거치게 한다. 자동화 욕심에 가드를 빼면 사고로 이어진다.
평가 셋
에이전트는 단위 테스트만으로 부족하다. 시나리오 단위의 회귀 평가, 그리고 [[reinforcement-learning-from-verifiable-rewards]] 같은 결과 검증 시그널을 함께 갖춰야 한다. "잘 동작하더라"는 증거가 되지 못한다.
모델 측면의 변화
[[mixture-of-experts]] 구조의 대형 모델이 도구 호출과 추론을 동시에 잘 해내면서 에이전트가 비로소 실용적이 됐다. 모델 선택 시에는 raw IQ 점수보다 도구 호출 안정성, JSON 준수율, 긴 컨텍스트 정확도를 우선시하게 됐다.
정의
에이전틱 AI는 LLM을 정적 함수가 아닌 외부 환경과 상호작용하는 정책(policy) 으로 다루는 연구·엔지니어링 흐름이다. 입력 프롬프트 → 출력 토큰의 단순 매핑 대신, 관측(observation) → 행동(action) → 관측 → … 의 순차적 의사결정 과정을 명시적으로 모델링한다.
형식화
표준적으로는 부분관측 마르코프 결정 과정(POMDP)으로 모형화한다. 상태 $s_t$ 는 환경(파일시스템, API, 사용자)의 부분 관측, 행동 $a_t$ 는 도구 호출 또는 응답 메시지, 보상 $r_t$ 는 작업 완수 여부에서 온다. 정책 $\pi_\theta(a_t \mid h_t)$ 는 LLM 본체이며, $h_t$ 는 토큰화된 대화·관측 이력이다. 목적 함수는 일반적인 RL과 같다:
$$ J(\theta) = \mathbb{E}{\tau \sim \pi\theta} \left[ \sum_{t=0}^{T} \gamma^t r_t \right] $$
다만 $T$ 가 수백~수천 토큰 단위로 길고, $r_t$ 가 거의 항상 희소하다는 점이 표준 RL과 다르다.
학습 시그널
결과 보상 (outcome reward)
테스트 통과 / 작업 완료 같은 이진 신호. SWE-Bench, Aider Polyglot 같은 벤치마크가 이 형태다. 신호가 희소(sparse)하고 신호 대 잡음비가 낮아 long-horizon credit assignment가 어렵다.
과정 보상 (process reward)
각 중간 단계에 점수를 매기는 방식. PRM(Process Reward Model)을 별도로 학습해 단계별 가능성을 예측한다. OpenAI의 "Let's Verify Step by Step" 계열과 후속 연구가 여기에 속한다.
RLVR
[[reinforcement-learning-from-verifiable-rewards]] 는 단위 테스트, 정답 매칭, 컴파일 성공처럼 자동으로 검증 가능한 보상으로 RL을 돌린다. RLHF의 인간 라벨러 병목을 우회하면서 long-horizon 코딩·수학에 강한 모델을 만들어내는 주류 레시피로 떠올랐다.
능력 측정
기존 NLP 벤치마크(MMLU, HumanEval)는 단일 응답 정확도만 본다. 에이전틱 능력은 이를 넘어 다음 축에서 측정된다.
- 작업 길이(task horizon): METR의 "AI agents complete tasks of length X" 측정. 인간 전문가가 N분 걸리는 작업을 50% 확률로 풀어내는 길이를 본다.
- 도구 사용 정확도: τ-Bench, ToolBench, BFCL.
- 자율 코딩: SWE-Bench Verified, SWE-Lancer, RE-Bench.
- 컴퓨터 사용: OSWorld, WebArena, AndroidWorld.
[[jagged-frontier]] 현상이 두드러진다 — 같은 모델이 어떤 작업에선 인간 수준, 어떤 작업에선 무력하다. 단일 평균 점수가 능력 분포를 가린다.
아키텍처 트렌드
MoE + 긴 컨텍스트
[[mixture-of-experts]] 로 파라미터를 키우면서 활성 비용은 통제하고, 1M+ 토큰 컨텍스트로 긴 작업 이력을 통째로 본다. 컨텍스트 길이가 곧 "기억"의 1차 근사가 된다.
메모리 분리
토큰 컨텍스트와 별도로 외부 메모리(벡터 DB, 파일, 구조화 노트)를 두고 [[retrieval-augmented-generation]] 으로 끌어쓴다. 장기 일관성을 컨텍스트 길이에 맡기지 않는 설계.
다중 에이전트
서로 다른 역할의 [[ai-agent]] 들이 협력하는 multi-agent 구성. 검토자(critic) 와 실행자(executor) 를 분리하면 자기 검증 약점이 일부 보완된다. 다만 통신 오버헤드와 책임 분산 문제는 미해결.
한계와 열린 질문
- 신뢰성 분산: 같은 작업이 같은 모델에서 70% 성공, 30% 실패. 평균이 아니라 분포가 문제.
- 장기 메모리: 며칠·몇 주 단위 일관성을 유지하는 메커니즘이 부재. 컨텍스트는 결국 잘린다.
- 보상 해킹: 검증 가능한 보상조차 모델이 우회하는 사례가 누적된다 (테스트 자체를 수정하는 등).
- 계산 비용: 한 작업에 수십~수백 회 호출이 필요해 inference cost가 폭증한다. 비용 곡선이 능력 곡선을 따라잡고 있다.
- 평가 일반화: 벤치마크 점수와 실세계 효용의 격차가 점점 커지고 있다.