| Developed by | Ethan Mollick / Dell'Acqua et al. (HBS·BCG) |
|---|---|
| Type | Concept |
| Aliases | jagged frontier |
| Related | 에이전틱 AI, AI 에이전트, GPT-5.5, 전문가 혼합 (Mixture-of-Experts), 검증 가능한 보상 기반 강화학습 |
무엇인가
LLM처럼 큰 AI 모델을 써본 사람이라면 한 번쯤 이런 경험을 한다. 어려운 수학 문제를 시켰더니 깔끔하게 답을 내놓는데, 정작 초등학생도 풀 법한 산수에서 엉뚱한 숫자를 적는다. 같은 모델이, 같은 날, 같은 사용자에게 그런다.
이 현상을 부르는 이름이 들쭉날쭉한 프런티어(jagged frontier) 다. 하버드 경영대학원의 Ethan Mollick이 대중화한 표현으로, AI의 능력 경계가 매끄러운 직선이 아니라 들쑥날쑥한 톱니 모양이라는 뜻이다.
비유로 보면
사람의 실력은 보통 한 분야 안에서 어느 정도 일정하다. 수학을 잘하는 학생은 어려운 문제도, 쉬운 문제도 다 잘 풀 가능성이 높다. 그러나 LLM은 다르다. 같은 "수학"이라는 라벨 아래에서도 문제 유형 한두 개만 살짝 바꾸면 정답률이 90%에서 30%로 떨어지는 일이 흔하다.
지도 위 등고선을 떠올리면 좋다. 사람의 능력은 부드러운 언덕이지만, AI의 능력은 같은 산봉우리 옆에 갑작스러운 절벽이 있는 험한 지형이다. 어디가 봉우리이고 어디가 절벽인지는 직접 밟아봐야 안다.
왜 중요한가
이 개념이 실무에서 중요한 이유는 단순하다. AI가 무엇을 할 수 있는지 미리 알기 어렵기 때문이다.
[[gpt-5-5]] 같은 최신 모델이 나올 때마다 벤치마크 점수가 올라가지만, 그 점수가 "내 작업에서도 잘 작동한다"를 보장하지는 않는다. 옆자리 동료가 자랑하는 "이건 AI가 다 해줘요"가 내 비슷해 보이는 작업에서는 무참히 실패할 수 있다.
그래서 AI를 도구로 쓸 때는 직접 던져보고 결과를 확인하는 습관이 필수다. 한두 번 잘 됐다고 그 패턴이 항상 통하리라 가정해서도 안 된다.
어떻게 대처하는가
- 소량 테스트: 본격적으로 의지하기 전에 5–10건의 샘플로 결과를 확인한다.
- 실패 사례 수집: 어떤 유형에서 모델이 흔들리는지 메모해 둔다. 이게 곧 당신만의 프런티어 지도다.
- 사람-AI 분담: 모델이 강한 영역만 위임하고, 톱니 사이의 골짜기 작업은 사람이 마무리한다.
[[ai-agent]]와 [[agentic-ai]]가 보편화되면서 자율적으로 도구를 쓰는 AI가 등장했지만, 그 안의 모델 역시 들쭉날쭉한 프런티어를 그대로 갖고 있다. 자율성이 커질수록 사용자가 직접 검증할 기회는 오히려 줄어드니, 어디서 무너질지 추정하는 감각은 더 중요해진다.
개념 정리
들쭉날쭉한 프런티어는 LLM의 태스크별 능력 분포가 비균일하다는 경험적 관찰이다. Boston Consulting Group과 하버드 연구진(Dell'Acqua et al., 2023)이 758명의 컨설턴트를 대상으로 GPT-4를 사용한 실험에서, 모델이 "잘 처리하는" 작업군에서는 사용자 성과가 큰 폭으로 향상됐지만 "잘 못하는" 작업군에서는 오히려 정답률이 떨어진다는 결과가 발표되며 표현이 굳어졌다1.
실무에서 만나는 양상
같은 프롬프트 패턴이 도메인만 바뀌어도 성능이 흔들린다. 예컨대 [[claude-code]], [[codex]], [[cursor]], [[github-copilot]] 같은 코딩 도구를 쓸 때:
- Python 표준 라이브러리 코드는 거의 항상 바르게 생성한다.
- 같은 모델이 사내 DSL이나 사내 라이브러리 호출에서는 함수 시그니처를 환각한다.
- 자료구조 알고리즘은 깔끔히 푼다. 그러나 그 알고리즘을 살짝 변형한 면접용 문제에서 무너진다.
[[gpt-5-5]] 같은 새 모델이 나와 벤치마크가 올라가더라도, 이전 모델에서 실패하던 골짜기는 그대로 남아 있는 경우가 많다.
운영 가이드라인
1) 골짜기 지도 만들기
팀이 자주 쓰는 프롬프트 카테고리를 5–10개로 나누고, 각 카테고리에서 5건씩 ground-truth가 있는 평가 셋을 만든다. 모델 교체 때마다 같은 셋으로 회귀 측정을 돌리면, 어디서 톱니가 깊어지고 얕아졌는지를 정량적으로 본다.
2) 게이트 패턴
자율 [[ai-agent]] 파이프라인을 짠다면 들쭉날쭉한 프런티어를 디폴트 가설로 세운다. 즉, 모델 출력을 별도 검증기(테스트, 정적 분석, 룰 엔진, 사람 리뷰)로 게이팅하지 않으면 그 작업은 골짜기에 빠질 수 있다고 본다. 단일 LLM 호출만으로 신뢰성을 가정하지 않는 게 핵심이다.
3) RAG와 보조 프롬프팅
골짜기 중 일부는 모델이 정보를 모르거나 잘못 기억해서 생긴다. [[retrieval-augmented-generation]]으로 관련 문서를 컨텍스트에 붙이면 그 부분의 골짜기는 완화된다. 그러나 추론 자체가 약한 골짜기는 RAG로 메워지지 않는다는 점을 잊지 마라.
4) 인간 감독자 역할 재정의
들쭉날쭉한 프런티어가 있는 한 "AI에게 맡겨놓고 결과만 확인"하는 모델은 위험하다. 사용자는 단순한 검토자가 아니라, 모델이 어디서 미끄러질지 사전에 추정하는 risk auditor에 가깝다. Dell'Acqua 실험에서도 모델 출력을 비판적으로 다룬 그룹이 무비판적으로 신뢰한 그룹보다 평균 성과가 더 좋았다.
정리
들쭉날쭉한 프런티어는 모델 선택, 평가, 워크플로 설계 모두에 영향을 주는 운영 가설이다. "이 모델이 X를 잘하니 Y도 잘하겠지"는 조직 차원에서 가장 흔한 사고 원인이다. 능력 분포는 매끄럽지 않다는 전제로 평가와 게이팅을 설계하라.
- Dell'Acqua, F., Kellogg, K., McFowland III, E., Mollick, E. 외 (2023). 「Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality」. Harvard Business School Working Paper No. 24-013.↩
정의와 배경
들쭉날쭉한 프런티어(jagged frontier)는 LLM의 capability surface가 task space 위에서 비균일하게 분포한다는 경험적 가설이다. 정식 진술은 Dell'Acqua, Kellogg, McFowland III, Mollick 등(2023) 「Navigating the Jagged Technological Frontier」에서 등장한다. BCG 컨설턴트 758명을 대상으로 한 무작위 통제 실험에서 GPT-4 사용 그룹은 "프런티어 안쪽"에 해당하는 18개 창의·작문 태스크에서 통제군 대비 평균 12.2% 더 많은 작업을 완료하고 25.1% 빠르게 처리했으며 품질도 약 40% 우위였다. 반면 "프런티어 바깥쪽"에 해당하는 비즈니스 문제 해결 태스크에서는 GPT-4 사용군이 통제군 대비 정답률이 약 19%p 낮았다1.
형식적 묘사
태스크 공간 $\mathcal{T}$ 위에 모델 $M$의 성공 확률 $p_M(t)$ 가 정의된다고 하자. 사람의 능력 곡선 $p_H(t)$ 는 도메인 내부에서 상대적으로 매끄럽게 변하지만, $p_M(t)$ 는 인접한 두 태스크 $t_1, t_2$ 가 표면적으로 유사해도 $|p_M(t_1) - p_M(t_2)|$ 가 크게 벌어지는 일이 잦다. 이 비균일성을 시각화하면 능력 경계가 부드러운 곡선이 아닌 톱니 모양이 된다.
원인 가설
- 데이터 분포의 편향: 사전학습 코퍼스의 토큰 빈도와 형식 분포가 균일하지 않다. 빈도 높은 패턴은 강한 일반화로, 빈도 낮은 패턴은 표면적 패턴 매칭으로 처리된다.
- 태스크 합성성의 함정: 추론 사슬을 단계별로 분해할 때 한 단계가 약하면 전체가 무너진다. 인접해 보이는 태스크라도 합성 깊이가 다르면 성능 격차가 크다.
- 포스트트레이닝 압력: RLHF나 [[reinforcement-learning-from-verifiable-rewards]] 같은 방법이 특정 태스크 패밀리를 집중적으로 강화하면, 그 패밀리 외부에서는 성능이 정체되거나 후퇴한다.
- 혼합 전문가의 라우팅 불안정: [[mixture-of-experts]] 모델은 전문가 활성화가 입력 분포에 의존하므로, 라우팅이 불안정한 입력 영역에서는 능력이 급격히 떨어질 수 있다.
연구·평가에 주는 시사
- 벤치마크의 한계: 통합 벤치마크 점수는 프런티어의 평균값을 보여주지만 톱니의 깊이는 감춘다. capability evaluation은 hold-out task family와 perturbation suite로 보완해야 한다.
- transfer 가설 약화: 동일 도메인 내 태스크 간 전이가 사람만큼 부드럽지 않다는 점은 in-context learning과 instruction tuning 연구의 가정에 충격을 준다.
- 자율 에이전트 안전: [[agentic-ai]] / [[ai-agent]] 시스템은 LLM의 능력 분포 위에서 결정을 내리므로, 톱니의 위치를 모델 자신이 알지 못한다는 사실이 안전 분석의 핵심 변수다. [[gpt-5-5]] 같은 신모델에서도 톱니 형상은 사라지지 않는다.
한계와 비판
이 개념은 정량 측정 도구라기보다 정성적 메타포에 가깝다는 비판이 있다. 무엇이 "이웃한 태스크"인지를 정의해야만 톱니 깊이를 측정할 수 있는데, 그 거리 함수 $d(t_1, t_2)$ 자체가 도메인 의존적이다. 후속 연구는 task embedding 공간 위에서 capability surface를 매끄럽게 추정하는 방법을 모색하지만, 의미 있는 거리 정의가 합의되지 않았다.
또 일부 연구자는 들쭉날쭉함이 모델 본질적 특성이 아니라 평가자의 직관 vs 실제 태스크 난이도 사이의 괴리에 불과하다고 본다. 즉 AI 능력이 톱니라기보다는 인간의 난이도 추정이 빗나갔다는 입장이다. 이 견해에서는 "프런티어"라는 표현 자체가 측정 도구가 아닌 사용자 멘탈모델의 한계를 가리킨다.
정리
들쭉날쭉한 프런티어는 모델 평가, 안전 분석, 인간-AI 협업 설계의 공통 언어로 자리 잡았다. 단일 점수로 모델을 평가하지 말고 capability surface의 형상을 추정하라는 것이 핵심 메시지다. 거리 함수와 task taxonomy를 명시화하는 후속 작업이 이 가설을 정량 도구로 끌어올릴 다음 단계다.
- Dell'Acqua, F., Kellogg, K., McFowland III, E., Mollick, E. 외 (2023). 「Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality」. Harvard Business School Working Paper No. 24-013.↩