AI에게 숙제를 맡기면 성적이 떨어진다

챗봇에게 숙제를 맡긴 학생은 숙제 시간은 줄고 시험 점수도 떨어졌다 — 그러나 AI를 '튜터'처럼 쓴 학생은 오히려 6~9개월치 학력만큼 더 잘했다.

한눈에중국 중등학교 대규모 연구는 '생성형 AI 학습 페널티(generative AI learning penalty)'를 보고했다.터키 고교 약 1,000명 실험에서 ChatGPT를 쓴 그룹은 숙제는 더 잘했지만 시험에서는 더 못 봤다.같은 연구진이 타이베이 고교 10곳에서 ai-tutor를 5개월 운영하자, 시험 점수가 0.15 표준편차 더 높아졌다.

실무자: 숙제 도구로서의 챗봇과, 학습 보조로서의 챗봇은 전혀 다른 효과를 낸다. 리더: AI를 학교에 도입할 때 "답을 주는 비서"가 아닌 "문제를 내주는 튜터"로 설계해야 한다.

와튼 스쿨의 에단 몰릭(@emollick) 교수가 이번 주 트윗에서 정리한 흐름은 단순하지만 묵직하다. AI를 학교에 가져왔을 때 무조건 좋아지지도, 무조건 나빠지지도 않는다는 것이다. 핵심은 학생이 머리를 쓰느냐다. 머리 쓸 일을 AI가 대신 해주면 점수가 떨어지고, 머리 쓸 일을 AI가 잘 설계해서 던져주면 점수가 오른다.

이미지: ChatGPT를 '숙제 도우미'로 쓴 터키 실험과 'AI 튜터'로 설계한 타이베이 실험의 결과 비교, 출처: Choosing to Stay Human

무엇이 일어났나

몰릭이 인용한 첫 자료는 CEPR가 발표한 디스커션 페이퍼 DP21577 「생성형 AI 학습 페널티: 중국 중등교육에서의 증거」다. 중국 중등학생들을 대상으로 한 대규모 관찰 연구에서, AI 사용으로 숙제에 들이는 시간이 줄어들수록 시험 점수도 함께 떨어지는 패턴이 확인됐다.

같은 흐름을 터키 고등학교 실험이 좀 더 깔끔하게 보여준다. 약 1,000명의 학생을 두 그룹으로 나눠 한쪽은 평범한 ChatGPT를 자유롭게 쓰게 했고, 한쪽은 AI 없이 공부하게 했다. ChatGPT를 쓴 학생들은 숙제 자체는 더 잘했고, 본인도 "더 잘 배우고 있다"고 느꼈다. 그런데 막상 AI 없이 치른 시험에서는 비AI 그룹보다 점수가 낮았다. 챗봇이 친절한 비서처럼 답을 내주는 동안, 학생의 머릿속에서는 학습이 일어나지 않았던 것이다.

반대 방향의 증거도 있다. 같은 연구진 일부가 참여한 타이베이 실험에서는 고등학교 10곳, 약 1,000명에게 5개월간 파이썬 수업을 했다. 이번에는 AI가 답을 주는 비서가 아니라, 학생 수준에 맞춰 문제를 골라주는 ai-tutor 역할을 했다. 결과는 정반대였다 — 시험 점수가 비교군보다 0.15 표준편차 높았고, 이는 추가 수업 없이도 6~9개월치 학력을 더 쌓은 것에 해당한다.

숫자로 보기

터키 고교 실험: 약 1,000명, ChatGPT 그룹은 숙제 성적 ↑, 비AI 시험 성적 ↓.
타이베이 고교 실험: 약 1,000명·10개교·5개월, ai-tutor 그룹 시험 점수 +0.15 표준편차.
환산하면 약 6~9개월치 추가 학력에 해당.

왜 중요한가

학생들이 챗봇을 켜고 숙제를 하는 건 "부정행위"를 하려는 게 아니라, 단지 막힐 때 도움을 받고 싶기 때문이다. 문제는 시중의 챗봇이 기본값으로 친절한 비서처럼 행동하도록 설계돼 있다는 점이다. 비서는 묻는 사람의 일을 줄여주는 게 임무다. 그래서 학생이 "이 문제 풀어줘"라고 하면 풀어준다. 그 순간 학습에 꼭 필요한 productive-struggle은 사라진다.

학습은 본질적으로 내가 모른다는 불편한 감각을 마주하고, 머리에서 땀이 날 때까지 끙끙대는 과정이다. 그 끙끙댐을 건너뛰면, 숙제가 끝나도 머릿속엔 아무것도 남지 않는다. 챗봇은 끙끙댐을 너무 쉽게 우회시켜 준다.

누가 이득, 누가 손해

이 변화로 가장 손해를 보는 쪽은 자기 관리에 익숙하지 않은 어린 학생이다. 본인은 더 잘 배우고 있다고 착각하기 때문에, 시험을 망치고 나서야 문제가 드러난다. 반면 학교와 에듀테크 기업 중에서도 챗봇을 "답해주는 비서"가 아니라 "문제를 던지는 튜터"로 설계한 쪽은 유리해진다 — 몰릭이 인용한 타이베이 실험이 그 가능성을 보여준다.

더 깊이

몰릭은 자신의 뉴스레터 "Choosing to Stay Human"에서 와튼 동료들이 말한 cognitive-surrender(인지적 항복)라는 표현을 인용한다. 사람들이 AI 앞에서 점점 "내가 생각할 필요는 없겠다"고 판단해 버리는 현상이다. 실험에 따르면 AI가 틀린 답을 줄 때조차 사람들은 그 답을 따라가는 경향이 있다.

다행히 세 곳의 주요 AI 회사는 학습용 모드를 따로 준비해 두었다. Gemini는 채팅창 왼쪽 ＋ 버튼에서 Guided Learning을 고를 수 있고, ChatGPT는 채팅창에 /learn을 입력하면 학습 보조 모드가 켜진다. Claude는 ＋ → use style → "learning"을 고르면 된다. 메뉴가 깊이 숨어 있어서 학생 스스로 찾아내기는 쉽지 않다.

아직 알 수 없는 것

터키와 타이베이 실험 모두 학생 수가 약 1,000명 수준이고 두 나라에 한정된다. 한국처럼 학습 문화가 다른 환경에서도 같은 패턴이 나올지는 별도 검증이 필요하다. 또한 "AI 튜터" 설계가 정확히 어떤 요소(문제 난이도 조절, 힌트의 절제, 즉시 해설 회피 등) 덕분에 효과를 냈는지 아직 분리되지 않았다.

5분 실습 (쉬움 · 5분)

오늘 풀고 있는 문제 하나를 골라 ChatGPT 채팅창에 그냥 붙여넣는 대신, 먼저 /learn을 입력하고 시작하자. 같은 문제를 두 모드에서 각각 시도해 보고, 어느 쪽이 머리를 더 쓰게 하는지 체감해 본다. 자세한 단계는 본문 아래 "5분 실습"을 참고.

더 읽어보기

DP21577: The Generative AI Learning Penalty · 2026-06 · 중국 중등학생 대상 대규모 관찰 연구.
Choosing to Stay Human (Ethan Mollick) · 2026-05 · 터키·타이베이 실험을 함께 요약한 글.

AI에게 숙제를 맡기면 성적이 떨어진다 — 새 대규모 연구