카파시: LLM에게 HTML로 응답하라고 시켜보라

karpathy(안드레이 카파시) 는 오픈AI 창립 멤버이자 테슬라 AI 디렉터를 지낸 연구자다. 그가 X에 올린 짧은 팁 하나가 1만 6천 개 넘는 좋아요를 받으며 빠르게 퍼졌다. 질문 끝에 '응답을 HTML로 구조화해 줘'라고 덧붙인 다음, 결과를 브라우저로 열어 보라는 것. 슬라이드쇼 형태로 요청해도 잘 동작했다고 그는 덧붙였다.

이미지: 안드레이 카파시 프로필, 출처: @karpathy on X

무엇이 일어났나

@karpathy는 지금까지 LLM이 기본으로 내놓는 답변 형식이 markdown 이라고 짚는다. 마크다운은 굵은 글씨·기울임·제목·간단한 표가 들어간 가벼운 서식 평문이다. 한 줄짜리 답을 보기엔 충분하지만, 비교 카드나 작은 인터랙션이 필요한 순간에는 표현이 빈약하다. 그는 같은 답을 HTML로 받아 브라우저로 열면 색상·레이아웃·간단한 클릭 동작까지 한 화면에 담을 수 있다고 말한다.

왜 중요한가

입문자 입장에서 이 팁의 매력은 단순하다. 추가 도구 없이, 평소 쓰던 챗봇만으로 보기 좋은 결과물을 얻을 수 있다는 점이다. 예를 들어 "이 약과 저 약의 차이를 정리해 줘" 라고만 하면 평범한 표가 나오지만, 끝에 "HTML 카드 두 개로 만들어 줘" 라고 붙이면 색상과 아이콘이 들어간 비교 카드가 돌아온다.

그가 이 팁을 던지는 큰 배경은 더 흥미롭다. 사람의 뇌는 시각 정보를 처리하는 데 어림잡아 1/3 가까이를 쓴다고 한다. 그래서 AI에게 무언가를 받을 때는 글보다 그림·도식·레이아웃이 한눈에 들어오고, 반대로 사람이 AI에게 무언가를 줄 때는 목소리(오디오) 가 가장 빠르고 자연스럽다는 것이 그의 주장이다. 두 방향의 선호가 다르다는 비대칭이 핵심이다.

더 깊이

카파시는 출력 형식이 시간에 따라 이렇게 진화한다고 본다.

날것의 텍스트 — 눈이 피곤하다.
마크다운 — 지금의 기본값. 한결 낫다.
HTML — 이제 막 새 기본값으로 자리 잡는 중. 그래픽·레이아웃·약간의 상호작용이 가능.
… 그리고 마지막에는 …
인터랙티브 신경망 시뮬레이션 — AI가 코드 한 줄 없이 직접, 움직이고 만질 수 있는 영상을 만들어 낸다.

마지막 단계는 diffusion-model(확산 모델) 같은 생성형 AI가 한 단계 더 발전해, 게임처럼 반응하는 화면을 통째로 그려 내는 미래다. 그는 입력 쪽에도 빈자리가 있다고 짚는다 — 사람이 옆에 있는 사람에게 화면을 가리키며 "여기, 이거" 라고 말하는 그 자연스러운 손짓·시선을 AI는 아직 잘 못 받는다는 것이다.

아직 알 수 없는 것

이건 카파시 한 사람의 관찰이고, 통제된 비교 실험은 없다. HTML 응답이 정말 마크다운보다 빠르게 읽히는지는 사람·과제마다 다를 수 있다. 또 모든 챗봇이 HTML을 똑같이 잘 만들지도 않는다 — 어떤 모델은 깨진 마크업을 내놓는다. 마지막으로, '신경망이 직접 만드는 인터랙티브 영상' 단계로 가는 길에 어떤 기술적 장애물이 남아 있는지는 열린 문제다.

5분 실습

평소 쓰는 챗봇(Claude, ChatGPT, Gemini 등) 을 연다.
평소 던지는 질문 하나를 골라 끝에 이렇게 덧붙인다: "응답을 self-contained HTML 파일로 만들어 줘. CSS는 인라인, 자바스크립트는 쓰지 마."
답변 안의 HTML 코드 블록을 복사해 result.html 로 저장한다.
브라우저로 더블클릭해서 연다.
같은 질문의 마크다운 응답과 나란히 놓고, 어느 쪽이 더 빨리 핵심을 잡게 해주는지 비교한다.

더 읽어보기

카파시 원본 X 게시물