지금 우리가 챗봇을 쓰는 방식은 묘하게 답답하다. 할 말을 머릿속에서 정리해 한 덩어리로 보내고, 모델이 답을 다 만들 때까지 기다린다. mira-murati가 이끄는 thinking-machines-lab이 첫 결과물로 공개한 interaction-model은 바로 이 답답함을 모델 차원에서 풀려는 시도다.

무엇이 일어났나

@miramurati는 X에 "실시간 상호작용을 모델에 본래 기능으로 넣었고, 턴(turn) 기반 모델 위에 덧붙이는 방식과 다르다"는 취지로 발표를 알렸다. 함께 공개된 공식 시연 영상은 모델이 듣고, 말하고, 보고, 보여주고, 생각하는 다섯 가지를 동시에 처리하는 모습을 짧게 보여 준다.

Thinking Machines Lab 채널

이미지: Thinking Machines Lab 공식 채널, 출처: Introducing interaction models | Thinking Machines Lab

그는 또 다른 글에서 현재 AI 경험을 이렇게 묘사했다. "대화가 우리가 말을 멈춰야 비로소 시작되는 느낌"이며, 우리는 생각을 한 덩어리로 묶어 보내고, 화면을 가리킬 수도 없고, 질문을 이메일처럼 쓴다고 지적했다. AI가 사람에게 맞추는 게 아니라 사람이 AI에 맞추고 있다는 비판이다.

왜 중요한가

친구와 카페에서 이야기할 때를 떠올려 보자. 친구가 말을 하는 동안 우리도 고개를 끄덕이고, 같은 메뉴를 손가락으로 가리키고, 끼어들어 질문하고, 표정을 읽는다. 듣기·말하기·보기가 동시에 일어난다. 지금의 챗봇은 이런 동시성이 없다. 사용자가 끝낼 때까지 기다리고, 답을 다 만들 때까지 사용자가 기다린다.

interaction model이 약속하는 건 이 "동시에"를 모델 안쪽에서 가능하게 만드는 것이다. 후처리로 음성을 붙이거나 화면 캡처를 보내는 방식이 아니라, 처음부터 그런 협업이 가능하도록 설계된 모델이라는 뜻이다.

더 깊이

Thinking Machines Lab은 OpenAI의 전 CTO인 Mira Murati가 세운 곳으로, 이번 발표가 첫 공개 결과물이다. 회사는 대부분의 AI 랩이 자율성을 최종 목표로 두고 상호작용은 그 주변 장치 정도로 다룬다고 진단한다. 자기들의 관점은 정반대다. 우리가 AI와 함께 일하는 방식 자체가 그 모델이 얼마나 똑똑한가만큼 중요하며, 상호작용 능력은 모델의 지능과 함께 커져야 한다는 것이다.

공개된 시연은 음성 응답만 흉내 내는 다른 데모와 달리, 모델이 화면 위의 무언가를 보고 동시에 말로 설명하고, 사용자가 끼어들면 즉시 멈추거나 방향을 바꾸는 모습을 강조한다.

아직 알 수 없는 것

데모 영상과 짧은 게시물 외에 공개된 기술 자료는 적다. 모델 아키텍처, 학습 데이터, 파라미터 수, 벤치마크는 알려지지 않았다. 일반 사용자가 접근할 수 있는 API나 앱도 아직 없다. 시연은 통제된 환경에서 찍힌 영상이므로, 실제 사용 환경에서도 같은 자연스러움을 보일지는 별개 문제다. 회사 측이 영상 설명에서 가리킨 기술 보고서가 어디까지 답을 줄지가 다음 관전 포인트다.

5분 실습

  1. 공식 시연 영상을 5분 동안 천천히 본다. 모델이 사용자의 말이 끝나기 전에 어떤 반응을 보이는지 관찰한다.
  2. 비교를 위해 ChatGPT 앱의 음성 모드(Advanced Voice)를 켜고 같은 종류의 질문을 던져 본다. "내가 말하는 동안 끼어들 수 있는가?", "화면을 보여 주면서 동시에 설명할 수 있는가?"
  3. 두 경험의 차이를 한 줄로 메모해 보자. 답이 빠른 것과 "동시에 작동하는 것"이 다르다는 느낌을 잡는 게 핵심이다.

더 읽어보기