DeepMind가 로봇용 추론 모델 gemini-robotics-er 1.6을 공개했다. 같은 날 Boston Dynamics의 4족 로봇 boston-dynamics-spot에 이 모델을 얹고, 복잡한 코드를 짜는 대신 평문 영어로 "방을 정리해줘" 같은 지시를 내리는 데모도 함께 선보였다. 시각·공간 이해 능력과 안전성이 이전 버전 대비 크게 올랐고, Google AI Studio와 Gemini API에서 개발자들이 바로 써볼 수 있다.

이미지: 개발자 발표 자료, 출처: @GoogleDeepMind on X

무엇이 일어났나

@GoogleDeepMind는 로봇이 물리 세계를 더 잘 추론하도록 돕는 업그레이드라며 1.6 버전을 발표했다. 핵심은 embodied-reasoning — 디지털 지능과 물리적 행동 사이의 다리 역할을 하는 능력이다. 예를 들어 파란 컵에 들어갈 만큼 작은 물건을 모두 가리키라는 조건부 지시를 처리하거나, 천장 카메라와 손목 카메라가 보여주는 두 시점을 종합해 파란 펜이 검정 펜꽂이에 제대로 들어갔는지를 판단할 수 있다.

가장 눈에 띄는 협업 사례는 Boston Dynamics였다. DeepMind 팀은 Gemini Robotics-ER과 Spot의 시스템 사이에 다리(bridge)를 만들고, AI에게 이동·촬영·물건 집기 같은 기본 도구를 제공했다. 그 결과 개발자는 코드 대신 영어 문장으로 작업을 지시할 수 있게 됐다.

안전 면에서도 진전이 있었다. 1.6은 액체를 피하거나 20kg이 넘는 물건을 들지 않는 등 물리적 제약을 이해하고, 영상에서 사람의 부상 위험을 감지하는 능력이 직전 버전 대비 10% 좋아졌다.

왜 중요한가

지금까지 로봇에게 새 작업을 가르치려면 사람이 코드를 한 줄씩 짜야 했다. 환경이 조금만 바뀌어도 그 코드는 무너졌고, 새 작업마다 며칠이 걸렸다. 이번 변화는 그 출발점을 바꾼다. 로봇에게 "주방을 치워줘"라고 말하면, 모델이 어떤 물건을 어디에 둘지, 어떤 순서로 움직일지를 스스로 계획한다.

비유하자면 예전 로봇이 정해진 악보만 연주하는 자동 피아노였다면, 이번엔 "재즈풍으로 즉흥 연주해봐"라고 말해도 알아듣는 연주자에 가까워진 셈이다.

더 깊이

DeepMind 블로그에 따르면 1.6 버전이 새로 잘하게 된 일 중 하나는 '계기(instrument) 읽기'다. 산업 현장에는 압력계, 측면 유리, 디지털 표시기 같은 측정 장치가 가득한데, 이를 카메라로 보고 정확히 읽어내는 능력이다. 이때 agentic-vision이라는 기법을 쓴다. 모델이 이미지를 확대해 자세히 보고, 코드를 실행해 눈금 사이의 비율을 계산한 다음, 세상 지식을 적용해 단위를 해석하는 식이다.

또 하나의 중요한 능력은 success-detection — 작업이 끝났는지 스스로 판단하는 것이다. 사람에게는 당연한 일이지만 로봇에게는 어렵다. 펜이 펜꽂이에 들어갔는지를 손목 카메라와 천장 카메라가 보여주는 장면을 종합해 판단해야 한다. 이 능력이 있어야 로봇은 실패한 시도를 다시 할지, 다음 단계로 넘어갈지 스스로 결정할 수 있다.

Boston Dynamics의 Marco da Silva 부사장은 이 능력이 갖춰지면 Spot이 스스로 보고, 이해하고, 대응할 수 있게 된다고 말했다.

아직 알 수 없는 것

데모는 인상적이지만, 짧은 영상과 통제된 환경 너머에서 모델이 얼마나 안정적으로 작동할지는 자료가 부족하다. 또 평문 영어 인터페이스가 일반 사용자에게 열린 건지, 아직은 개발자가 만든 도구 안에서만 작동하는 건지도 명확하지 않다. 발표 게시물 어디에도 한국어 등 영어 외 언어 지원에 대한 언급은 없었다.

5분 실습

  1. https://aistudio.google.com 에 접속해 모델 선택에서 gemini-robotics-er-1.6-preview를 고른다.
  2. 책상이나 주방 사진을 한 장 찍어 업로드한다.
  3. 영어로 커피 머그에 들어갈 만큼 작은 물건을 모두 가리켜 달라고 입력한다.
  4. 모델이 사진 위에 좌표를 어떻게 찍는지 살펴본다.
  5. 같은 사진에 책상을 치우려면 어느 물건부터 옮겨야 하는지 영어로 묻고, 우선순위를 어떻게 매기는지 비교한다.

더 읽어보기