자율 실험실

Released	Active development
Type	Concept
Aliases	autonomous lab, self-driving lab, SDL
Related	GPT-Rosalind, 유전체학, 멀티오믹스, BixBench, 생물학적 위험

무엇인가

자율 실험실은 사람 대신 로봇과 AI가 함께 실험을 굴리는 연구실이다. 연구자가 "이런 신약 후보를 찾고 싶다"는 큰 목표만 주면, 시스템이 어떤 실험을 할지 정하고, 로봇 팔이 시약을 옮기고, 측정 장비가 결과를 읽고, AI가 그 결과를 해석해 다음 실험을 결정한다. 이 과정이 사람의 개입 없이 24시간 돌아갈 수 있다는 점이 핵심이다.

왜 필요할까

신약 개발이나 신소재 탐색 같은 분야는 가능한 후보가 천문학적으로 많다. 사람이 하나씩 실험해서는 평생을 써도 다 보지 못한다. 게다가 실험 결과를 보고 다음 실험을 설계하는 데도 시간이 든다. 자율 실험실은 이 두 병목을 동시에 푼다.

비유하자면, 요리사가 한 그릇씩 천천히 맛보며 레시피를 다듬는 것과, 100개의 변형을 동시에 만들어 가장 맛있는 것만 골라 다시 100개를 만드는 것의 차이다. 자율 실험실은 후자에 가깝다.

어떻게 동작하나

대략 이런 루프를 돈다.

가설 만들기. AI 모델이 기존 데이터를 보고 "이런 분자가 효과 있을 것 같다"는 후보를 제안한다.
프로토콜 설계. 그 후보를 실제로 시험하려면 어떤 시약을 얼마만큼 섞고, 몇 도에서 몇 분 동안 배양할지 단계를 짠다.
로봇 실행. 액체 처리 로봇과 측정 장비가 프로토콜을 그대로 수행한다.
결과 해석. 측정 데이터를 AI가 읽고 "예상보다 잘 됐다", "이 방향은 막힌 길이다"를 판단한다.
다음 실험 선택. 해석을 바탕으로 다음 시험할 후보를 다시 제안한다. 1번으로 돌아간다.

[[gpt-rosalind]] 같은 [[reasoning-model]]은 이 루프 안에서 가설과 해석을 맡는 두뇌 역할로 쓰일 수 있다.

누가 만들고 있나

[[genomics]]와 신약 분야에서 Ginkgo Bioworks 같은 회사가 대표 사례다. 학계에서도 토론토 대학의 Self-Driving Lab 프로젝트, MIT·Berkeley의 자율 화학 합성 시스템 등이 있다. 거대 AI 모델 회사들은 자체 실험실을 짓기보다 이런 파트너사와 손잡고 실험 데이터를 주고받는 쪽을 택하고 있다.

한계

완전 자율은 아직 어렵다. 새로운 종류의 실험 도구를 다루거나, 예상치 못한 사고(시약 흘림, 배양액 오염 등)가 나면 사람이 개입해야 한다. 또 [[biorisk]] 측면에서, 자율 시스템이 위험한 병원체를 다루지 못하도록 안전 장치를 어떻게 걸지가 큰 숙제다. 그래서 현재 대부분의 자율 실험실은 "사람이 큰 방향을 정하고, 자동화는 그 안에서만 자유롭게 도는" 형태로 운영된다.

핵심 구조

자율 실험실은 일반적으로 다음 네 계층으로 나뉜다.

Planner / Decision layer. 다음 실험을 고르는 두뇌. 전통적으로 Bayesian optimization이 쓰였고, 최근에는 [[reasoning-model]] 기반 LLM planner가 들어가고 있다.
Protocol layer. 추상적인 실험 의도("compound X를 0–100μM 범위에서 시험")를 구체적인 액체 처리 단계로 컴파일한다. Opentrons API, SiLA 2, Autoprotocol 같은 표준이 자주 쓰인다.
Execution layer. 실제 로봇 팔, 액체 처리 워크스테이션, 측정 장비. Tecan, Hamilton, Opentrons OT-2/Flex 등.
Analysis layer. 실행 결과(스펙트럼, 형광, 시퀀싱 read 등)를 다음 라운드에서 쓸 수 있는 형태로 정규화·해석한다.

어디에 쓰나

가장 활발한 분야는 셋이다.

신약 후보 탐색. Hit-to-lead 단계에서 수백 개 후보를 병렬로 시험. 결과는 다시 [[multi-omics]] 패널로 검증.
반응 최적화. 합성 화학에서 수율을 최대화하는 조건(온도, 촉매, 용매)을 찾는 closed-loop.
균주·세포주 엔지니어링. [[genomics]] 편집 후 표현형 측정을 자동화.

LLM과의 결합

2024–2025년 들어 [[reasoning-model]]이 planner 자리에 들어가는 흐름이 뚜렷하다. 기존 BO는 잘 정의된 numeric search space에 강하지만, 자연어로 들어오는 새로운 가설("문헌에서 본 이 효소를 시험해봐")을 받기 어렵다. LLM planner는 이 진입장벽을 낮춘다. [[mcp-protocol]] 같은 도구 호출 표준은 모델이 protocol layer를 직접 부르게 만들 때 유용하다.

OpenAI의 [[gpt-rosalind]]는 이런 흐름의 대표 사례다. 모델 자체는 추론 모델이지만, 파트너사인 Ginkgo Bioworks·Moderna·Amgen 등의 자율 실험실 환경에 plug-in 되어 가설 → 실행 루프를 함께 도는 것을 목표로 한다.

운영 시 주의점

Reproducibility. 같은 protocol이라도 로봇 calibration, 시약 lot, 환경 온습도가 다르면 결과가 흔들린다. 모든 run의 메타데이터를 잡아두지 않으면 디버깅이 불가능해진다.
Failure mode 정의. 모델이 "이 실험은 실패"라고 잘못 판단해 유망한 방향을 버릴 수 있다. 인간 검토 게이트를 어디에 둘지 미리 설계해야 한다.
Safety / [[biorisk]]. BSL-2 이상 작업은 자율 모드 전에 명시적 휴먼 승인을 강제하는 정책 레이어가 필요하다.
벤치마크. [[bixbench]], [[labbench2]] 같은 평가셋으로 planner 모델이 wet-lab 의사결정에서 얼마나 잘하는지 사전 검증한다.
데이터 파이프라인. 결과 데이터가 곧바로 다음 라운드의 prompt/feature가 되므로, 분석 단계의 latency가 전체 cycle time을 지배하는 경우가 많다.

정의와 역사

자율 실험실(autonomous laboratory, self-driving lab, SDL)은 가설 생성, 실험 설계, 실행, 결과 해석, 다음 실험 결정까지의 전 사이클을 자동화한 시스템이다. 1990년대 high-throughput screening이 실행 자동화에 그쳤다면, 자율 실험실은 의사결정까지 모델에 위임한다는 점에서 본질적으로 다르다.

초기 마일스톤으로는 King 그룹의 Adam(2009, 효모 유전학)과 Eve(2015, 신약 재창출), Aspuru-Guzik 그룹의 ChemOS, Berkeley A-Lab(2023, 무기 소재 합성) 등이 인용된다. 2024–2025년에는 LLM이 planner 역할로 들어오면서 setup이 한 차례 재구성되고 있다.

의사결정 핵심

의사결정 모듈은 두 갈래로 갈린다.

Bayesian / model-based

실험 공간 𝒳 위에 surrogate f(x)를 두고, acquisition function α(x) — Expected Improvement, UCB, Knowledge Gradient 등 — 을 최대화하는 다음 x*를 고른다. 잘 정의된 numeric 변수 공간에서 sample-efficient하다는 것이 강점이다. 한계는 두 가지: (1) 공간이 이산적·조합적이거나 자연어 가설을 포함할 때 modeling이 어렵고, (2) cold-start에서 prior가 없으면 첫 라운드들이 낭비된다.

LLM-driven planning

[[reasoning-model]]이 자연어 형태의 task spec과 누적 결과를 받아 다음 실험을 제안한다. ReAct/MCP 류 도구 호출과 결합하면 모델이 protocol DSL을 직접 호출할 수 있다. 장점은 prior(문헌 지식)를 즉시 동원할 수 있고 비정형 가설을 다룰 수 있다는 점. 단점은 (1) 평가의 어려움 — [[bixbench]], [[labbench2]] 같은 벤치마크가 표준화 시도 중이지만 wet-lab grounding이 약하고, (2) hallucinated protocol에 의한 시약·시간 낭비, (3) reasoning trace의 reproducibility.

실무 시스템은 두 갈래의 hybrid가 일반적이다 — LLM이 후보 region을 제안하면 BO가 그 안에서 sample-efficient exploration을 수행하는 식이다.

실행 계층의 표준화

프로토콜 표현으로 Autoprotocol(JSON), SiLA 2(SOAP/gRPC), Opentrons Python API, AnIML(분석 데이터)이 경쟁한다. 어느 것도 dominant 표준이 되지 못한 것이 reproducibility 문제의 한 원인이다. 최근 흐름은 LLM agent가 [[mcp-protocol]] 위에서 protocol generator tool을 호출하는 식으로 표준 격차를 우회하는 것이다.

측정·해석 측면

[[multi-omics]] readout — RNA-seq, proteomics, metabolomics — 이 한 라운드에서 같이 나오는 경우가 늘면서 해석 모듈은 high-dimensional 차원 축소와 인과 추론을 함께 다뤄야 한다. 기존 ML pipeline은 batch effect와 lab-to-lab drift에 약하다. 이 영역은 [[genomics]] foundation model과 SDL의 접점이 활발한 곳이다.

한계와 열린 문제

Sample efficiency vs. exploration. 한 번의 wet-lab 라운드 비용이 크기 때문에 regret 최소화의 정의 자체가 일반 BO와 다르다. Risk-aware acquisition이 활발한 연구 주제다.
Causal vs. correlative discovery. SDL이 발견하는 것이 진짜 인과인지, 아니면 surrogate model이 만든 artifact인지 검증할 framework가 부족하다.
[[biorisk]] governance. Dual-use research of concern 영역에서 자율 시스템의 정책 레이어를 어떻게 검증·인증할지에 대한 표준이 미성숙하다. 일부 [[frontier-model]] 개발사는 [[research-preview]] 단계에서 pathogen-related task를 거부하도록 fine-tune하고 있지만, 평가 프로토콜은 합의되지 않았다.
사람 개입의 정의. "human-in-the-loop"이 명목상이 되지 않으려면 어느 결정 노드에서 어떤 정보를 사람에게 보일지의 UX 설계가 결정적이다. 잘못 설계된 게이트는 자동화 효율도 깎고 안전성도 보장하지 못한다.
장기 메모리. 라운드를 거듭할수록 누적 데이터가 LLM planner의 context를 넘는다. RAG·구조화된 lab notebook의 결합이 사실상 필수가 되고 있다.

이 용어를 언급한 기사

OpenAI, 생명과학 추론 모델 'GPT-Rosalind' 공개