LABBench2

Developed by	FutureHouse
Type	Benchmark
Aliases	LAB-Bench 2, labbench2
Related	GPT-Rosalind, BixBench, 자율 실험실, 프론티어 모델, 추론 모델

무엇인가

LABBench2는 인공지능이 생명과학 연구실에서 일어나는 일들을 얼마나 잘 처리할 수 있는지 측정하기 위해 만들어진 시험지다. 시험 문항은 모두 11개로, 논문 찾기, 데이터베이스에서 정보 끌어오기, DNA 서열 다듬기, 실험 절차 설계하기처럼 실제 연구원이 매일 마주하는 일들로 구성된다.

왜 이런 시험이 필요한가

연구원이 하는 일은 단순히 답을 외우는 것이 아니다. 어떤 도구를 쓸지 정하고, 흩어진 정보를 모으고, 단계별로 계획을 세워야 한다. 이 모든 능력을 한꺼번에 평가하려면 단순 지식 퀴즈로는 부족하다. LABBench2는 [[autonomous-lab]] 같은 자율 실험 시스템 시대를 앞두고, AI가 사람 연구원을 보조하거나 일부 작업을 대신할 수 있는지 종합적으로 점검하기 위해 등장했다.

어떤 문제가 들어 있나

대표적인 과제 중 하나가 CloningQA다. 어떤 유전자를 다른 생물의 세포에 옮기려면 여러 단계를 거쳐야 하는데, 이 과정 전체를 처음부터 끝까지 설계할 수 있는지 묻는다. 이외에도 [[multi-omics]] 데이터 해석, [[genomics]] 분석 워크플로 구성 같은 과제가 포함된다.

누가 쓰는가

요즘 [[frontier-model]] 평가 보고서에는 LABBench2 점수가 자주 등장한다. 예컨대 OpenAI는 [[gpt-rosalind]]를 공개하면서 11개 과제 중 6개에서 GPT-5.4를 앞선다고 발표했다. 비슷한 결의 벤치마크인 [[bixbench]]와 함께 거론되는 일이 많다.

점수를 어떻게 읽어야 하나

LABBench2 점수를 볼 때는 단순히 몇 점인지보다 어떤 종류의 과제에서 강하고 약한지를 살피는 게 중요하다. 어떤 모델은 문헌 검색은 잘하지만 도구 호출이 약하고, 어떤 모델은 그 반대다. 이 패턴이 실제 연구실에서 모델을 어디에 배치할지 결정하는 단서가 된다.

개요

LABBench2는 [[reasoning-model]]을 비롯한 LLM 기반 에이전트가 생명과학 연구 워크플로를 수행하는 능력을 평가하는 벤치마크다. 단일 정답을 묻는 QA에 머물지 않고, 외부 도구·데이터베이스·서열 분석 라이브러리와의 통합을 전제로 한 11개 task를 포함한다.

Task 구성

11개 과제는 대체로 다음 카테고리로 분류된다.

정보 retrieval

논문·프리프린트 검색과 핵심 결론 추출
단백질·유전자 데이터베이스 조회 (UniProt, NCBI 등)

서열·구조 조작

DNA·RNA 서열 편집, 프라이머 설계
단백질 구조 예측 결과 해석

실험 설계

프로토콜 작성과 시약 선정
CloningQA: 분자 클로닝 end-to-end 설계 (벡터 선정·제한효소 자르기·라이게이션·검증 단계 포함)

도구 호출 패턴

대부분의 과제는 [[mcp-protocol]] 또는 [[langchain]] 스타일 tool-calling 환경을 가정한다. 평가 하네스가 모델에 BLAST, 문헌 검색 API, 서열 조작 라이브러리 같은 함수를 노출하고, 호출 횟수·정확도·계획의 일관성을 함께 측정한다. 따라서 reasoning trace가 길어지는 모델에 유리하지만, 무한정 호출을 허용하지 않으므로 token budget 관리도 점수에 영향을 준다.

결과 해석 시 유의점

task별 편차가 크다. 평균보다 task-level breakdown을 봐야 한다.
데이터셋 컨태미네이션 우려가 있는 task(공개 논문 기반 retrieval)는 frontier 모델이 일관되게 높다.
CloningQA처럼 다단계 plan을 요구하는 과제는 단순 RAG로는 점수가 오르지 않는다.

활용

내부 모델 평가 시 LABBench2를 [[bixbench]]와 함께 묶어 retrieval·planning·tool-use 세 축을 동시에 점검하는 패턴이 흔하다. 신약 개발 파트너십 검토 단계의 [[research-preview]] 모델에는 이 점수가 PR 자료의 근거로 자주 쓰인다.

개요

LABBench2는 FutureHouse가 제안한 LAB-Bench의 후속 벤치마크로, life-sciences research workflow 전반을 평가한다. 1세대 LAB-Bench가 단일 task당 단답식 QA에 가까웠다면, LABBench2는 multi-turn tool-use와 planning이 결합된 11개 task를 포함하여 retrieval-augmented agent의 종합 능력을 측정한다.

평가 축

Retrieval

문헌·DB 기반 retrieval task는 단순 vector search로는 충분하지 않다. PubMed·bioRxiv·UniProt 등 이질적 소스에서 evidence chain을 구성해야 하므로 multi-hop reasoning과 source attribution이 함께 요구된다.

Tool-use

BLAST, ClustalW 같은 분석 함수와 사내 ELN(Electronic Lab Notebook) 류 API를 callable로 노출한다. 모델은 schema에 맞춰 함수를 호출하고, 결과 객체를 다음 step의 입력으로 정합성 있게 연결해야 한다. 호출 정확도(precision/recall of tool selection)와 chain validity가 함께 채점된다.

Planning

CloningQA가 대표적 planning task다. 목표 단백질 발현을 위해 vector backbone, restriction enzyme pair, ligation strategy, transformation host, validation assay까지 순차적·조건부 결정을 요구한다. 채점은 단계별 결정의 합리성과 최종 protocol의 실행 가능성으로 이루어진다.

1세대 LAB-Bench와의 차이

| 축 | LAB-Bench | LABBench2 | | --- | --- | --- | | 형식 | 주로 단답·객관식 QA | tool-augmented multi-turn | | 도구 통합 | 제한적 | 11 task 중 다수가 도구 의존 | | Planning | 단계 추론 일부 | end-to-end 설계 task 포함 |

보고된 결과

OpenAI가 [[gpt-rosalind]] 발표에서 인용한 수치에 따르면 GPT-Rosalind는 11개 task 중 6개에서 GPT-5.4를 앞섰다. 우위가 두드러진 영역은 multi-step planning과 도구 출력 해석이고, 단순 retrieval은 격차가 작았다. 이는 [[reasoning-model]] 계열이 inference-time compute를 늘릴수록 planning task에서 한계 효용이 크다는 기존 관찰과 일치한다.

한계

Contamination: 공개 논문 기반 retrieval task는 사전 학습 코퍼스 누출 가능성이 있다.
Tool stub의 단순화: 실제 wet-lab 변동성(시약 lot 차이, 실패 모드)은 반영되지 않는다.
Biorisk 회피의 평가 부재: [[biorisk]] 관련 거부·완화 행동은 별도 axis로 측정되지 않으므로, capability 점수만으로 배포 안전성을 추론하면 안 된다.
Reproducibility: tool API 버전이 바뀌면 점수가 흔들린다. 평가 시점 명시가 필수다.

후속 연구의 방향

LABBench2의 다음 단계는 [[autonomous-lab]] 시뮬레이터와의 결합으로 추정된다. CloningQA가 평가하는 plan을 실제 로봇 실행 시뮬레이션에 연결하면 planning과 execution을 one loop로 묶어 평가할 수 있다. 이때 [[multi-omics]] 데이터 통합처럼 더 넓은 입력 modality를 다루는 task가 추가될 가능성이 높다.

이 용어를 언급한 기사

OpenAI, 생명과학 추론 모델 'GPT-Rosalind' 공개