OpenAI가 6월 17일 공개한 LifeSciBench는 173명의 PhD 과학자가 작성한 750개 자유응답 과제로, 19,020개의 atomic 루브릭으로 채점된다. GPT-Rosalind 36.1%, gpt-5-5 25.7%, Gemini 3.1 Pro 23.6%, Grok 4.3 13.0% — 그리고 Claude는 비교군에 없다.

한눈에자유응답 750과제, atomic rubric 19,020개로 채점 (과제당 평균 25개)GPT-Rosalind 통과율 36.1% > GPT-5.5 25.7% > Gemini 3.1 Pro 23.6%artifact가 붙으면 GPT-Rosalind 통과율이 45.1% → 28.1%로 17%p 급락

실무자: 도메인 특화 frontier-model 평가를 어떻게 설계해야 하는지의 한 사례이자, 자사 RAG·에이전트 파이프라인 평가에 곧장 참고할 만한 분해 방식이다. 리더: 생명과학 AI 도입 ROI 추정의 첫 정량 근거가 나왔다 — 단, 자기 평가 편향과 Claude 누락은 의사결정 시 보정 필요.

2026년 6월 17일 OpenAILifeSciBench를 공개했다. 6월 3일 발표된 gpt-rosalind 업그레이드(GPT-5.5 에이전트 코딩 기능 + 의약화학·유전체학 강화, 토큰 31% 절감)와 한 묶음으로 묶이는 후속 평가 인프라다.

LifeSciBench 발표 이미지

이미지: LifeSciBench 발표 그래픽, 출처: @OpenAI on X

무엇이 일어났나

@OpenAI는 750개 expert-authored 과제와 함께 5개 모델의 점수표를 공개했다. 평가는 인터넷 접근을 허용한 single-turn 자유응답이며, 객관식이 아니다. 79%의 과제가 multi-step reasoning(평균 4단계), 53%가 부속 자료를 동반한다.

과제 제작 파이프라인이 핵심이다: PhD 보유 + 산업 경력 2년 이상의 현역 과학자 173명이 자작, 이후 별도의 PhD 비율 97%인 외부 리뷰어 453명이 검증, 과제당 평균 6회 자동 리뷰 + 최소 2회 전문가 평가. 채점은 과제당 평균 25개, 총 19,020개의 atomic rubric으로 이뤄진다 — 각 rubric은 "특정 사실 언급", "특정 추론 단계 수행", "허용오차 내 수치 답" 같은 구체 속성에 점수를 배정한다 (MarkTechPost).

숫자로 보기

모델 정규화 rubric 점수 과제 통과율(≥70%)
GPT-Rosalind 0.576 36.1%
GPT-5.5 0.519 25.7%
Gemini 3.1 Pro 0.515 23.6%
GPT-5.4 0.479 20.7%
Grok 4.3 0.399 13.0%
  • GPT-Rosalind는 750개 중 386개 과제에서 최고 평균 점수
  • 어떤 모델도 통과 못한 과제 171개 (22.8%)
  • 최고 모델조차 통과율 20% 미만인 과제 261개 (34.8%)
  • 수치형 답 과제 통과율 14.8%
  • 가장 어려운 "설계·최적화·예측" 워크플로 최고 통과율 30.7%

왜 중요한가

실무자 관점에서 가져갈 시사점은 셋이다.

1) 평가 설계 패턴. atomic rubric × free-response × multi-step의 조합은 자사 도메인 LLM 평가에 그대로 이식 가능한 템플릿이다. 객관식 evals(MMLU 스타일)에서 벗어나려는 팀은 LifeSciBench의 과제 구조를 "7워크플로 × 7도메인 × N artifact" 매트릭스로 일반화해 참고할 만하다.

2) artifact 처리가 진짜 병목. GPT-Rosalind도 텍스트만 주어지면 45.1% 통과하지만 시퀀스·구조 파일 등 artifact가 붙는 순간 28.1%로 떨어진다 (Labcritics). 자사 RAG/툴 사용 파이프라인에서 "파일 첨부 시 정확도 하락"을 측정하지 않고 있다면 지금이 베이스라인 확보 시점이다.

3) 도메인 특화 모델의 우위 수치화. GPT-Rosalind가 GPT-5.5 대비 +10.4%p 통과율 우위 — 도메인 SFT/RL이 frontier-model 위에 얹혔을 때 얼마나 가져갈 수 있는지의 한 데이터 포인트다.

누가 이득, 누가 손해

이득: GPT-Rosalind "trusted-access" 파트너 (현재 공개된 첫 파트너는 노보 노디스크). OpenAI의 api 영업 라인 — 정량 근거가 생겼다.

손해: Anthropic — Claude가 비교군에서 빠진 채로 "OpenAI 시험에서 OpenAI 1등" 내러티브가 굳어지는 중. 또한 도메인 특화 작업 없이 base GPT-5.5/Gemini로 자체 솔루션을 만들던 바이오 AI 스타트업들 — 베이스 모델 통과율 20%대는 영업 자료의 신뢰성을 깎는다.

더 깊이

LifeSciBench는 기존 bixbench·LAB-Bench·BiomniBench 라인업의 단점을 명시적으로 노린다 (Labcritics). LAB-Bench는 2,457개의 객관식으로 고립된 능력 평가, BixBench는 에이전트 환경이지만 좁은 도메인 — LifeSciBench는 "7워크플로 × 자유응답 × atomic rubric"으로 평가 표면을 넓혔다.

예시 과제 하나: 유전자 치료제 임상 데이터 패키지를 "회의적 규제기관" 시각으로 항목별 압박하기. 모델은 항체 에피토프 식별, construct 정량화 이슈, 대조군 confound까지 짚어내야 한다 — 시니어 translational researcher 업무의 모사다.

채점의 atomic 구조 덕에 "GPT-Rosalind가 어디서 점수를 더 땄나"를 워크플로 단위로 분해할 수 있다는 점도 평가 인프라로서 매력적이다. 단, 데이터셋 자체는 비공개 — OpenAI는 "safety and licensing" 이유를 든다.

아직 알 수 없는 것

  • 인간 baseline 미공개: 36.1%가 PhD baseline 대비 어디쯤인지 불명 (Slashdot 토론).
  • Claude 누락: Anthropic이 의료·생명과학에서 활발히 쓰이는 만큼 공정성 의문 (Labcritics).
  • 비용/시간 미공개: 과제당 토큰·달러·wall-clock 미보고 — ROI 추정 불가.
  • Single-turn 한계: 실제 연구는 iterative + tool-use + wet-lab feedback loop. agentic-ai 환경으로 확장 시 순위 유지 여부 불확실.
  • 재현 불가: 데이터셋 비공개라 제3자 검증 불가, 학계 표준화 어려움.

5분 실습 (실무자 · 5분)

OpenAI 발표 페이지에 공개된 견본 과제로 자사 모델 stack 미니 비교:

  1. 견본 과제 텍스트 + 첨부 artifact 메타데이터를 추출.
  2. 동일 system prompt + temperature=0으로 자사 후보 모델(예: GPT-5.5, Claude, Gemini)에 자유응답 요청.
  3. 발표에 명시된 rubric 항목 중 atomic하게 검증 가능한 것 (예: "특정 epitope를 언급했는가")을 5-10개 직접 작성, 응답을 0/1 채점.
  4. 결과를 워크플로 단위로 묶어 자사 use case와 매칭 — 특히 artifact 첨부 시 점수 변화에 주목.

더 읽어보기