BixBench

Type	Benchmark
Aliases	bixbench
Related	GPT-Rosalind, LABBench2, 추론 모델, 프론티어 모델, 유전체학

무엇인가

BixBench는 AI 모델이 실제 생물정보학(bioinformatics) 분석 과제를 얼마나 잘 푸는지 측정하는 공개 시험지다. 사람이 외워서 푸는 객관식 시험이 아니라, 진짜 연구자가 매일 다루는 유전체 데이터·발현 데이터·단백질 정보 같은 자료를 컴퓨터가 직접 읽고 분석해서 답을 내놓아야 한다.

왜 만들어졌나

생명과학 연구는 데이터가 너무 많아서 한 사람이 다 보기 어렵다. 유전체 한 번 분석하려면 수십 GB짜리 파일을 다루고 여러 도구를 차례로 돌려야 한다. 만약 AI가 이 일을 도와줄 수 있다면 신약 개발이나 [[genomics]] 연구가 훨씬 빨라진다. 그런데 "AI가 정말 잘하나?"를 비교하려면 모두가 같은 시험지를 봐야 한다. BixBench가 바로 그 공통 시험지 역할을 한다.

어떤 문제가 들어 있나

실제 연구 시나리오를 그대로 옮긴 과제들이다. 예를 들면:

환자 유전체에서 특정 변이를 찾아라
두 세포 집단의 발현 차이를 분석해 의미 있는 유전자를 골라라
공개 데이터베이스에서 자료를 받아 그래프를 그려라

단순한 "지식 문제"가 아니라 "코드를 짜서 실제로 분석한 결과"가 필요하다.

어떻게 채점하나

모델이 답에 도달할 때까지의 모든 단계를 본다. 어떤 도구를 골랐는지, 코드가 제대로 돌아갔는지, 마지막 숫자가 정답과 맞는지를 모두 점검한다. 한 번에 정답을 맞히는 게 아니라 여러 단계를 거쳐야 하기 때문에, 차근차근 생각하는 능력이 강한 [[reasoning-model]] 계열이 유리하다.

누가 쓰는가

2026년 4월 OpenAI가 생명과학 추론 모델 [[gpt-rosalind]]를 공개하면서 BixBench를 주요 평가 무대로 들었다. "공개 점수가 가장 높다"는 설명에 BixBench 결과가 인용됐다. 새 [[frontier-model]]이 발표될 때마다 "생명과학에서 얼마나 쓸 만한가"를 보여주는 표준 척도로 자리를 잡고 있다.

한계

시험지가 한 번 공개되면 답이 인터넷에 흘러가 모델이 미리 외워버릴 위험(데이터 오염)이 따라온다. 또 실제 연구실의 일은 시험지 한 장보다 훨씬 복잡하다. BixBench 점수가 높다고 해서 곧바로 진짜 실험을 맡길 수 있다는 뜻은 아니다. 어디까지나 "표준 시험에서의 능력"을 비교하기 위한 도구로 봐야 한다.

개요

BixBench는 실세계 bioinformatics 워크플로를 평가 단위로 삼는 공개 벤치마크다. 단답형 QA가 아니라 "데이터 받기 → 도구 호출 → 코드 실행 → 결과 해석"의 multi-step 파이프라인을 한 task로 묶는다. 평가 대상은 모델 단독이 아니라 도구를 쓸 수 있는 agent 형태다.

과제 구성

주요 과제 유형:

유전체 변이 분석 (variant calling, annotation)
RNA-seq 발현 분석 (DEG 추출, pathway enrichment)
단백질 구조·서열 비교
공개 DB(NCBI, Ensembl, UCSC 등) 쿼리와 후처리

각 과제는 입력 파일과 기대 출력 형식이 명세되어 있고, 모델은 셸·파이썬·R 환경에서 자유롭게 도구를 골라 실행한다.

실행 환경

평가는 대개 컨테이너 또는 sandbox 안에서 돈다. 호출 가능한 외부 도구는 BLAST, samtools, bcftools, GATK, scanpy 같은 표준 라이브러리. tool calling은 [[mcp-protocol]] 또는 [[langchain]] 스타일 agent 프레임워크로 감싸 평가하는 경우가 많다.

채점 방식

end-to-end 정답률: 최종 답이 정답 셋에 들어가는가
단계별 부분 점수: 중간 산출물(중간 파일·통계치)의 일치도
실패 모드 분류: 도구 선택 오류 / 코드 오류 / 해석 오류

이 다층 채점 덕에 "정답은 맞췄지만 잘못된 도구를 썼다" 같은 케이스를 골라낼 수 있다.

활용 패턴

실무에서 BixBench를 보는 두 시나리오:

모델 선택: 사내 bioinformatics 자동화 파이프라인에 어떤 LLM을 쓸지 결정할 때 1차 필터로 사용한다.
에이전트 회귀 테스트: 자체 [[autonomous-lab]] 에이전트의 성능 회귀를 잡기 위해 BixBench 일부를 CI에 끼워 넣는다.

OpenAI는 2026-04-16 [[gpt-rosalind]] 공개에서 BixBench를 "공개 점수 1위" 근거로 들었다. 다만 모델사 자체 보고이므로 third-party 재현 결과를 함께 확인하는 게 안전하다.

주의점

데이터 오염: 학습 코퍼스에 BixBench 일부가 들어갔을 가능성을 점검해야 한다. 모델사가 decontamination 절차를 명시했는지 확인.
버전 관리: 벤치마크가 갱신될 때마다 점수 비교가 어그러진다. 보고서에 BixBench 버전·커밋 해시를 명기.
biosafety 영역: [[biorisk]] 관련 task는 별도 정책으로 분리·마스킹되는 경우가 있어, 점수만 보고 "범용 능력"이라 단정하기 어렵다.
도구 풀 의존성: 호출 가능 도구 셋이 다르면 점수 비교가 무의미해진다. 평가 환경 명세를 함께 보존.

동기와 위치

BixBench는 LLM 기반 agent의 과학 연구 능력을 측정하기 위한 evaluation suite 가운데 하나다. 텍스트 QA 중심의 MMLU·PubMedQA, 그리고 wet-lab 지식을 강조한 [[labbench2]] 같은 선행 벤치마크와 달리, BixBench는 end-to-end 실행 능력을 핵심 측정 대상으로 한다. 즉 모델이 자연어 지시를 받아 도구를 선택하고, 코드를 작성·실행하며, 산출물을 해석해 최종 답을 내는 전 과정을 단일 score 안에 압축한다.

Task 형식

각 item은 (자연어 지시, 입력 데이터, 기대 산출, 평가 함수)의 4-tuple로 정의된다. 입력 데이터는 FASTQ, BAM, VCF, h5ad 같은 표준 bioinformatics 포맷이며, 일부 task는 외부 DB API 호출을 요구한다. 모델은 sandboxed 환경에서 다음을 수행한다.

작업 분해 (planning)
도구·라이브러리 선정 (tool routing)
코드 합성 및 실행 (code synthesis & execution)
결과 검증과 서술 (verification & narrative)

평가 함수는 numerical equality, set overlap (예: 상위 DEG의 Jaccard), structural match (그래프 동형성·트리 구조 비교) 등 task별로 정의된다.

메트릭과 통계

주요 지표:

task pass rate: $p = \frac{1}{N}\sum_i \mathbb{1}[\text{eval}_i(\hat{y}_i)=1]$
partial credit: 단계별 점수의 가중합
tool-call efficiency: 정답 도달까지 호출한 도구 수
failure taxonomy: planning vs. execution vs. interpretation 오류 비율

작은 N(수백 규모) 때문에 신뢰구간이 넓다. Wilson score interval 또는 bootstrap CI를 함께 보고하는 것이 표준이다.

Contamination

공개 벤치마크가 공통으로 안고 있는 문제다. (a) 과제 텍스트와 입력 파일이 공개 저장소에 노출됐을 가능성, (b) 모델 학습 코퍼스에 동일 풀이 코드가 포함됐을 가능성을 분리해 다뤄야 한다. 권장 절차:

canary string을 task 텍스트에 삽입해 누출 여부 검증
held-out variant set과 공개본의 점수 차로 contamination magnitude 추정
decontamination 보고서를 모델 카드에 첨부

재현성

sandbox 이미지의 OS·BLAST 버전·reference genome 버전이 점수에 직접 영향을 준다. 따라서 평가 시 다음을 고정·기록해야 한다.

컨테이너 이미지 hash
reference assembly (예: GRCh38.p14)
도구 버전 (samtools 1.20, GATK 4.5 등)
random seed 와 sampling temperature

한계와 비판

scope 편향: 공개 데이터 기반이라 임상·기밀 데이터 task는 사실상 빠져 있다. 실제 [[autonomous-lab]] 환경의 분포와는 다르다.
tool 선택 편의: 가용 도구 집합이 점수에 민감하게 영향을 준다. 도구 풀이 다르면 비교가 무의미해질 수 있다.
judge 의존: 평가 일부가 LLM judge를 사용할 때, 평가자-피평가자가 같은 모델 family이면 점수가 부풀려진다는 보고가 누적되고 있다.
biosafety 게이팅: [[biorisk]] 시나리오는 별도 처리되어, "전체 능력" 추정에 누락이 생긴다.

위치적 의의

BixBench는 [[reasoning-model]] 평가 트렌드 — "단답 정답률"에서 "실행 트레이스 정합성"으로 이동하는 흐름의 대표 사례다. OpenAI가 [[gpt-rosalind]] 공개(2026-04-16) 시 인용했고, 후속 [[frontier-model]] 발표에서도 표준 비교축이 될 가능성이 크다. 다만 위 한계 때문에 BixBench 단독 점수보다 [[multi-omics]] 특화 벤치마크와 묶어 보는 multi-bench 전략이 권장된다.

이 용어를 언급한 기사

OpenAI, 생명과학 추론 모델 'GPT-Rosalind' 공개