OpenAI가 4월 16일 gpt-rosalind라는 새 모델을 공개했다. 생물학·신약 개발·중개의학 연구를 돕도록 만들어진 '추론 특화' 모델로, DNA 이중나선 구조를 밝히는 데 결정적 역할을 한 영국 과학자 rosalind-franklin의 이름에서 따왔다. 오늘부터 Amgen, Moderna, Allen Institute, Thermo Fisher Scientific 같은 자격을 갖춘 고객사가 ChatGPT, Codex, API를 통해 research-preview 형태로 써볼 수 있다.
이미지: GPT-Rosalind 발표 영상, 출처: @OpenAI on X
무엇이 일어났나
@OpenAI는 GPT-Rosalind를 "생물학, 신약 개발, 중개의학 연구를 위한 frontier-model 추론 모델"이라고 소개했다. 단백질과 화학 추론, genomics 분석, 생화학 지식, 그리고 과학 도구를 다루는 능력을 강화한 시리즈의 첫 모델이다.
출시와 함께 OpenAI는 자사 팟캐스트도 공개했다. 연구 책임자 Joy Jiao와 제품 책임자 Yunyun Wang이 호스트 Andrew Mayne과 함께, 이 모델을 어떻게 만들었고 autonomous-lab(스스로 실험을 수행하는 자동화 실험실)을 향한 길에서 어떤 책임이 따르는지 이야기한다.
왜 중요한가
미국에서 새 약 하나가 나오기까지 보통 10~15년이 걸린다. OpenAI는 발표문에서 "가장 이른 단계의 진전이 하류 단계로 누적된다"고 설명했다 — 더 좋은 표적을 고르고, 더 강한 가설을 세우고, 더 잘 설계된 실험을 하면 그 효과가 신약 개발 전 과정에 쌓인다는 뜻이다.
과학자들은 매일같이 방대한 논문, 전용 데이터베이스, 실험 결과, 끊임없이 바뀌는 가설 사이를 오간다. 이 작업은 시간이 많이 들고, 도구가 흩어져 있고, 사람을 더 투입해도 잘 빨라지지 않는다. AI가 이 "연구 작업 흐름" 자체를 좀 거들어주면, 연구자가 같은 시간에 더 많은 가능성을 살펴보고 더 빨리 좋은 가설에 도달할 수 있다는 것이 OpenAI의 주장이다.
더 깊이
OpenAI는 GPT-Rosalind를 두 갈래로 평가했다. 첫째, 실제 생물정보학 작업으로 구성된 공개 bixbench 벤치마크에서 "공개된 점수를 가진 모델들 가운데 가장 앞섰다"고 밝혔다. 둘째, 문헌 검색·데이터베이스 접근·서열 조작·프로토콜 설계 등 11개 과제로 이뤄진 labbench2에서는 11개 중 6개에서 GPT-5.4를 앞섰고, 분자 클로닝용 DNA·효소 시약을 처음부터 끝까지 설계하는 CloningQA에서 가장 큰 향상이 있었다.
흥미로운 외부 검증은 AI 기반 유전자 치료 회사 Dyno Therapeutics와 함께 진행됐다. 외부에 공개된 적 없는 RNA 서열 데이터로 "서열에서 기능을 예측·생성"하는 과제를 풀었고, 인간 전문가 57명의 과거 점수와 비교해 예측 과제는 95퍼센타일 위, 생성 과제는 약 84퍼센타일 수준이었다.
OpenAI는 또 GitHub에 Life Sciences research plugin을 공개했다. Codex에서 50개 이상의 multi-omics 데이터베이스와 생물학 도구에 연결되는 모듈식 "스킬" 묶음으로, GPT-Rosalind 없이 일반 모델과도 함께 쓸 수 있다.
아직 알 수 없는 것
GPT-Rosalind는 일반 사용자에게 열린 모델이 아니다. 미국 내 "신뢰 접근" 프로그램을 통과한 기업만 쓸 수 있고, 이는 biorisk(생물학적 오용 위험)에 대한 안전장치 때문이다. 어떤 평가 기준으로 자격을 부여하는지, 모델이 위험한 생물학 질문을 얼마나 잘 거절하는지에 대한 구체적 수치는 아직 공개되지 않았다. 팟캐스트에서 9분 48초~15분 43초 구간이 "바이오리스크, 접근, 안전장치"를 다루지만, 발표문 자체는 "강한 안전장치"라는 표현 이상으로는 들어가지 않는다.
또 하나, OpenAI가 인용한 BixBench·LABBench2 결과는 자체 평가다. 같은 조건에서 다른 회사의 모델과 통제된 비교를 한 외부 벤치마크 결과는 아직 없다.
5분 실습
자격이 없는 일반 독자라면 모델 자체는 못 쓰지만, 같은 워크플로의 분위기는 맛볼 수 있다. ① ChatGPT(또는 Claude)에 "인간 BRCA1 유전자 변이가 유방암 위험에 미치는 영향"을 물어보고, ② 답변에서 인용된 논문·DB(예: ClinVar) 이름을 메모한 뒤, ③ 직접 ClinVar에 들어가 같은 변이를 검색해 모델 답변과 대조한다. ④ 일치 여부, 모델이 놓친 최신 논문, 모델이 더해준 "연결"을 분류해본다.