OpenAI의 추론형 에이전트 o3 Deep Research가 보스턴 어린이병원·하버드와 공동 진행한 NEJM AI 연구에서, 이미 전문가가 풀지 못한 376건의 희귀 소아질환 사례를 재분석해 18건(4.8%)의 새 확정 진단을 만들어냈다.

한눈에추론형 LLM이 whole-exome-sequencing 변이 테이블 + human-phenotype-ontology 표현형 + 임상 노트를 인과 가설로 종합.모든 후보 변이는 임상유전 전문가 2명 이상의 acmg-amp-classification 재평가 + clia-certified-lab 확인 검사로 검증.추가 진단 수율 4.8%는 "이미 한 차례 이상 손을 떼인 케이스"에 대한 수치 — 단순 first-pass 진단율과 직접 비교 불가.

실무자: 기존 variant-prioritization 파이프라인 위에 "설명-우선" 추론 계층을 얹는 워크플로의 첫 임상 실증. 리더: 검증된 의료 LLM 도입의 진입점이 "챗봇 보조"에서 "인증 임상 워크플로"로 이동했다.

이미지: OpenAI 공식 연구 발표 영상, 출처: @OpenAI on X

OpenAI가 2026년 6월 18일 공식 블로그와 X 스레드를 통해 발표한 NEJM AI 게재 논문은, 추론형 reasoning-model의 의료 응용 가운데 가장 구체적인 임상 실증 중 하나다. 단순 벤치마크가 아니라 "실제 환자, 실제 가족, 실제 변이 보고"의 형태로 결과가 나왔다는 점이 핵심이다.

무엇이 일어났나

@OpenAI 계정은 "보스턴 어린이병원과 하버드 연구자들과 함께 NEJM AI에 게재했다"고 발표했다. 같은 스레드에서 OpenAI는 워크플로를 다음과 같이 설명했다 — 시퀀싱은 환자 한 명당 수백만 개 변이를 만들고, 의학 지식은 매년 갱신된다. o3 Deep Research는 "임상 특징·유전 양식·변이 근거·과학 문헌을 묶어 전문가가 검토할 가설을 만드는" 역할을 했고, 모든 결과는 "인간 판정과 임상 확인"을 거쳤다.

OpenAI 공동창업자 @gdb(Greg Brockman)는 "376건의 미진단 사례에서 18개의 새 진단"이라는 수치와 함께 Kyra Benton의 사례를 공유했다. 그녀는 9세에 myofibrillar-myopathy의 초기 증상을 보였고, 28번째 생일 직전 HSPB8 frameshift 변이가 원인으로 확정됐다.

숫자로 보기

  • 재분석 코호트: 376건, 모두 만턴 센터의 미진단 큐레이션 데이터셋
  • 새 확정 진단: 18건 = 4.8% 추가 진단 수율
  • 카테고리: 신경발달질환 10 · 신경근육 4 · 소아 돌연사(SUDP) 2 · 조기 발병 정신증 2
  • 검증: 임상유전 전문가 2명 이상 독립 재평가 + ACMG/AMP pathogenic/likely pathogenic 등급 + CLIA 직교 확인
  • 입력 패킷: HPO 표현형 + 임상 노트 + 필터링된 변이 테이블 (희소성·예상 단백질 효과·ClinVar 분류 포함)

왜 중요한가

현장 워크플로 관점에서 이 결과가 의미하는 바는 세 가지다.

첫째, "이미 풀지 못한 케이스"에 대한 추가 수율 4.8%라는 수치는 1차 진단 워크플로와 직접 비교할 수 없는 별개의 가치다. 임상유전 클리닉의 표준 periodic-reanalysis 사이클은 보통 2~3년 간격이고, 그조차도 인력 부족으로 실제로는 잘 돌아가지 않는다. 모델이 "옛 케이스 × 새 논문"의 조합을 자동으로 따라간다면 그 사이클을 분기·월 단위로 압축할 잠재력이 있다.

둘째, 출력 형태가 점수가 아니라 "인용 달린 가설"이라는 점. 기존 변이 우선순위 도구(CADD, REVEL, SpliceAI 등)는 점수만 제공하지 "왜"를 말하지 않는다. o3 Deep Research는 "이 환자의 X 표현형은 Y 유전자의 Z 변이가 만드는 단백질 응집 결함으로 설명 가능하며, 이는 2024년 발표된 논문 A와 일치한다"는 형태의 자연어 근거를 제출한다. 임상의는 그 인용을 직접 따라갈 수 있고, 가짜 인용은 검증 단계에서 걸러낼 수 있다.

셋째, 인간 검증의 위상이 명확하다. 모델은 진단을 내리지 않았다. 임상유전 전문가 2명 이상이 ACMG/AMP 5단계 체계로 재평가하고, pathogenic 또는 likely pathogenic으로 등급화된 경우에만 CLIA 인증 검사실의 직교 검증(Sanger 등)으로 이어졌다. 결과 회신은 그 다음이다. 이 "모델 → 전문가 → 인증 검사실"의 3단 검증 구조가 NEJM AI라는 임상 저널의 게재를 가능하게 한 핵심이다.

누가 이득, 누가 손해

이득: ① 진단을 기다리는 환자 가족 — 평균 진단 여정이 짧아질 잠재력. ② 임상유전 인력이 부족한 중소 병원 — 전문가 1명의 처리 용량이 효과적으로 확장. ③ 진단 키트·확인 검사 회사 — 모델이 만든 가설을 확인하는 직교 검사 수요는 늘어난다. ④ 환자 등록 기반 신약 개발 — 진단된 환자 수가 늘면 코호트 모집이 빨라진다.

손해: ① 검증 없는 'AI 자가진단' 서비스의 위험은 커진다 — OpenAI 자신이 "소비자 진단 도구가 아니다"라고 명시했지만 시장이 그 선을 지킨다는 보장은 없다. ② 종래의 변이 점수 기반 도구만 제공하던 벤더는 "설명 가능한 가설" 기능을 따라잡지 못하면 차별성을 잃는다. ③ 임상유전 전문 인력의 단가는 단기적으로 영향을 덜 받지만, 장기적으로 "가설 검토자" 역할로 워크플로가 재정의될 가능성이 있다.

더 깊이

기술적으로 o3 Deep Research는 OpenAI의 o3 추론 모델 위에 다단계 검색·문헌 종합 에이전트 모드를 얹은 시스템이다. Dataconomy 분석glenrhodes.com이 공통적으로 짚는 차별점은 "모델이 마지막 결정을 내리지 않았고, 사람 연구자가 수 주에 걸쳐 해낼 문헌 종합을 체계적·완전 탐색 방식으로 대신 해줬을 뿐"이라는 점이다.

입력 패킷의 표준화도 의미 있는 디테일이다. HPO는 임상 표현형의 표준 어휘로, 7만 개 이상의 표준 용어로 "근력 약화", "호흡곤란" 같은 임상 양상을 코드화한다. 이 표준 어휘로 입력을 정리해 두면 모델은 "환자 A의 HPO term이 질환 B의 표준 표현형 프로파일과 얼마나 겹치는가"를 따져 볼 수 있다. 변이 테이블은 보통 GATK·DeepVariant 파이프라인을 거쳐 gnomAD 기반 인구빈도 필터링, ClinVar 사전등록 검색, in silico 효과 예측이 붙은 형태로 입력된다.

출력 검증의 ACMG/AMP 5단계는 임상유전학에서 변이 해석의 사실상 표준이다. pathogenic / likely pathogenic / VUS / likely benign / benign 5단계 중 임상적으로 회신 가능한 등급은 위 두 단계뿐이며, 그 분류 자체가 인구빈도·기능 연구·세그리게이션·in silico 예측 등 28개 기준의 가중합이다. o3 Deep Research의 후보 변이는 이 분류 작업의 입력이 되었지, 분류 결과 자체를 산출하지는 않았다.

아직 알 수 없는 것

CLP Magazine이 인용한 만턴 센터장 Alan Beggs의 단서는 명확하다: "다기관·전향적 비교 연구로 LLM 보조 재분석을 표준 진료와 비교해야 하며, 버전 관리된 프롬프트, 참고문헌 점검, 감사 로그, 교정된 불확실성 표시가 필수"다. 즉 이번 결과는 개념증명(proof of concept)이지 임상 도입 권고가 아니다.

구체적으로 빠진 수치:

  • 위양성률: 18건의 확정 진단을 만들기까지 모델이 얼마나 많은 후보를 띄웠고, 그중 ACMG/AMP 재평가에서 탈락한 비율은 얼마인가? 검증 인력의 시간 비용을 평가하려면 이 수치가 필요하다.
  • 인용 정확도: 모델이 인용한 논문 중 실제 존재하고 주장과 일치한 비율은? 의료 LLM의 통상적 약점이다.
  • 단일 기관 편향: 보스턴 어린이병원의 큐레이션 데이터는 다른 기관의 raw 시퀀싱 결과보다 깔끔하다. 재현성 검증이 필요하다.
  • 이해상충: OpenAI가 공동저자라는 점은 디스클로즈됐지만, 독립 그룹의 같은 워크플로 재현이 결론을 강화한다.

5분 실습 (쉬움 · 5분)

ChatGPT Plus 이상의 Deep Research 모드 또는 Perplexity Pro에서 다음 프롬프트를 실행해 "추론형 + 인용 추적" 워크플로를 체험한다:

다음 임상 vignette에 대해 후보 유전자 3개와 각 후보를 뒷받침하는 PubMed 인용을
달아 가설을 정리하라. 각 후보에 대해 (1) 변이 패턴, (2) 표현형 적합도,
(3) 가장 강한 반박 근거를 함께 보고하라.

[vignette] 9세 여아, 진행성 근위부 근력 약화, 발끝 보행, 가족력 없음,
근생검에서 응집체 양성, CK 정상 상한, 신경전도 정상.

실행 후: ① 인용된 PubMed ID가 실제 존재하는지 직접 검색해 본다. ② 모델이 제시한 후보 유전자가 HSPB8을 포함하는지 본다. ③ 가설별 반박 근거가 구체적인지 평가한다. 임상 적용이 아니라 "가설 + 추적 가능한 근거"의 산출 품질을 감 잡는 용도다.

더 읽어보기