GPT-5.4 + Molecule.one Maria가 1차 sulfonamide × boronic acid Chan–Lam 커플링에서 평균 수율 16.6% → 25.2%, ≥30% 수율 비율 15.6% → 37.5%를 만들어냈다. 핵심 처방은 TEMPO를 마일드 산화제로 첨가하는 것.

한눈에10,080건의 마이크로리터 HTE 반응으로 in-silico 가설을 검증, 인간 화학자 14쌍 수동 재현에서 11/14가 더 높은 수율전체 연구 2.5개월 + 작성 0.5개월. 같은 작업량을 사람 한 명이 하루 3건씩 하면 ~10년모델 단독 자율이 아니라 "steering/grading 프롬프트 + 인간 후보 선택" 기반의 near-autonomous 루프

실무자: 추론 LLM이 wet-lab 실험 설계의 의사결정 노드로 진입한 첫 공개 산업 사례. 자체 HTE가 있는 팀이라면 즉시 검토 가치. 리더: "AI 코파일럿" 서사를 넘어 "AI 실험 파트너" 단계의 R&D 계약 구조가 가능해진다.

2026년 6월 17일, OpenAI는 gpt-5-4가 폴란드 molecule-one의 agentic-ai 프레임워크 Maria, 그리고 바르샤바 인근의 마이크로리터 high-throughput-experimentation 실험실과 결합해 chan-lam-coupling 반응을 실험적으로 개선했다고 발표했다. 표적은 신약개발에서 흔히 부딪히는 1차 sulfonamide(-SO₂NH₂)와 aryl boronic acid 간의 C–N 결합으로, 1차 sulfonamide는 FDA 승인 약물 91종 이상에 포함된 핵심 약리단이라 산업적 임팩트가 크다.

Chan–Lam 커플링 모식: 1차 sulfonamide × (HO)₂B–Ar, Cu(OAc)₂·TEMPO·K₂CO₃ in DMA/Diglyme, 60°C, 18h

이미지: Chan–Lam 커플링 처방 도식, 출처: Molecule.one

무엇이 일어났나

실험 설계의 핵심 처방은 TEMPO(2,2,6,6-tetramethylpiperidinyloxyl)를 마일드 산화제로 첨가해 Cu(I)→Cu(II) 회전을 보조하면서 boronic acid의 산화적 분해(oxidative deboronation) 부반응을 억제하는 것이었다. TEMPO 자체는 잘 알려진 시약이지만, Chan–Lam에 1차 sulfonamide-특화 산화제로 끼워 쓰는 처방은 표준 매뉴얼에 없었다. 모델은 강한 산화제 대신 "TEMPO처럼 단일 전자 산화·환원을 제어할 수 있는 안정 라디칼"이라는 메커니즘적 추론에서 후보를 좁혔고, Maria가 이를 시약 당량·온도·용매·시간으로 번역해 wet-lab으로 보냈다.

실험 캠페인은 두 차례에 걸쳐 총 10,080건의 반응을 돌렸다. Molecule.one 공식 자료가 공개한 최종 처방(코드명 OAI-M1-003)은 Cu(OAc)₂ / TEMPO / K₂CO₃ in DMA/Diglyme, 60°C, 18h 조건이다 (Molecule.one). 인간 화학자가 마이크로리터 결과의 신뢰성을 보강하기 위해 대표 14쌍을 직접 bench-scale로 재현했고, 그중 11쌍에서 더 높은 수율, 8쌍은 2배 이상 개선이 관찰됐다.

숫자로 보기

  • 평균 추정 수율: 16.6% → 25.2% (절대값 +8.6%p)
  • ≥30% 수율 달성 반응 비율: 15.6% → 37.5%
  • 최적 조건에서 boronic acid의 88%, sulfonamide의 83%가 향상
  • 수동 재현 14/14 중 11쌍 개선, 8쌍 >2× 개선
  • 총 반응 수 10,080건, 연구 기간 ~2.5개월 + 작성 0.5개월
  • TEMPO 유사체로의 비용 다운 가능성 시사 (Digg)

왜 중요한가

실무자 관점에서 이 사건의 의미는 "LLM이 실험 설계에 의미 있는 가설을 내놓고, 그 가설이 wet-lab에서 살아남고, 사람 손 재현까지 통과했다"는 점이다. 기존의 AI-for-chemistry 데모는 대부분 (1) retrosynthesis 경로 제안, (2) 도큐먼트 요약, (3) 가상 스크리닝 단계에 머물렀다. 이번 사례는 "가설 → 처방 → 자동 실행 → 평가 → 다음 가설"의 scientific-research-loop 전체에 LLM이 의사결정 노드로 들어왔다.

조직 차원에서의 함의는 분명하다. HTE 인프라를 가진 팀이라면 (a) 반응 클래스별 등급 프롬프트 라이브러리, (b) 실험 캠페인 트리거링 게이트(AI 제안 → 인간 후보 선정 → wet-lab) 설계, (c) 데이터 수집 파이프라인(Maria Data처럼)의 우선순위가 즉시 올라간다. 없는 팀은 "비싼 자동화 실험 위탁"이라는 새 외주 시장의 잠재 고객이 된다.

누가 이득, 누가 손해

  • 이득: 자체 마이크로리터 HTE를 가진 빅파마와 일부 중견 제약사, Molecule.one처럼 "AI + 자체 lab + 데이터셋"을 묶어 파는 수직 통합 스타트업, 그리고 OpenAI(에이전트 매출 + 과학계 평판). Standard Industries는 W. R. Grace를 통해 산업 화학 쪽으로 동일 워크플로를 확장 중이다 (prnewswire 2025-12).
  • 손해: 전통적 학계 조합화학 그룹은 "수율 1%p 짜내기" 경쟁에서 HTE 자동화 팀에 점점 밀린다. 또한 retrosynthesis만 파는 SaaS는 "실험까지 가는 곳"과의 가격 차별화 압박을 받는다.

더 깊이

시스템 스택은 세 층이다:

  1. GPT-5.4 — 문헌 검토·가설 생성·실험 설계·결과 해석·후속 제안의 reasoning backbone. OpenAI는 별도 안내에서 GPT-5.4를 "frontier scientific reasoning"에 정렬된 라인업으로 위치 짓는다 (Introducing GPT-5.4).
  2. Maria AI — Molecule.one의 agentic 프레임워크. 사람이 작성한 steering·grading 프롬프트로 GPT-5.4 출력 수천 건을 generate→rank→filter 하고, 채택된 제안을 시약·당량·온도·시간 같은 실험 프로토콜로 번역.
  3. Maria Lab — Dziekanów Leśny의 마이크로리터 스케일 HTE. 주당 2만 건 이상 반응을 자동 처리 가능. "세계 최대 마이크로리터 HTE 캠페인"이 Molecule.one의 자체 자랑 포인트.

워크플로 타임라인은 (a) 2026-03-04 개시 프롬프트 "의약화학에서 중요한 반응 클래스의 수율을 개선하라", (b) GPT-5.4가 수천 건의 연구 제안서 생성, Maria가 등급화, (c) 인간 화학자가 상위 후보 중 4건을 wet-lab 투입, (d) 두 번의 캠페인으로 10,080 반응, (e) 6월 4일 외부 전문가에게 OAI-M1-003 공유. 모델 가속 + 인간 게이트의 명확한 분리가 보인다.

조직 입장에서 모방 가능한 패턴 두 가지를 짚는다:

  • 등급 프롬프트의 외부화: "좋은 가설의 기준"을 자연어로 명문화하면 LLM 후보 평가를 인간 병목 없이 스케일링할 수 있다. 이는 reinforcement-learning-from-verifiable-rewards 류 reward 설계의 자연어 버전에 가깝다.
  • 마이크로리터 스케일링: 반응 1건당 비용을 µL 단위로 떨어뜨려야 "10,080건 캠페인"이 경제적으로 성립한다. AI 모델 비용보다 실험 비용이 병목인 영역에서 핵심.

아직 알 수 없는 것

  • 모델·툴 비용·토큰 소모의 정량 데이터 미공개. GPT-5.4를 5.2/5.3 또는 claude-code·Gemini로 교체했을 때의 대조군 실험 부재.
  • TEMPO 효과의 메커니즘 정량 분석(중간체 동역학, Cu 산화 상태 in-situ 모니터링)은 후속 과제.
  • 모델 기여분 vs. 프롬프트 엔지니어링 기여분 분리 어려움. techscurrent는 이를 강조하며 "near-autonomous"라는 표현을 명확히 쓸 것을 요구한다 (techscurrent).
  • IP·라이선스 구조 미공개. OpenAI–Molecule.one 간 발견에 대한 권리 배분이 산업 확산 속도를 좌우할 수 있다.

5분 실습 (보통 · 5분)

  1. OpenAI에 로그인해 가장 최신 GPT-5 계열 모델로 새 대화를 연다.
  2. 다음 프롬프트를 그대로 붙여넣는다: "You are a medicinal chemist. The Chan–Lam coupling of primary sulfonamides with aryl boronic acids suffers from oxidative deboronation. Propose 5 mild oxidant candidates that could promote Cu(I)→Cu(II) turnover without degrading the boronic acid. For each, give: (a) one-line mechanism hypothesis, (b) suggested loading, (c) one literature reference."
  3. 모델 답을 TEMPO 보고서 PDF에 기재된 처방과 대조한다.
  4. 모델이 TEMPO를 top-3에 올렸는지, 그리고 K₂CO₃·DMA/Diglyme·60°C·18h 같은 조건 변수에 대한 감을 가졌는지 평가한다.
  5. 결과를 사내 슬랙에 공유. 이 자리에서 "우리 팀의 등급 프롬프트는 무엇이 되어야 하는가"를 토론한다.

더 읽어보기