OpenAI는 무료 ChatGPT의 GPT-5.5 Instant가 HealthBench Hard 31.5(+2.4), HealthBench Professional 51.8(+3.7)을 기록하고 의사 작성 답변 대비 4개 축 모두 우위라고 주장한다 — 다만 모든 검증은 사내 평가다.
한눈에gpt-5-5 Instant가 무료 ChatGPT에 풀리며 HealthBench Hard +2.4, Professional +3.7의사 260명+ 가 70만 건 응답을 라벨링한 physician-in-the-loop RLHF 파이프라인이 핵심라이브 트래픽 "사실 오류 표시" 응답 71% 감소 보고, 외부 검증·동료심사는 없음
실무자: 헬스 챗봇·증상 분류 SaaS를 만들고 있다면 무료 ChatGPT를 베이스라인으로 다시 측정하고, 차별화 지점을 국지적 의료 체계 연동·EHR 통합·면허 의사 리뷰 쪽으로 옮길 시점이다. 리더: 2.3억 주간 사용자에게 임상 보조 수준 응답을 무료로 제공하면서도 약관상 "의료 조언 제한"이 살아 있다 — 정책·법무 검토가 필요하다.
OpenAI는 6월 18일 공식 블로그 Improving health intelligence in ChatGPT에서 gpt-5-5 Instant가 건강 질문 응답에서 자사 상위 Thinking 모델과 동급에 도달했다고 발표했다. 같은 날 @OpenAI 공식 X 계정과 @gdb(Greg Brockman)이 이를 트윗으로 공식화하며, 60개국·49개 언어·26개 진료과의 의사 수백 명이 학습에 관여했다고 밝혔다.
이미지: OpenAI 공식 계정 프로필, 출처: @OpenAI on X
무엇이 일어났나
핵심 변화는 세 가지다.
- 무료 사용자에게 풀리는 Instant 모델이 Thinking 모델과 같은 헬스 응답 품질에 도달했다는 자체 주장.
- 응급 인지(triage), 후속 정보 요청, 불확실성 표현, 가독성 4개 축이 동시에 개선되었다는 정성 평가.
- 사내 healthbench 벤치마크 전 항목에서 점수 상승 (단 Consensus -0.7).
OpenAI Deployment Safety Hub의 GPT-5.5 시스템 카드 기준 점수(괄호는 GPT-5.4 대비):
- HealthBench (length-adjusted): 56.5 (+2.5)
- HealthBench Hard: 31.5 (+2.4)
- HealthBench Consensus: 95.6 (-0.7)
- HealthBench Professional: 51.8 (+3.7)
외부 HealthBench Consensus 리더보드에서 GPT-5.5 Instant가 0.947로 1위에 올라 있다.
숫자로 보기
- 주간 헬스 질문 사용자: 2.3억 명
- 의사 평가 패널: 260명+ / 60개국 / 49개 언어 / 26개 진료과
- 라벨링된 응답: 70만 건+
- 의사 vs 모델 head-to-head: 3,500건 패널 채점, 4개 축 모델 우위 (OpenAI 사내)
- 라이브 사실성 결함 표시: 2개월간 71% 감소
- 응답 평균 길이: 3,308 → 3,893자 (Professional 기준)
왜 중요한가
실무적으로 두 가지가 크다.
첫째, 무료 베이스라인이 올라갔다. 그동안 헬스 챗봇 스타트업은 "무료 ChatGPT보다 낫다"는 차별화로 시작할 수 있었다. 이제 그 베이스라인이 자체 healthbench에서 1위인 모델로 바뀐다. 차별화 축을 (a) 지역 의료 시스템 연동(예: 한국 119·권역응급의료센터), (b) EHR/PHR 통합, (c) 면허 의사의 실시간 검토 루프, (d) 보험·청구 연계 등으로 옮겨야 살아남는다.
둘째, 약관과 마케팅의 어긋남이 운영 리스크다. OpenAI는 2025년 10월 29일 약관 개정으로 ChatGPT를 의료 조언 목적으로 쓰는 것을 공식 제한했다. 그런데 6월 발표는 사실상 적극 마케팅이다. ChatGPT API/Assistants API로 헬스 기능을 얹는 회사는 "OpenAI 약관상 허용 범위" 판단을 법무와 다시 확인할 필요가 있다.
누가 이득, 누가 손해
- 이득: 1차 의료 접근이 어려운 지역, 야간·주말 트리아지 수요, ChatGPT for Clinicians 검증 의사 무료 사용자, 헬스 API 비용으로 자체 LLM을 돌리던 스타트업(베이스라인 모델 무료화).
- 손해: 단순 증상 검색 광고 모델(WebMD 류), "OpenAI 무료보다 낫다" 포지셔닝의 1차 상담 챗봇, 헬스 전용 미세조정으로 차별화하던 작은 LLM 벤더.
- 불확실: 면허 의사·병원 — 임상 보조의 일상화가 청구 코드와 책임 구조에 들어오기 전까지 영향은 점진적.
더 깊이
OpenAI가 공개한 내용을 종합하면 개선은 단일 학습 트릭이 아니라 데이터·평가·프로덕션 모니터링 파이프라인의 결합이다(Digital Watch Observatory 정리).
- physician-in-the-loop RLHF: 의사가 응답을 평가하고, 누락 맥락·과신·후속 조치 부재 등을 라벨링. 70만 건 응답에 전문가 루브릭이 보상 신호로 사용.
- healthbench / Professional 강화: hard subset 비중 확대, length-adjusted scoring으로 verbosity 통제.
- triage 강화: "최악의 두통" 같은 표현을 즉각 응급 권고에 매칭. NBC News가 보고한 ChatGPT Health 52% 과소 분류를 직접 겨냥한 패치.
- 불확실성·후속 질문 instruction tuning: 응답 전에 지속 시간·동반 증상·복용 약 등을 묻도록 정렬.
- 프로덕션 사실성 모니터링: 프라이버시 보존 분류기로 매주 수십억 메시지의 사실성 결함을 추적, 두 달간 71% 감소를 보고.
OpenAI는 이미 4월 ChatGPT for Clinicians(GPT-5.4 기반, 검증 의사 무료)를 출시했고, 1월에는 chatgpt-health 플랫폼(웰니스 앱·의료기록 연동)을 공개했다(HIT Consultant). 이번 GPT-5.5 Instant 업데이트는 그 흐름의 소비자(Free Tier) 측 정점이다.
미국의사협회(AMA) 2026년 조사 기준 임상에 AI를 쓰는 의사 비율은 1년 만에 48% → 72%로 올랐다는 맥락도 함께 인용된다(CoinCentral).
아직 알 수 없는 것
- 외부 검증 부재: HealthBench 점수·의사 비교 평가 모두 OpenAI 사내(Becker's Hospital Review, Search Engine Journal 모두 명시).
- HealthBench Consensus -0.7: 길어진 응답이 환자 이해도에 어떤 영향인지 시스템 카드도 답하지 않음.
- 언어별 격차: 49개 언어를 포괄한다 했지만 한국어 등 비영어 점수 분리 공개가 없다.
- 소송 리스크: 2025년 5월 사망한 19세 Sam Nelson 부모가 GPT-4o 시절 ChatGPT의 크라톰+자낙스 조언이 사인과 관련 있다며 ChatGPT Health 출시 중지를 구하는 소송을 진행 중이고, Yale Law School 클리닉이 합류했다(Bloomberg Law).
- FDA 미허가 의료기기 지위: TechJack은 임상 보조 도구로 포지셔닝되어 책임 범위가 제한되는데 2.3억 명에 도달한다는 구조적 모순을 지적했다.
5분 실습 (보통 · 10분)
- OpenAI API의
gpt-5.5-instant로 동일한 한국어/영어 헬스 시나리오 4개를 호출 — "성인 가슴 통증·압박감 30분", "임신 28주 갑작스러운 부종", "고령자 갑작스러운 한쪽 마비", "어린이 38.5℃ 발열 3일차". - 응답에서 다음 5개 축을 0/1로 채점한다: (a) 응급실 권고, (b) 후속 질문, (c) 불확실성 명시, (d) 지역 의료 안내, (e) 약물·복약 상호작용 언급.
- 같은 시나리오를 GPT-5.4 Thinking과 자가 호스팅 오픈 의료 모델 베이스라인과 비교.
- 차이를 표로 정리해 자사 헬스 챗봇 회귀 테스트셋에 추가하고, 매월 모델 회귀를 추적한다.
더 읽어보기
- OpenAI — Improving health intelligence in ChatGPT · 2026-06-18 · 공식 발표
- OpenAI Deployment Safety Hub — GPT-5.5 evaluations · 시스템 카드 원본 점수
- The Decoder — ChatGPT's new health upgrade beats doctor-written answers · 의사 비교 평가 정리
- Search Engine Journal — Improved Health Responses To Free ChatGPT · 무료 보급 의미와 한계
- Hooper Lundy — OpenAI restricts ChatGPT for medical advice · 2025-10-29 약관 변경
- NBC News — ChatGPT Health under-triaged half of emergencies · 응급 분류 실패