생물학적 위험

Type	Concept
Aliases	biorisk, biosecurity risk, 생물안보 위험
Related	프론티어 모델, GPT-Rosalind, 자율 실험실, LABBench2, BixBench

무엇인가

생물학적 위험(biorisk)은 AI 시스템이 누군가에게 위험한 생물학 지식이나 능력을 제공해 사고나 의도적 공격으로 이어질 가능성을 말한다. 검색엔진이나 도서관도 위험한 정보를 담을 수 있지만, AI는 흩어진 단편을 모아 단계별 안내로 묶어주기 때문에 상대적으로 더 우려되는 도구로 분류된다.

왜 지금 문제가 되는가

[[gpt-rosalind]] 같은 [[reasoning-model]]은 단백질 구조나 합성 경로를 추론하는 능력이 뛰어나다. 이 능력은 신약 개발을 가속하는 동시에, 악용될 경우 위험 병원체 설계에도 도움이 될 수 있다. 이를 "이중용도(dual-use)" 문제라고 부른다. 한 자루의 칼이 요리에도 쓰이고 사람을 다치게도 할 수 있는 것과 같다.

어떻게 통제하는가

AI 회사들은 모델을 출시하기 전에 크게 두 가지 일을 한다. 첫째, 모델이 실제로 얼마나 위험한 도움을 줄 수 있는지 시험한다. 전문가가 아닌 일반인이 모델 도움을 받았을 때 진짜로 더 잘 해내는지를 측정하고, 이 차이를 "능력 향상" 또는 uplift라고 부른다. 둘째, 위험한 질문에는 답하지 않도록 거절(refusal)을 학습시키고, API 차원에서도 이상한 사용 패턴을 감지하는 장치를 둔다. [[autonomous-lab]]이 발전하면서 AI가 단순한 글 안내를 넘어 실제 실험을 자동으로 수행할 수도 있어, 통제의 난이도는 점점 올라가고 있다.

우리가 일상에서 보게 되는 모습

프론티어 모델 회사들의 시스템 카드나 안전 보고서에는 거의 항상 "biological risks" 섹션이 있다. 어떤 위험 시나리오를 모델이 통과했고 어디서 멈췄는지가 적혀 있다. [[gpt-rosalind]]가 처음에 [[research-preview]] 형태로, 자격을 갖춘 연구기관에만 제한적으로 풀린 것도 같은 맥락이다. 이런 평가와 단계적 배포는 완벽한 방어막은 아니지만, AI가 사회에 들어오는 속도를 그나마 안전하게 조절하려는 장치다.

정의

생물학적 위험은 AI 모델의 이중용도(dual-use) 능력 — 병원체 설계, 합성 경로 제안, 실험 프로토콜 작성 등 — 이 악의적 사용자에게 비대칭적 능력 향상(uplift)을 제공할 가능성을 가리킨다. [[frontier-model]] 안전 평가의 핵심 카테고리 중 하나이며, 보통 CBRN(화학·생물·방사능·핵) 위협 모델 안에서 다뤄진다.

어떤 능력을 측정하는가

지식 수준: 위험 병원체, 독소, 게이트웨이 정보를 얼마나 정확히 답하는가.
추론 수준: 단편 정보를 합쳐 새로운 합성 경로나 회피 전략을 구성할 수 있는가.
에이전트 수준: [[autonomous-lab]] 환경에서 실제 실험을 계획·실행할 수 있는가.

마지막 항목은 [[reasoning-model]]과 도구 사용 능력이 결합되며 가장 빠르게 발전 중이다.

평가 도구

대표적 벤치마크로 [[labbench2]], [[bixbench]] 등이 있다. 이들은 모델이 [[multi-omics]] 데이터 해석이나 실험 설계에서 보이는 능력을 정량화한다. 동일한 능력이 합법적 연구와 위험 시나리오 양쪽에서 작동하기 때문에, 평가 결과는 항상 두 시각에서 동시에 해석된다.

배포 측 통제

거절(refusal) 학습: 위험 요청에 대해 모델이 거절하도록 RLHF, Constitutional AI 등으로 학습.
레이어드 필터: 시스템 프롬프트, 출력 분류기, 사용 약관, KYC. 어느 한 층이 뚫려도 다른 층이 막도록 설계.
운영 모니터링: API 호출 패턴 분석, 이상 사용 탐지, 신뢰 점수 기반 능력 게이팅. 초기 단계에서는 [[research-preview]]로 자격 검증된 고객사에만 배포한다.
위협 인텔리전스: 외부 보안 연구자, 정부 기관과 협력해 새로운 위험 시나리오를 빠르게 반영.

실무에서 유의할 점

모델 평가 점수는 "안전하다"가 아니라 "현재 평가셋에서는 통과했다"는 의미라는 점을 잊지 말 것.
API 통합 시 자체 위험 분류기를 한 층 더 두는 편이 안전하다. 모델 거절에만 의존하면 우회 프롬프트에 취약하다.
[[mcp-protocol]] 같은 도구 호출 표준이나 [[langchain]] 에이전트로 외부 시스템과 연결할 때, autonomous-lab 형태로 능력이 증폭될 가능성을 위협 모델에 포함하라.
위험 관련 로그는 보존 정책과 프라이버시 요건이 충돌할 수 있으므로, 운영팀과 사전에 합의된 형식으로 기록한다.

정의와 범위

생물학적 위험(biorisk) 평가는 AI 시스템이 CBRN 위협 행위자에게 제공할 수 있는 marginal uplift — 즉 동일 행위자가 모델 없이 시도했을 때 대비, 성공 확률·속도·정밀도의 증분 — 을 정량화하는 작업이다. 핵심 질문은 "모델이 위험 정보를 출력하는가"가 아니라 "기존 정보 환경(공개 문헌, 검색, 전문가 자문)에 비해 얼마나 큰 추가 도움을 주는가"이다.

위협 모델

표준적 분류는 행위자 능력을 세 단계로 나눈다.

Novice: 학부 수준 이하. 모델 도움 없이는 합성 절차의 게이트웨이 단계를 통과하기 어렵다.
Intermediate: 학사 + 약간의 실험 경험. 표준 프로토콜은 수행하나 비표준 단계에서 막힌다.
Expert: 박사급 또는 산업 경험. 자체 능력이 이미 높아 모델의 marginal uplift는 작다고 보고된다.

정책적으로 가장 민감한 시나리오는 Novice → Intermediate 능력 갭을 모델이 비대칭적으로 좁혀주는 경우다.

평가 프레임워크

대표적 접근은 세 갈래다.

인간 대조군 실험: 자원자에게 모델 접근을 부여한 그룹과 그렇지 않은 그룹의 작업 완수율을 비교한다. RAND, OpenAI, Anthropic 등이 일련의 보고서를 발표한 바 있다.
자동 벤치마크: [[bixbench]], [[labbench2]]와 같이 폐쇄형 질문 또는 계획 과제로 능력을 정량화한다. [[multi-omics]] 데이터 해석, 실험 설계, 게이트웨이 추론을 분리 측정한다.
레드팀 보고서: 외부 전문가가 자유 형식으로 우회 시나리오를 시도한다. METR, Apollo, Anthropic ASL 평가 등이 알려져 있다.

[[frontier-model]] 시스템 카드는 보통 이 세 결과를 결합해 "허용 가능한 잔여 위험" 판단을 내린다.

거절률과 능력의 분리

핵심 통찰은 refusal rate와 dangerous capability가 서로 다른 차원이라는 점이다. 모델이 거절을 잘해도 jailbreak에 취약하면 능력은 그대로 노출되며, 반대로 능력이 낮으면 거절이 느슨해도 실질 위험은 작다. 이 때문에 최근 평가는 강제 응답(forced response) 조건에서 능력 자체를 측정하는 방향으로 이동하고 있고, 이 패러다임이 [[reasoning-model]] 시대에 더욱 중요해졌다.

한계와 논쟁

외삽 어려움: 평가 셋은 알려진 위협만 커버한다. 새로운 위협 시나리오는 평가 시점에 존재하지 않을 수 있다.
통계적 검출 한계: 인간 실험은 표본이 작고 효과 크기를 정확히 추정하기 어렵다. 작은 uplift도 인구 단위로는 큰 영향이 될 수 있어, 검정력 부족이 곧 안전 보장을 의미하지 않는다.
이중용도 트레이드오프: 동일한 능력이 합법적 [[genomics]] 연구와 신약 개발을 가속한다. 과도한 차단은 과학적 진보를 저해하며, [[gpt-rosalind]]와 같은 도메인 특화 모델은 이 균형 위에 설계된다.
에이전트 위험의 가속: [[autonomous-lab]] + [[reasoning-model]] 조합은 평가 패러다임 자체를 흔든다. 정적 Q&A 평가로는 동적 에이전트 능력을 잡을 수 없으며, 도구 사용 트레이스 단위의 새로운 평가 설계가 필요하다.

향후 연구 방향

동적 환경(에이전트)에서의 표준화된 위협 모델, uplift 측정의 통계적 검정력 개선, 그리고 모델 안전성 + 합성 DNA 스크리닝 + 실험기관 책임을 묶는 다층 거버넌스 — 이 셋이 현재 생물학적 위험 연구의 주요 축이다.

이 용어를 언급한 기사

OpenAI, 생명과학 추론 모델 'GPT-Rosalind' 공개