멀티오믹스

Type	Concept
Aliases	multi-omics, multiomics, 다중오믹스
Related	유전체학, GPT-Rosalind, 추론 모델, 자율 실험실, BixBench

무엇인가

한 사람을 이해하려면 사진 한 장보다 여러 각도에서 찍은 사진이 더 많은 것을 보여 준다. 생명체도 마찬가지다. DNA 서열만 본다고 세포가 어떻게 행동하는지 다 알 수는 없다. 멀티오믹스는 [[genomics]](유전자 정보), 전사체(어떤 유전자가 켜져 있는지), 단백질체(실제로 만들어진 일꾼 분자), 대사체(세포 안에서 일어난 화학적 결과) 같은 여러 층의 데이터를 함께 보는 접근이다.

왜 필요한가

같은 유전자라도 어떤 세포에서는 활발하고 어떤 세포에서는 잠들어 있다. 단백질이 얼마나 만들어졌는지, 그 단백질이 화학적으로 변형되었는지는 또 다른 층의 이야기다. 한 층만 보면 그림이 부분적으로 남는다. 여러 층을 같이 봐야 “왜 이 사람의 암은 이 약에 반응하지 않는가” 같은 질문에 답할 수 있다.

어떻게 작동하나

절차는 보통 이렇게 흘러간다.

같은 샘플에서 여러 측정: 한 환자의 종양 조직에서 DNA, RNA, 단백질을 동시에 뽑아 측정한다.
데이터 정렬과 보정: 측정 장비나 날짜가 달라지면 값도 달라지므로, 기술적 차이를 걷어 내는 보정 단계가 필요하다.
통합 분석: 통계 모델이나 기계학습이 여러 층의 패턴을 묶어 의미 있는 신호를 찾는다.

어디에 쓰이나

암 아형 분류: 이름이 같은 암도 분자 수준에서는 여러 종류로 갈리고, 치료 반응도 다르다.
약물 반응 예측: 어떤 환자가 어떤 약에 잘 반응할지 미리 추정한다.
신약 개발: 후보 물질이 세포에 어떤 다층적 변화를 일으키는지 본다.
희귀질환 진단: 한 가지 검사로는 잡히지 않는 원인을 다층 데이터로 추적한다.

최근 흐름

데이터 양이 폭발하면서 사람이 직접 모든 층을 들여다보기는 어려워졌다. 최근에는 OpenAI의 [[gpt-rosalind]] 같은 [[reasoning-model]]이 멀티오믹스 데이터를 해석하고 가설을 제안하는 보조 도구로 떠오르고 있다. [[autonomous-lab]] 환경에서는 이런 모델이 실험 설계와 분석을 함께 돌리는 시도도 진행 중이다.

데이터 레이어

실무에서 자주 다루는 omics layer는 크게 다음과 같다.

Genome: WGS, WES, targeted panel — [[genomics]]
Transcriptome: bulk RNA-seq, scRNA-seq, spatial transcriptomics
Proteome: LC-MS 기반 shotgun proteomics, targeted SRM/PRM, Olink/SomaScan 어레이
Metabolome / Lipidome: LC-MS, GC-MS, NMR
Epigenome / Chromatin: ATAC-seq, ChIP-seq, methylation array, Hi-C

통합 전략

관행적으로 세 가지로 나눈다.

Early integration — 모든 피처를 한 행렬로 이어 붙여 분석. 단순하지만 차원 불균형에 취약.
Intermediate (joint) integration — MOFA, scVI 같은 잠재 변수 모델로 공통 latent space를 학습. 결측 omics를 자연스럽게 다룰 수 있어 가장 자주 쓰인다.
Late integration — 각 layer에서 독립 모델을 학습한 뒤 ensemble. 해석성은 좋지만 cross-modal 신호를 놓칠 수 있다.

자주 쓰는 도구

MOFA / MOFA+: factor analysis 기반, 결측 허용, R/Python 양쪽 지원.
Seurat, Signac: 단일세포 RNA + ATAC 통합 표준.
scVI, totalVI, MultiVI: VAE 계열 deep generative — RNA, protein(CITE-seq), ATAC 조합.
DIABLO (mixOmics): 지도학습용 multi-block PLS-DA.
Nextflow / Snakemake: 다층 파이프라인 재현성 관리.
Harmony, scVI, MNN: batch correction.

흔한 함정

배치 효과: 같은 샘플도 측정 일자·장비·기관이 달라지면 신호가 흔들린다. ComBat, Harmony, MNN이 표준이지만 over-correction으로 진짜 신호까지 깎아 내는 경우가 잦다.
차원 불균형: WGS는 변수 백만 단위, proteomics는 수천. 정규화 순서와 가중치 설계가 결과를 크게 흔든다.
결측 omics: 모든 환자에 모든 layer가 갖춰진 경우는 드물다. block-wise missing은 단순 imputation으로는 부족하므로 결측을 marginalize하는 모델을 고르는 게 안전.
샘플 매칭 오류: 한 환자의 RNA와 단백질이 라벨 실수로 어긋나면 모든 분석이 무너진다. 메타데이터 검증을 자동화해 두는 편이 좋다.

최근 트렌드

[[reasoning-model]] 기반 어시스턴트가 분석 파이프라인 합성과 결과 해석에 끼어들기 시작했다. [[gpt-rosalind]]는 생명과학 추론에 맞춰진 모델로, R/Python 스크립트 작성과 가설 생성을 동시에 돕는다. [[autonomous-lab]] 환경에서는 [[mcp-protocol]]을 통해 LLM 에이전트가 분석 파이프라인과 wet-lab 장비를 함께 조율하는 시도도 늘고 있다.

정의와 범위

멀티오믹스는 동일 생물학적 시스템(세포, 조직, 환자, 코호트)에서 측정한 이종 omics layer를 통합해 phenotype, regulatory mechanism, drug response를 추론하는 분석 패러다임이다. 일반적인 multi-modal learning과 구분되는 점은, 각 layer가 명확한 분자 추상화 수준(DNA → RNA → protein → metabolite)에 대응한다는 사전 구조다. 이 위계는 통합 모델의 inductive bias로 활용되기도 한다.

통합 방법론

Matrix factorization

MOFA(Argelaguet 외)는 generalized linear factor model로 modality별 likelihood(Gaussian, Bernoulli, Poisson)를 합쳐 ELBO를 최대화한다. factor의 view-specific weight를 통해 어떤 인자가 어느 layer에서 활성인지 해석할 수 있다. iCluster, JIVE도 같은 계열.

Deep generative

scVI 계열은 VAE로 각 modality를 latent z에 매핑하고 KL 정규화로 정렬한다. totalVI(RNA+ADT), MultiVI(RNA+ATAC)는 modality-specific decoder를 두고 공유 인코더를 학습. cross-modal generation으로 결측 layer를 imputation할 수 있다.

Graph-based

SNF(Similarity Network Fusion)는 modality별 sample-sample 그래프를 cross-diffusion으로 융합. heterogeneous GNN, MOGONET은 노드 분류 형태로 표현형을 예측.

Statistical / classical

CCA, sparse CCA, PLS, DIABLO는 해석 가능성에서 여전히 강점. linear 모델이라 효과 크기와 변수 기여도를 추적하기 쉬워 임상 보고에 적합.

핵심 도전 과제

Batch / cohort effect

서로 다른 시점·기관·플랫폼의 기술적 변동은 생물학적 신호와 교란된다. ComBat, RUV, Harmony, MNN이 표준이지만 over-correction 위험이 상존하며, 효과 크기가 코호트와 상관된 변수와 묶여 있을 때 인과 분석을 왜곡한다.

Modality imbalance

WGS는 변수 ≫ 샘플, proteomics는 그 반대다. naive concatenation은 고차원 layer에 결과가 지배된다. modality-wise normalization, regularization 가중치, contrastive objective, modality dropout 등이 완화책.

Missingness

모든 환자에 모든 omics가 있는 데이터셋은 드물다. block-wise missingness는 표준 imputation을 무력화시키므로 ELBO에서 결측을 marginalize하는 MOFA류 모델, 또는 cross-modal generative imputation이 선호된다.

Causal direction

correlation이 풍부해도 분자 위계상의 인과 방향이 자동 보장되지 않는다. mendelian randomization, eQTL/pQTL, perturb-seq 같은 외부 개입 데이터가 인과 식별에 필요하다.

응용

Disease subtyping: TCGA pan-cancer multi-omics는 조직학적 분류 위에 분자 아형을 정의해 예후 예측에 기여.
Drug response prediction: GDSC, CCLE 등 cell line panel에서 multi-omics feature가 IC50 회귀에 활용.
Single-cell multi-omics: 10x Multiome, CITE-seq, SHARE-seq처럼 동일 세포에서 다층 측정이 가능해지면서 cell-state graph가 정교해짐.
Pharmacogenomics & biomarker discovery: 임상 시험 보조분석에서 반응자/비반응자 층을 분리.

LLM과의 접점

[[gpt-rosalind]]를 비롯한 [[reasoning-model]]은 multi-omics 워크플로에서 (1) 자연어 가설 생성, (2) 분석 파이프라인 합성, (3) 결과의 mechanistic interpretation을 보조한다. [[bixbench]], [[labbench2]]는 이 영역의 평가 인프라를 만들고 있고, [[autonomous-lab]]에서는 LLM 에이전트가 wet-lab과 dry-lab을 잇는 closed-loop를 시도한다. 다만 [[biorisk]] 측면에서 dual-use 우려가 함께 따라온다.

한계

표준화 부족: layer마다 normalization, QC, 단위가 분산.
재현성: 파이프라인이 길고 파라미터가 많아 사소한 차이가 결론을 뒤집기도.
해석성: 모델이 깊어질수록 latent factor의 생물학적 의미를 매핑하기 어려움.
인과 추론: 통합 분석 결과는 대부분 association 수준에 머문다.

이 용어를 언급한 기사

OpenAI, 생명과학 추론 모델 'GPT-Rosalind' 공개