유전체학

Type	Concept
Aliases	genomics, 게놈학
Related	멀티오믹스, GPT-Rosalind, BixBench, Rosalind Franklin, 자율 실험실

무엇인가

유전체학(genomics)은 한 생물이 가진 모든 유전 정보(게놈) 전체를 한꺼번에 들여다보고, 그 안에서 생명 현상을 읽어내는 학문이다. 사람의 게놈은 약 30억 개의 염기로 쓰인 한 권의 두꺼운 책에 비유할 수 있는데, 유전체학은 그 책 한 권을 통째로 펼쳐 어떤 문장이 어떤 일을 하는지 해석하는 작업이다.

왜 중요한가

20세기 유전학이 한 페이지(유전자 하나)를 들여다봤다면, 유전체학은 책 전체를 본다. 그 덕분에 다음과 같은 질문에 답할 수 있게 됐다.

어떤 유전적 변이가 특정 암이나 희귀질환과 연관되는가
사람마다 같은 약에 왜 다르게 반응하는가
진화 과정에서 어떤 유전자가 새로 생기고 사라졌는가

질병 진단, 신약 개발, 작물 개량, 법의학까지 응용 범위가 매우 넓다.

어떻게 연구하나

1) 시퀀싱

DNA를 읽어내는 장비(시퀀서)로 염기 서열을 디지털 데이터로 변환한다. 한 사람의 게놈 한 벌을 읽는 비용은 한때 수십억 원이었지만, 지금은 100달러대까지 떨어졌다.

2) 분석

읽어낸 서열을 표준 게놈과 비교해 어떤 위치에 어떤 차이(변이)가 있는지 찾는다. 그 변이가 단백질의 기능을 바꾸는지, 발현량을 조절하는지 추론하는 것이 핵심 작업이다.

3) 해석

한 사람의 변이만 봐서는 의미를 알기 어렵다. 수만 명, 수십만 명의 데이터를 모아 통계적으로 패턴을 찾아야 한다. 이 단계에서 최근에는 [[gpt-rosalind]] 같은 추론 특화 AI 모델이 연구자를 돕는 도구로 등장하고 있다.

인접 분야

유전체학은 단백체학, 대사체학 등과 결합해 [[multi-omics]](다중 오믹스)로 확장되고 있다. 또한 실험을 자동으로 수행하는 [[autonomous-lab]] 같은 인프라와 만나면서, 가설 생성부터 검증까지 한 사이클이 점점 빨라지고 있다.

데이터의 종류

유전체학 실무는 목적에 맞는 시퀀싱 데이터로부터 시작한다.

WGS (Whole Genome Sequencing): 전체 게놈 30억 염기를 30x~60x 깊이로 읽는다. 1샘플당 약 100GB.
WES (Whole Exome Sequencing): 단백질 코딩 영역(엑솜)만 표적 캡처해 비용을 줄인다.
RNA-seq: 어떤 유전자가 어떤 조직에서 얼마나 발현되는지 정량화한다.
ATAC-seq · ChIP-seq: 염색질 접근성, 단백질-DNA 결합 같은 후성유전 신호를 본다.

대표 워크플로

Variant calling 파이프라인

원시 FASTQ → BWA-MEM·minimap2로 alignment → BAM → GATK HaplotypeCaller, DeepVariant 등으로 변이 호출 → VCF. 이 단계의 정확도가 다운스트림 모든 결과를 좌우하므로 GIAB truth set 기반 벤치마킹이 필수다.

GWAS

수만~수백만 명 규모 코호트에서 SNP–표현형 연관성을 찾는다. PLINK, REGENIE, BOLT-LMM 같은 도구를 사용한다. 인구 구조 보정, multiple testing 보정(genome-wide 5e-8)을 빼먹으면 분석이 통째로 무너진다.

RNA-seq 발현 분석

salmon·kallisto로 transcript quantification → DESeq2·edgeR로 differential expression. 단일세포 데이터(scRNA-seq)는 Seurat, Scanpy 생태계에서 다룬다.

AI 통합 트렌드

최근 LLM과 추론 모델이 유전체학 워크플로 곳곳에 들어오고 있다. 변이 해석에서 자연어 임상 노트와 VCF를 함께 추론하거나, 가설 생성 단계에서 문헌 메타분석을 보조하는 식이다. OpenAI가 공개한 [[gpt-rosalind]]는 이 흐름을 대표하는 [[reasoning-model]] 사례다.

[[multi-omics]] 통합에도 트랜스포머 기반 모델이 활용되며, 자율 실험 인프라([[autonomous-lab]])와 결합해 가설→실험→해석 사이클을 자동화하려는 시도가 늘고 있다. 도메인 능력 평가는 [[bixbench]], [[labbench2]] 같은 벤치마크가 담당한다.

실무 주의점

참조 게놈 버전: GRCh37과 GRCh38을 섞어 쓰는 것은 가장 흔한 사일런트 버그 원인이다.
개인정보: 게놈 데이터는 사실상 영구 식별자다. IRB 승인과 데이터 거버넌스가 필수.
재현성: 컨테이너(Docker·Singularity)와 워크플로 매니저(Nextflow·Snakemake)로 파이프라인을 박제해야 한다.

분야 정의

유전체학은 단일 유전자가 아닌 전장 게놈·엑솜·전사체·에피게놈 데이터를 정량적으로 통합 분석하는 분야다. 핵심 추론 과제는 sequence → function, sequence → phenotype, sequence → evolution이라는 세 가지 매핑으로 요약된다.

핵심 추론 과제

Variant calling

raw read 정렬 후 reference와의 차이를 statistical하게 검증해 SNV, indel, SV를 호출한다. GATK HaplotypeCaller는 local de novo assembly와 HMM 기반 likelihood를 결합하고, DeepVariant는 pileup tensor를 CNN으로 분류한다. 평가는 GIAB, PrecisionFDA truth set 기반의 precision/recall로 한다.

eQTL · GWAS

표현형 또는 발현량을 outcome으로, SNP를 predictor로 두고 linear/logistic mixed model을 fit한다. 인구 구조와 친족 관계는 GRM을 random effect로 흡수(REGENIE, BOLT-LMM). genome-wide significance는 관습적으로 5e-8. fine-mapping 단계에서는 SuSiE, FINEMAP, CAVIAR가 causal variant 후보를 좁힌다. cis-eQTL과 trans-eQTL은 검정력·해석 모두 비대칭이다.

Phylogenetic inference

다중서열 정렬에서 다종/다개체 트리를 추정한다. ML 기반 RAxML·IQ-TREE, Bayesian BEAST·MrBayes가 표준이며, 게놈 규모에서는 ASTRAL 같은 coalescent 기반 species tree 방법이 ILS를 다룬다.

머신러닝과 LLM의 부상

서열 → 기능

AlphaFold가 단백질 구조 예측의 standard of care가 된 이후, ESM-2·ESM-3 등 protein language model이 missense pathogenicity, ΔΔG, fitness landscape를 zero-shot으로 추정하는 데 사용된다. Enformer, Borzoi는 receptive field를 100kb 이상으로 확장해 cell-type-specific regulatory grammar를 학습한다.

Reasoning model 활용

[[gpt-rosalind]] 같은 [[reasoning-model]]은 임상 변이 해석, 의사결정 지원, 문헌 기반 hypothesis generation에서 시도되고 있다. 능력 정량 평가는 [[bixbench]], [[labbench2]] 같은 도메인 벤치마크가 담당하며, 이들은 wet-lab 시나리오와 분석 파이프라인 모두를 다룬다.

Multi-omics 통합

[[multi-omics]] 데이터 통합은 contrastive learning, graph neural network, multimodal transformer로 접근한다. 핵심 난점은 모달리티 간 missing data, batch effect, 그리고 cell-state vs cell-type의 식별 가능성 문제다.

한계와 도전

인구 다양성 편향: 공개 GWAS 코호트의 약 80%가 European ancestry. polygenic risk score의 cross-ancestry transferability가 낮다.
인과성 vs 상관성: 연관성 발견이 메커니즘은 아니다. CRISPR perturbation screen, MPRA, Mendelian randomization으로 보완 증거를 쌓아야 한다.
Biorisk: dual-use 우려가 있는 영역(바이러스 유전체 합성, 강화 기능 연구 등)에서 [[biorisk]] 평가 프로토콜이 정립 중이다.
재현성: 파이프라인 분기, 참조 게놈 버전, annotation DB 스냅샷 차이가 결과를 흔든다. 모델 지원 분석에서는 prompt·temperature·model version까지 고정해야 한다.

자율 실험실([[autonomous-lab]])과 LLM 보조가 결합되면서, 분야는 가설 생성–실험 설계–분석–해석 전 사이클을 가속화하는 closed-loop 방향으로 진화하고 있다.

이 용어를 언급한 기사

OpenAI, 생명과학 추론 모델 'GPT-Rosalind' 공개