| Type | Concept |
|---|---|
| Aliases | 가로세로비, 비율 |
| Related | ChatGPT Images 2.0, gpt-image-2, 텍스트→이미지 (text-to-image), 확산 모델 (diffusion model) |
무엇인가
종횡비는 이미지나 영상의 가로 길이와 세로 길이의 비율을 표현한 값이다. "16:9"라고 쓰면 가로가 16일 때 세로가 9라는 뜻이고, "1:1"은 가로와 세로가 같은 정사각형을 가리킨다. 사진을 찍거나 그림을 그릴 때 어떤 모양의 캔버스를 쓸지 결정하는 가장 기본적인 속성이다.
자주 쓰이는 비율
정사각형 (1:1)
인스타그램 피드, 프로필 이미지, [[chatgpt-images-2]] 같은 이미지 생성 모델의 기본 출력값으로 흔히 쓰인다. 가운데 정렬된 단일 피사체에 잘 어울린다.
와이드 (16:9)
영화, 유튜브 영상, 노트북 화면이 대부분 이 비율이다. 풍경이나 여러 인물이 한 줄로 등장하는 장면에 자연스럽다.
세로 (9:16, 4:5)
스마트폰을 세로로 든 채 보는 콘텐츠 ─ 인스타그램 스토리, 틱톡, 쇼츠 ─ 가 9:16이다. 4:5는 인스타그램 피드에서 화면을 가장 크게 차지하는 비율이라 마케팅 이미지에서 자주 쓰인다.
배너 (3:1 등)
웹사이트 헤더나 발표 슬라이드 상단의 가로로 긴 띠 모양 이미지에 쓰인다.
왜 중요한가
같은 사진이라도 비율이 바뀌면 잘려 보이는 부분이 달라진다. 16:9 영상을 그대로 9:16 세로 화면에 채우면 좌우가 잘려 인물의 어깨가 사라지기도 한다. 그래서 콘텐츠를 만들 때는 어디에 올릴지 ─ 유튜브인지, 인스타그램 스토리인지, 슬라이드인지 ─ 를 먼저 정하고 그에 맞는 비율로 만든다.
이미지 생성 AI에서도 같은 원리가 적용된다. 모델에게 "1024x1024 정사각형으로 그려줘"라고 부탁할지, "1792x1024 와이드로"라고 부탁할지에 따라 같은 프롬프트라도 결과물이 달라진다. 최근 모델들은 정사각형뿐 아니라 가로로 긴 배너나 세로로 긴 포스터까지 한 번에 생성할 수 있게 되어, 별도의 자르기 없이도 원하는 모양을 바로 얻을 수 있다.
무엇인가
종횡비는 이미지 출력 캔버스의 가로 대 세로 비율이다. 이미지 생성 모델은 학습 시 본 비율 분포 안에서만 안정적인 결과를 내기 때문에, 어떤 비율을 어디까지 지원하느냐가 모델 선택의 실제 변수가 된다.
모델별 지원 범위
[[chatgpt-images-2]] / [[gpt-image-2]]
3:1 부터 1:3 까지의 범위를 단일 모델에서 지원한다. 가로형 배너, 정사각형 SNS 카드, 세로형 포스터를 한 모델로 처리할 수 있어, 이전처럼 비율마다 별도 모델이나 후처리 파이프라인을 운영할 필요가 줄었다. API에서는 size 파라미터로 지정한다.
그 외의 모델
대부분의 [[diffusion-model]] 기반 [[text-to-image]] 모델은 학습 해상도(예: 1024x1024) 근처에서 가장 안정적이며, 16:9, 9:16, 4:5 같은 표준 비율은 별도 fine-tune 없이도 잘 나오는 편이다. 3:1 이상으로 가로가 극단적으로 길어지면 피사체 반복(같은 얼굴이 두 번 나오는 현상)이나 구도 붕괴가 흔히 발생한다.
사용 패턴
프롬프트와 별도로 명시
대부분의 API는 프롬프트 본문과 별개로 비율/크기 파라미터를 받는다. 프롬프트 안에 "wide banner" 같은 단어를 넣어도 되지만, 실제 출력 해상도는 파라미터로 지정해야 결정론적이다.
후처리 자르기 vs 네이티브 생성
짧은 시간 내에 여러 비율이 필요할 때는 큰 정사각형으로 한 번 생성한 뒤 잘라 쓰는 방법이 빠르다. 다만 자르면 의도한 구도가 깨질 수 있어, 최종 산출물은 가급적 원하는 비율로 처음부터 생성하는 편이 좋다.
UI에서 노출할 때
사용자에게 비율 옵션을 보여줄 때는 "1:1", "16:9", "9:16" 같은 숫자 대신 "정사각형", "와이드", "세로" 같은 라벨을 함께 붙이는 편이 친화적이다.
흔한 함정
- 요청한 비율과 실제 출력 크기가 다를 때: 모델이 가장 가까운 학습 버킷으로 반올림하기 때문이다. API 응답의 실제 width/height를 확인하라.
- 극단적 비율의 품질 저하: 텍스트 렌더링이 깨지거나 인물 수가 늘어나는 등, 학습 분포 밖에서 흔한 실패 모드가 나타난다.
- 모바일·데스크톱 동시 대응: 한 이미지로 둘 다 커버하려 하지 말고, 같은 프롬프트로 두 비율을 따로 생성하는 편이 결과가 깨끗하다.
정의
종횡비(aspect ratio)는 출력 캔버스의 가로:세로 비율을 가리킨다. 이미지 생성 모델에서는 학습 데이터의 비율 분포, 학습 시 multi-aspect 처리 전략, 그리고 위치 인코딩(position embedding) 방식이 결합되어 비정사각형 비율의 충실도(fidelity)를 결정한다.
Multi-aspect 학습
Aspect ratio bucketing
초기 [[diffusion-model]] 들은 정사각형으로 강제 crop 또는 resize 한 데이터로 학습되어 비정사각형 추론 시 품질이 급격히 떨어졌다. NovelAI가 제안한 aspect ratio bucketing은 학습 데이터를 비율별 버킷으로 분할하고, 한 미니배치 안에서는 동일 비율 샘플만 묶어 가변 해상도를 안정화한 기법이다. 이후 SDXL 등 최신 모델의 표준 학습 레시피로 자리잡았다.
Position embedding 확장
Transformer 기반 이미지 모델은 추론 해상도가 학습 해상도와 다를 때 위치 인코딩이 외삽(extrapolation)되어야 한다. 2D RoPE(Rotary Position Embedding) 변형이나 NTK-aware scaling 등을 사용해, 학습 시 보지 못한 종횡비에서도 위치 정보가 무너지지 않도록 한다.
비정사각형의 충실도 저하
학습 분포 편향
웹에서 수집한 이미지 코퍼스는 1:1, 4:3, 16:9 부근에 강하게 편향되어 있다. 3:1, 1:3 같은 극단적 비율은 자연 데이터 자체가 희소하므로, 동일한 학습 예산으로도 fidelity gap이 남는다.
객체 반복(object duplication)
가로로 매우 긴 캔버스를 생성할 때 같은 피사체가 캔버스를 따라 반복되는 현상이 보고된다. cross-attention이 캔버스 전체에 걸쳐 유사한 토큰 활성을 유도하기 때문으로 해석되며, MultiDiffusion·BoxDiff 등 후속 연구는 spatial attention masking으로 이 문제를 완화한다.
구도 붕괴
구도(composition) 측면에서, 비정사각형 비율에서는 rule-of-thirds 같은 관습이 학습 데이터에 덜 반영되어 있어 사람 눈에 어색한 배치가 자주 등장한다. 같은 프롬프트라도 비율에 따라 인물 수, 시점, 배경 비중이 달라진다.
평가
종횡비별 충실도를 비교하는 표준 벤치마크는 아직 정립되지 않았으나, FID/CLIPScore를 비율별로 분리해 측정하거나 GenEval, T2I-CompBench 같은 컴포지셔널 벤치마크를 비율별 변형으로 확장하는 방식이 사용된다. [[chatgpt-images-2]] 발표에서 OpenAI가 강조한 "3:1 ~ 1:3 한 모델 처리"는 multi-aspect training 의 직접적인 결과로 해석할 수 있다.
한계와 향후 과제
- 극단 비율의 일반화: 5:1 이상의 파노라마, 광고 옥외 비율 등은 여전히 fine-tune 또는 outpainting 후처리에 의존한다.
- 비율-콘텐츠 결합 prior: "세로 포스터에는 인물 한 명, 가로 배너에는 풍경" 같은 비율 의존 구도 prior가 명시적으로 모델링되지 않아, 비율을 바꿔도 의도된 구도가 잘 전달되지 않는 경우가 많다.
- 평가 메트릭 부재: 비율별 fidelity를 정량화할 표준 지표의 부재가 진전을 늦추는 한 요인으로 지적된다.