xAI Grok, Databricks Agent Bricks에 합류

xAI의 grok-4.3와 grok-build-0.1이 2026-06-18 Databricks Data + AI Summit 키노트에서 agent-bricks 정식 모델로 추가됐다. 6개월 만의 OCI→Azure→Bedrock→Databricks 완주이며, $1.25/$2.50 (in/out per M tokens) 단가로 Claude·Gemini 사이를 파고든다.

한눈에grok-4.3 (1M ctx, 2025-12 cutoff) + grok-build-0.1 (coding) 두 SKU가 Agent Bricks foundation model 드롭다운에 즉시 노출된다Unity Catalog 거버넌스 + Zero Data Retention 엔드포인트 + MLflow Trace 평가 파이프라인이 그대로 적용된다6월 15일 Bedrock, 18일 Databricks — xAI는 사흘 사이 두 개의 주요 엔터프라이즈 채널을 동시에 확보했다

실무자: 기존 Databricks 워크스페이스에 코드 변경 없이 모델 슬롯을 갈아끼워 Grok을 A/B 테스트할 수 있다. 리더: 멀티모델 게이트웨이가 표준이 되면서 단일 벤더 락인 협상 카드가 약해진다.

이미지: xAI 공식 발표 영상, 출처: @xai on X

발표는 모스코니 센터 키노트에서 나왔다. xAI 공식 X 계정이 "Grok models are now available on Databricks Agent Bricks"라고 알렸고, Databricks CEO Ali Ghodsi와 Elon Musk가 각각 짧은 환영 코멘트를 달았다. 같은 키노트에서 Databricks는 OpenAI·Anthropic·Google·Meta·Qwen·Kimi에 이어 Grok을 추가 편입했음을 명시했다.

무엇이 일어났나

agent-bricks는 Databricks가 2025년 6월 Summit에서 처음 공개한 엔터프라이즈 에이전트 빌드/평가/배포 플랫폼이다. 모델·툴·커넥션을 unity-catalog RBAC에 묶고, Omnigent 런타임과 Unity AI Gateway로 폴백·라우팅을 처리하며, mlflow-trace와 llm-as-judge 기반 자동 평가 데이터셋 생성을 결합한다. 외부 시스템 호출은 mcp-protocol을 표준으로 채택했고, SharePoint·Google Drive·SaaS 커넥터가 기본 번들로 제공된다.

이번 통합의 본질은 Grok 호출이 Lakehouse 보안 경계 안에서 일어난다는 점이다. Unity Catalog에 적재된 정형·비정형 데이터를 외부 파이프라인으로 빼지 않고 그대로 RAG 그라운딩 소스로 쓸 수 있고, xAI는 zero-data-retention 엔드포인트로만 연결돼 고객 데이터를 학습에 재사용하지 않는다.

xAI의 엔터프라이즈 채널 확장 타임라인은 다음과 같다.

2025-06: Oracle Cloud Infrastructure
2025-09-29: Microsoft Azure AI Foundry
2026-06-15: AWS amazon-bedrock
2026-06-18: Databricks Agent Bricks

숫자로 보기

grok-4.3: 100만 토큰 컨텍스트, 2025-12 knowledge cutoff, $1.25 in / $2.50 out per million tokens (xAI 일반 API 기준점)
grok-build-0.1: 코딩 특화, $1.00 in / $2.00 out per million tokens
Agent Bricks 누적 프로덕션 에이전트: 100,000+
플랫폼 연간 처리 토큰: 1 quadrillion+
Summit 2026 현장 참석: 30,000+ / 150개국 가상 시청
xAI 채택 미 연방 AI 배치(2025): 400여 건 중 3건 (Reuters 집계)

왜 중요한가

실무 관점에서 이번 통합은 "모델을 갈아끼우는 비용"을 의미 있게 낮춘다. Agent Bricks 안에서 만든 에이전트는 평가 데이터셋·LLM-judge·프롬프트 튜닝 루프가 모델 비종속적으로 돌아간다. Grok-4.3로 학습된 평가 데이터셋을 Claude Sonnet, Gemini 2.5 Pro, GPT-5.5 위에서 그대로 돌려 비용/정확도 곡선을 그릴 수 있다는 뜻이다. $1.25/$2.50 단가는 Claude Sonnet 계열 대비 공격적이고, 1M ctx는 긴 문서 추출/요약 워크로드에서 chunking 부담을 줄인다.

또한 Bedrock과 Databricks가 같은 주에 입성한 점은 의미가 크다. AWS는 인프라 표준, Databricks는 데이터·평가 표준 — xAI가 두 진영을 동시에 점유하면서 "폐쇄형이지만 멀티클라우드"라는 포지셔닝을 확보했다. AstraZeneca의 임상시험 40만 건 정형 추출 사례, Workday·Virgin Atlantic·Zapier·EchoStar·Fox·Block 등 거론된 도입사 라인업은 잠재 워크로드 규모를 시사한다.

누가 이득, 누가 손해

이득: ① 모델 선택권을 무기로 단가 협상을 하려는 엔터프라이즈, ② 데이터 플랫폼 자체(Databricks)는 라우터 자리를 가져가며 모든 호출에 마진을 얹는다, ③ xAI는 컨슈머 톤을 거버넌스 레이어 뒤로 숨길 채널을 확보한다.

손해: ① 단일 모델에 묶인 수직 SaaS — 같은 콘솔에서 평가/치환 가능해지면 차별점이 좁아진다, ② Bedrock 위에 얇은 래퍼만 얹어 가격을 붙이던 미들웨어 — Databricks가 같은 일을 "+거버넌스"로 한다, ③ Grok 자신의 평판 리스크도 그대로 가져온다 — VentureBeat·Public Citizen·Reuters 보도가 누적된 신뢰 갭이 Procurement 단계에서 변수로 작동할 수 있다.

더 깊이

Agent Bricks 워크플로는 ▲Knowledge Assistant·Information Extraction 등 템플릿 선택 → ▲자연어 목적 기술 → ▲Unity Catalog 볼륨/Vector Search 인덱스/구조화 테이블 연결 → ▲foundation model 선택(이제 Grok 포함) → ▲자동 평가 데이터 생성·LLM-judge·프롬프트 튜닝 루프 → ▲Databricks Apps 서버리스 배포(per-second 과금) 순으로 이어진다.

실무적으로 주목할 포인트는 Omnigent 런타임이 컨텍스트 기반 정책을 호출 단위로 강제한다는 점이다. 즉, 같은 에이전트라도 사용자가 어떤 RBAC 그룹에 속해 있느냐에 따라 검색 가능한 Unity Catalog 객체와 호출 가능한 MCP 툴이 달라진다. Grok이 "강한 의견"을 내려 할 때도, 시스템 프롬프트와 게이트웨이 정책이 응답을 사후 검사·재시도하는 구조다. xAI 모델 호출 자체는 Zero Data Retention로 격리돼 Unity Catalog 외부로 학습 흘림이 없다는 것이 명시됐다.

가격 비교에서 grok-4.3의 $1.25/$2.50은 Bedrock 출시 당시 "가장 저렴한 프런티어 추론 모델 중 하나"로 포지셔닝됐다. Databricks 마켓플레이스 안의 최종 청구 단가는 별도 공시 예정이지만, 일반 API 단가를 기준점으로 가정하면 Claude Opus·Gemini 2.5 Pro 대비 토큰당 비용이 의미 있게 낮다.

아직 알 수 없는 것

Databricks 마켓플레이스 내 최종 청구 단가, 리전별 가용성, grok-build-0.1 외 코딩 변형 추가 여부, 매출 분배·트래픽 보장 조건은 미공개다. 초기 레퍼런스 고객 인용에서 xAI 모델을 명시 선택한 사례도 아직 공개되지 않았다. 가장 큰 미지수는 grok-4.3의 instruction following과 reasoning 벤치마크가 실제 엔터프라이즈 RAG 워크로드에서 Claude·Gemini와 어떻게 다를지다 — VentureBeat 비평은 일부 벤치마크에서 경쟁 모델에 뒤졌다고 짚었다.

5분 실습 (쉬움 · 5분)

Databricks 워크스페이스 → AI / Agents → Agent Bricks → Information Extraction 템플릿.
Unity Catalog 볼륨에 사내 계약서 PDF 10건을 업로드하고 소스로 연결.
Foundation model 드롭다운에서 grok-4.3 선택 → 자연어로 "계약 당사자, 종료일, 자동갱신 조항을 JSON으로 추출" 입력.
Auto-evaluation 활성화. 같은 에이전트를 복제해 모델만 claude-sonnet-4.5, gemini-2.5-pro로 바꿔 동일 입력으로 호출.
MLflow Trace에서 토큰 사용량·LLM-judge 점수·지연을 한 표로 비교, $1.25/$2.50가 워크로드 가성비에서 실제로 이기는지 확인.