Grok STT API가 배치 $0.10/시간, 스트리밍 $0.20/시간, 자체 WER 6.9%로 출시 — Whisper·Deepgram·AssemblyAI 대비 단가 23~72% 절감이다.
한눈에REST(api.x.ai/v1/stt)/WebSocket 양쪽 지원, 12개 오디오 포맷, 요청당 500MB자체 측정 전화통화 엔티티 WER 5.0% (경쟁사 12~21%), 일반 6.9%Tesla 차량·Starlink 콜센터 동일 스택 — 이미 대규모 트래픽으로 단련된 엔진의 외부 개방실무자: 콜봇·자막 파이프라인 단가 재계산 + ITN 후처리 코드 제거 검토 가능. 리더: 음성 인프라가 빠르게 commodity 화되는 신호, 자체 모델·벤더 계약 재점검 필요.

이미지: 발표 주체 xAI 공식 계정, 출처: @xai on X
xAI가 2026년 4월 17일 Grok STT/TTS API를 정식 출시했다. 모델 ID는 grok-stt, 음성 에이전트용 grok-voice-latest도 함께 공개됐다. 핵심 프레이밍은 "신규 모델 공개가 아니라 이미 Grok Voice·Tesla·Starlink에서 가동 중인 엔진의 외부 개방"이다. 즉 콜드 스타트가 아닌 핫 스타트라는 점.
무엇이 일어났나
REST 엔드포인트는 POST https://api.x.ai/v1/stt, 스트리밍은 wss://api.x.ai/v1/stt. 입력은 WAV/MP3/OGG/Opus/FLAC/AAC/MP4/M4A/MKV 9개 컨테이너 + raw PCM·µ-law·A-law 3종, 총 12개 포맷. 요청당 최대 500MB. 25개 언어, 스트림 중 언어 전환 자동 처리, 단어 단위 타임스탬프, speaker-diarization, 멀티채널(트랙별 화자 격리), inverse-text-normalization(숫자·날짜·통화·도량형 자동 표기)까지 기본 제공.
레이트 리밋은 REST 600 req/min, WebSocket 10 conn/sec, 팀당 동시 100세션(LaoZhang AI 분석 기준). 스트리밍 흐름은 연결 개방 → 바이너리 프레임 송신 → audio.done → interim/final 이벤트 수신.
TTS는 5개 보이스(Ara·Eve·Leo·Rex·Sal)로 시작, 후속 업데이트로 80+ 보이스 예정. REST는 요청당 15,000자 한도, WebSocket은 무제한. 인라인 태그 [laugh]/[sigh]/[breath], 래핑 태그 <whisper>/<emphasis>로 표현 제어. 출력은 PCM·MP3(기본 24kHz/128kbps)·Opus·FLAC·WAV·telephony용 µ-law. 0.7×~1.5× 속도 조절. 최대 120초 클립으로 커스텀 voice-cloning 도 가능 (Basenor 분석).
숫자로 보기
- STT 배치: $0.10/오디오 시간 — Whisper API $0.36 대비 약 72% 절감
- STT 스트리밍: $0.20/오디오 시간 — Deepgram Nova-3 $0.26 대비 약 23% 절감
- TTS: $4.20/100만 문자
- 자체 word-error-rate: 일반 6.9% / 전화통화 엔티티 5.0% / 영상·팟캐스트 2.4% / 회의 10.9%
- 입력 한도: 500MB, 25개 언어, 12개 포맷
왜 중요한가
실무 관점에서 두 가지가 바뀐다.
첫째, 단가 구조. 콜센터처럼 월 수만 시간 오디오를 처리하는 워크로드는 STT 가격이 그대로 마진이다. 시간당 $0.30~$0.40 → $0.10으로 떨어지면 월 1만 시간 처리 기준 $2,000~$3,000 절감. Whisper 자가 호스팅(GPU 상시 운영) 대비해서도 트래픽이 일정치 않은 경우엔 API 쪽이 유리해진다.
둘째, ITN이 기본값. Whisper·Deepgram도 inverse-text-normalization을 옵션으로 제공하지만, 의료·법률·금융 도메인에서 이름·계좌·날짜를 사람이 쓸 표기로 정규화하는 후처리는 보통 자체 파이프라인이 필요했다. xAI는 이를 모델에 내장해 전화통화 엔티티 WER 5.0%를 강조한다. 콜봇·디스커버리 시스템에서 후처리 코드 한 단을 들어낼 수 있다는 뜻.
도입 검토 체크리스트: (1) 한국어 speaker-diarization 실측, (2) 실시간 지연 — 공식 ms 수치 없음, 자체 측정 필수, (3) 데이터 보존·HIPAA 정책 미공개 — 의료 도입 시 보류 권장, (4) SLA와 리전 옵션, (5) 기존 Whisper 기반 파이프라인의 ITN 후처리 코드를 들어낼 수 있는지 검증.
누가 이득, 누가 손해
이득: 음성 인프라 의존도가 높은 콜봇·미디어·접근성 스타트업. 자가 호스팅 운영 부담 없이 API 한 줄로 같은 가격대 가능. Tesla·Starlink 트래픽으로 단련된 엔진이라는 프레이밍은 엔터프라이즈 영업에도 먹힌다.
압박: Deepgram·AssemblyAI·ElevenLabs·OpenAI Audio. 단가를 따라가지 않으면 commodity 영역에서 점유율을 잃는다. Deepgram은 STT 단일 사업자라 직격탄. ElevenLabs는 TTS 표현력으로 차별화해 왔지만 Grok TTS도 [laugh]·<whisper> 태그를 그대로 따라잡았다.
중립~관망: Anthropic·Google. 두 곳 다 음성을 자사 일반 모델 외 별도 API로 강하게 밀고 있지 않아 직접 충돌은 약하다.
더 깊이
eesel AI 가격 분석과 AI Cost Check는 이 가격을 "명백한 land-and-expand — 마진 포기·점유율 우선"으로 해석했다. xAI는 X·Tesla·Starlink라는 captive 트래픽으로 단위 비용을 이미 상각했기 때문에, 외부 API 가격을 한계 비용 가까이 책정할 여유가 있다는 분석이다.
전략적으로 이번 출시는 Grok Voice Agent API와 묶여 OpenAI Realtime API·Deepgram Voice Agent와 정면 경쟁한다. WebSocket(wss://api.x.ai/v1/realtime) 기반에 서버사이드 VAD 턴테이킹, 웹 검색 등 툴 통합 내장. 5월 10일 Apple CarPlay 통합 발표로 자동차·통신 콜센터로 외연을 확장 중이다.
벤치마크 신뢰도에 대해선 LaoZhang AI 리뷰가 "xAI의 WER 표는 Grok STT를 시험해 볼 이유이지, 모든 워크로드에서 기존 파이프라인을 능가한다는 독립 증거가 아니다"라고 짚었다. 자기 도메인 오디오로 직접 A/B가 필수.
아직 알 수 없는 것
- 평가셋 공개 부재: WER 측정에 쓴 오디오·전사 규약이 비공개. 같은 셋으로 제3자 재현 불가.
- 공식 지연 수치 없음: "instant" 표현만 사용, end-to-end ms 미공개.
- 컴플라이언스 공백: HIPAA·SOC2·BAA·EU 데이터 거주성 명시 없음.
- 비영어권 실측: 25개 언어 중 "최고 품질" 9개 외 16개 언어 측정값 부재. 한국어 다이어라이제이션 품질 실측 없음.
- 음성 에이전트 SLA: 함수 호출·툴 사용을 결합한
grok-voice-latest의 SLA는 베타 수준.
5분 실습 (보통 · 10분)
- console.x.ai에서 API 키 발급 + 소액 크레딧 충전.
- 본인 도메인 오디오 샘플(예: 회의 녹음 10분, 가능하면 한국어) 준비.
- 동일 파일을 OpenAI Whisper API(
whisper-1)와 Deepgram Nova-3에 넣어 WER·고유명사 표기·다이어라이제이션 품질·소요 시간 비교. - 모델별 단어 오류·화자 분리 정확도·가격(시간 환산)·후처리 필요 여부를 표로 정리.
REST 호출:
curl -X POST https://api.x.ai/v1/stt \
-H "Authorization: Bearer $XAI_KEY" \
-F "[email protected]" \
-F "model=grok-stt" \
-F "diarization=true" \
-F "language=ko"
더 읽어보기
- Grok Speech to Text and Text to Speech APIs · 2026-04-17 · xAI 공식 발표 + 자체 벤치마크
- xAI Launches Standalone Grok STT/TTS APIs · MarkTechPost · 시장·전략 맥락
- Grok Speech-to-Text API: Endpoint, Pricing, Streaming · LaoZhang AI · 엔드포인트·레이트 리밋 상세
- xAI Grok API Pricing Guide 2026 · AI Cost Check · 경쟁사 단가 비교
- Speech-to-Text Benchmarks · Deepgram · 비교 가능한 production WER 기준선