한국어 음성 인식 서비스를 만들려고 엔진을 고르다 보면 "결국 뭐가 제일 좋은가"라는 질문에 부딪힙니다. 2026 년 기준 상용 API 세 가지 — Deepgram Nova-3 · OpenAI Whisper · Google Gemini — 를 정확도 · 속도 · 비용 · 사용성 관점에서 정리합니다. 옮김 구축 과정에서 실측한 수치를 담았습니다.
요약 비교
| 항목 | Deepgram Nova-3 | Whisper API (OpenAI) | Gemini 2.0 (audio) |
|---|---|---|---|
| 한국어 품질 | 상 (구어체·고유명사 강함) | 상 (중문어체 강함) | 상 (문어체 강함) |
| 처리 속도 (90분 영상) | ~1분 | ~3–5분 (25MB 청크 필요) | ~1–2분 |
| 단일 파일 크기 한도 | 2 GB | 25 MB | ~2 GB (Files API) |
| 분당 비용 | $0.0043 (nova-3) | $0.006 | $0.0001 미만 (audio tokens) |
| 타임스탬프·화자 분리 | 내장 (단어·utterance·diarize) | 세그먼트 단위 | 문장 단위 (수동 파싱) |
| 무료 티어 | $200 신규 크레딧 | 없음 (API 종량) | 일 1500 요청 (flash) |
1. 정확도 — 실측
대학 강의 녹화(약 1h 40m, 한국어) 를 세 엔진 각각에 태운 결과:
- Deepgram Nova-3: 구어체("했거든요", "~잖아요" 등) 처리가 자연스러움. "현대자동차"·"금속노조" 같은 고유명사 정확 인식. 숫자·외래어 혼용 시 강점.
- Whisper: 문장 마무리 표현이 표준화되는 경향 (구어체가 문어체로 변환). 학술 용어는 정확하나 구어체 "~잖아" 처럼 문법에서 벗어난 표현이 "~잖아요" 로 자동 교정되어 원형 보존은 떨어짐.
- Gemini 2.0: 전반적으로 매끄러운 문어체 출력. 타임스탬프가 단어 단위로 촘촘하지 않아 자막 생성에는 후처리 필요.
구어체 원형 보존이 중요한 회의·강의 기록에는 Deepgram, 공식 기사·논문 초안에는 Whisper 나 Gemini 가 유리합니다.
2. 처리 속도 — SaaS 설계 관점
대용량 파일을 단일 요청으로 받는지가 핵심입니다. Whisper 는 25MB 제한 때문에 1.5시간 영상을 청크로 자르고 합치는 파이프라인이 필요합니다. Deepgram 과 Gemini 는 단일 요청으로 처리되어 서버 로직이 훨씬 간단합니다.
Vercel Functions 처럼 타임아웃(300s) 이 있는 환경에서는 async + webhook 콜백 패턴이 중요합니다. Deepgram 은 callback 파라미터로 공식 지원하며, 옮김 역시 이 패턴으로 구축했습니다.
3. 비용 — 실제 지출 예시
옮김 Phase 0 에서 대학 강의 6편(총 10h 11m) 을 Deepgram 으로 전사한 실제 지출은 $2.63 이었습니다 (신규 크레딧 $200 내).
Gemini 는 오디오 토큰이 매우 저렴해 이론적으로는 Deepgram 대비 10분의 1 이하이지만, Files API 업로드·처리 시간·문장 단위 타임스탬프 파싱 추가 개발 비용을 고려하면 단순 "분당 가격" 으로만 판단하기 어렵습니다.
4. API 사용성
- Deepgram: URL 기반 async + webhook, SDK 성숙. 옮김은 이 방식으로 구축.
- Whisper: 파일 업로드 동기 API. 청크 로직 + 순서 보장 + 중복 제거가 추가 부담.
- Gemini: Google GenAI SDK 로 Files API 업로드 → 동기 호출. 응답 포맷을 프롬프트로 통제 (JSON 강제 등).
5. 실무 선택 가이드
- 실시간·장시간·한국어 구어체 중시 → Deepgram Nova-3
- 문어체 · 학술 용어 · 영어 섞인 콘텐츠 → Whisper 또는 Gemini
- 비용 극단 최소화 + 품질도 괜찮음 → Gemini 2.0 Flash (단 개발 공수 있음)
- 화자 분리 · 감정 · 언어 감지까지 → AssemblyAI Best (본 글엔 미포함, 별도 엔진)
맺음말
옮김은 Deepgram Nova-3 를 기본 엔진, Gemini 2.0 을 보조 엔진(CLI) 으로 구성했습니다. 업로드 기능은 언어를 자동 감지하므로 한국어 · 영어 영상 모두 같은 정확도로 처리됩니다. 실제로 시도해보고 싶다면 옮김 홈에서 바로 업로드하거나 YouTube 링크를 붙여넣어 보세요.