fr

Transcription audio en masse : comparatif des APIs cloud en 2026

Guide complet et sourcé des APIs de transcription audio : tarifs, options batch, limites techniques et recommandations pour 1600h d'audio.

Tu as des centaines d’heures d’audio à transcrire. Pas question de modèles locaux — trop lent. Voici l’état des APIs cloud en mars 2026, avec les vrais chiffres.

Le contexte de ce comparatif : 1600 fichiers MP3 d’environ 1h chacun, soit ~1600h d’audio total (~96 000 minutes).


1. Ce que Claude ne peut pas faire

Première question naturelle si tu utilises Claude au quotidien : peut-il transcrire de l’audio via l’API ?

Non. L’API Anthropic accepte du texte et des images, pas de l’audio. La voix existe dans l’interface grand public (iOS, web), mais il n’y a pas d’endpoint de transcription dans l’API développeur. Source : Anthropic API Docs

Deuxième question : l’abonnement Claude Max ($100/mois) couvre-t-il l’usage API ?

Non. Max (comme Pro) couvre uniquement l’usage web/desktop/mobile. L’API est toujours pay-per-use, facturée séparément via l’API Console — zéro crédit API inclus dans l’abonnement. Source : Anthropic Support


2. Les APIs de transcription disponibles

OpenAI

OpenAI propose trois modèles de transcription en 2026 :

ModèlePrix/minPrix/heure
whisper-1 (legacy)$0.006$0.36
gpt-4o-transcribe$0.006$0.36
gpt-4o-mini-transcribe$0.003$0.18

Estimation pour 1600h : $288 (mini) à $576 (standard)

Batch API ? Non — la réduction de 50% du Batch API s’applique aux appels LLM (texte/vision), pas aux endpoints de transcription audio. Il n’existe pas de mode moins cher pour l’audio chez OpenAI.

Limite importante : 25 MB par fichier, 25 minutes par requête pour gpt-4o-transcribe. Des fichiers d’1h devront être découpés avant envoi. whisper-1 est plus souple selon le débit du MP3.

Source : OpenAI API Pricing

Mistral — Voxtral

Mistral a lancé Voxtral Transcribe v2 début 2026 :

ModèlePrix/minPrix/heure
voxtral-mini-transcribe-v2 (batch)$0.003$0.18
voxtral-realtime (streaming)$0.006$0.36

Estimation pour 1600h : $288

Le modèle mini est conçu spécifiquement pour la transcription de fichiers pré-enregistrés en lot. Diarisation des locuteurs et timestamps au niveau du mot inclus. Angle intéressant pour une utilisation européenne (résidence des données).

Source : Mistral Audio Transcription Docs

AssemblyAI

ModèlePrix/heure
Universal-2$0.15
Universal-3 Pro$0.21
Diarisation (add-on)+$0.02

Estimation pour 1600h : $240 (Universal-2) à $336 (Universal-3 Pro)

Tous les jobs sont async par défaut — on soumet, on poll. Adapté au traitement en masse sans infrastructure particulière. $50 de crédit à l’inscription (~333h offertes sur Universal-2).

Source : AssemblyAI Pricing

Deepgram

ModèlePrix/minPrix/heure
Nova-3 (pay-as-you-go)$0.0043$0.258

Estimation pour 1600h : ~$413

Facturation à la seconde réelle (pas à la minute arrondie). $200 de crédit gratuit à l’inscription (~770h de Nova-3). Pas de tier batch dédié au tarif réduit.

Source : Deepgram Pricing

Rev AI

ModèlePrix/heure
Reverb Turbo$0.10
Reverb (standard)$0.20

Estimation pour 1600h : $160 (Turbo) à $320 (standard)

Reverb Turbo à $0.10/h est le tarif le plus bas du marché — à tester sur un échantillon représentatif avant d’engager 1600h.

Source : Rev AI Pricing

Google Cloud Speech-to-Text v2

ModePrix/heure
Standard (Chirp)$0.96
Dynamic Batch (async, délai 24h)~$0.24

Estimation pour 1600h : $384 (batch) à $1 536 (standard)

Le mode Dynamic Batch offre 75% de réduction en échange d’un délai de traitement pouvant aller jusqu’à 24h. Pertinent pour un traitement non urgent. Attention : des coûts d’infrastructure GCP (Cloud Storage, Pub/Sub) s’ajoutent en pratique.

Source : Google Cloud STT Pricing

AWS Transcribe

TierVolume mensuelPrix/heure
Tier 10–250K min/mois$1.44
Tier 2250K–1M min/mois$0.90

Estimation pour 1600h : $2 304 (tout en Tier 1 si étalé sur plusieurs mois)

AWS Transcribe reste nettement plus cher que les alternatives sans avantage de qualité particulier. À éviter pour ce cas d’usage.

Source : AWS Transcribe Pricing


3. Synthèse

ServiceModèlePrix/heure1600h totalBatch/async
Rev AIReverb Turbo$0.10$160Non
AssemblyAIUniversal-2$0.15$240Oui
OpenAIGPT-4o Mini Transcribe$0.18$288Non
MistralVoxtral Mini v2$0.18$288Oui
Google CloudDynamic Batch~$0.24~$384Oui (24h)
DeepgramNova-3$0.258~$413Async natif
OpenAIWhisper / GPT-4o Transcribe$0.36$576Non
Google CloudStandard$0.96$1 536Non
AWS TranscribeStandard$1.44$2 304Non
AnthropicN/AN/ANon supporté

4. Recommandation

En pratique, AssemblyAI Universal-2 est le point de départ logique : $240 pour 1600h, async natif, API simple, bonne précision, et $50 de crédit à l’inscription. C’est la combinaison la plus directe à mettre en œuvre.

Si le budget est la contrainte principale, tester Rev AI Reverb Turbo ($160) sur 20-30 fichiers représentatifs — la qualité sur ton type d’audio déterminera si c’est viable.

Mistral Voxtral Mini v2 mérite d’être évalué si tu as des considérations de résidence des données en Europe ou si tu travailles déjà dans l’écosystème Mistral.

À éviter pour ce cas d’usage : AWS Transcribe et Google Cloud standard — 4 à 10x plus chers que les alternatives sans gain de qualité documenté.

Pièges pratiques

Découpage des fichiers : OpenAI impose 25 MB/25 min par requête pour gpt-4o-transcribe. Pour des MP3 d’1h, il faut splitter (ex. avec ffmpeg) avant envoi. AssemblyAI et Deepgram acceptent des fichiers longs via URL distante — bien plus pratique.

Crédits gratuits : AssemblyAI offre $50 (~333h) et Deepgram $200 (~770h) à l’inscription — utiliser ces crédits pour valider la qualité avant de choisir.

Parallélisation : Les APIs ont des rate limits. Pour 1600h en temps raisonnable, prévoir un pipeline avec file d’attente et retry sur erreur 429.