Transcription audio en masse : comparatif des APIs cloud en 2026
Guide complet et sourcé des APIs de transcription audio : tarifs, options batch, limites techniques et recommandations pour 1600h d'audio.
Tu as des centaines d’heures d’audio à transcrire. Pas question de modèles locaux — trop lent. Voici l’état des APIs cloud en mars 2026, avec les vrais chiffres.
Le contexte de ce comparatif : 1600 fichiers MP3 d’environ 1h chacun, soit ~1600h d’audio total (~96 000 minutes).
1. Ce que Claude ne peut pas faire
Première question naturelle si tu utilises Claude au quotidien : peut-il transcrire de l’audio via l’API ?
Non. L’API Anthropic accepte du texte et des images, pas de l’audio. La voix existe dans l’interface grand public (iOS, web), mais il n’y a pas d’endpoint de transcription dans l’API développeur. Source : Anthropic API Docs
Deuxième question : l’abonnement Claude Max ($100/mois) couvre-t-il l’usage API ?
Non. Max (comme Pro) couvre uniquement l’usage web/desktop/mobile. L’API est toujours pay-per-use, facturée séparément via l’API Console — zéro crédit API inclus dans l’abonnement. Source : Anthropic Support
2. Les APIs de transcription disponibles
OpenAI
OpenAI propose trois modèles de transcription en 2026 :
| Modèle | Prix/min | Prix/heure |
|---|---|---|
whisper-1 (legacy) | $0.006 | $0.36 |
gpt-4o-transcribe | $0.006 | $0.36 |
gpt-4o-mini-transcribe | $0.003 | $0.18 |
Estimation pour 1600h : $288 (mini) à $576 (standard)
Batch API ? Non — la réduction de 50% du Batch API s’applique aux appels LLM (texte/vision), pas aux endpoints de transcription audio. Il n’existe pas de mode moins cher pour l’audio chez OpenAI.
Limite importante : 25 MB par fichier, 25 minutes par requête pour gpt-4o-transcribe. Des fichiers d’1h devront être découpés avant envoi. whisper-1 est plus souple selon le débit du MP3.
Mistral — Voxtral
Mistral a lancé Voxtral Transcribe v2 début 2026 :
| Modèle | Prix/min | Prix/heure |
|---|---|---|
voxtral-mini-transcribe-v2 (batch) | $0.003 | $0.18 |
voxtral-realtime (streaming) | $0.006 | $0.36 |
Estimation pour 1600h : $288
Le modèle mini est conçu spécifiquement pour la transcription de fichiers pré-enregistrés en lot. Diarisation des locuteurs et timestamps au niveau du mot inclus. Angle intéressant pour une utilisation européenne (résidence des données).
Source : Mistral Audio Transcription Docs
AssemblyAI
| Modèle | Prix/heure |
|---|---|
| Universal-2 | $0.15 |
| Universal-3 Pro | $0.21 |
| Diarisation (add-on) | +$0.02 |
Estimation pour 1600h : $240 (Universal-2) à $336 (Universal-3 Pro)
Tous les jobs sont async par défaut — on soumet, on poll. Adapté au traitement en masse sans infrastructure particulière. $50 de crédit à l’inscription (~333h offertes sur Universal-2).
Deepgram
| Modèle | Prix/min | Prix/heure |
|---|---|---|
| Nova-3 (pay-as-you-go) | $0.0043 | $0.258 |
Estimation pour 1600h : ~$413
Facturation à la seconde réelle (pas à la minute arrondie). $200 de crédit gratuit à l’inscription (~770h de Nova-3). Pas de tier batch dédié au tarif réduit.
Rev AI
| Modèle | Prix/heure |
|---|---|
| Reverb Turbo | $0.10 |
| Reverb (standard) | $0.20 |
Estimation pour 1600h : $160 (Turbo) à $320 (standard)
Reverb Turbo à $0.10/h est le tarif le plus bas du marché — à tester sur un échantillon représentatif avant d’engager 1600h.
Google Cloud Speech-to-Text v2
| Mode | Prix/heure |
|---|---|
| Standard (Chirp) | $0.96 |
| Dynamic Batch (async, délai 24h) | ~$0.24 |
Estimation pour 1600h : $384 (batch) à $1 536 (standard)
Le mode Dynamic Batch offre 75% de réduction en échange d’un délai de traitement pouvant aller jusqu’à 24h. Pertinent pour un traitement non urgent. Attention : des coûts d’infrastructure GCP (Cloud Storage, Pub/Sub) s’ajoutent en pratique.
Source : Google Cloud STT Pricing
AWS Transcribe
| Tier | Volume mensuel | Prix/heure |
|---|---|---|
| Tier 1 | 0–250K min/mois | $1.44 |
| Tier 2 | 250K–1M min/mois | $0.90 |
Estimation pour 1600h : $2 304 (tout en Tier 1 si étalé sur plusieurs mois)
AWS Transcribe reste nettement plus cher que les alternatives sans avantage de qualité particulier. À éviter pour ce cas d’usage.
Source : AWS Transcribe Pricing
3. Synthèse
| Service | Modèle | Prix/heure | 1600h total | Batch/async |
|---|---|---|---|---|
| Rev AI | Reverb Turbo | $0.10 | $160 | Non |
| AssemblyAI | Universal-2 | $0.15 | $240 | Oui |
| OpenAI | GPT-4o Mini Transcribe | $0.18 | $288 | Non |
| Mistral | Voxtral Mini v2 | $0.18 | $288 | Oui |
| Google Cloud | Dynamic Batch | ~$0.24 | ~$384 | Oui (24h) |
| Deepgram | Nova-3 | $0.258 | ~$413 | Async natif |
| OpenAI | Whisper / GPT-4o Transcribe | $0.36 | $576 | Non |
| Google Cloud | Standard | $0.96 | $1 536 | Non |
| AWS Transcribe | Standard | $1.44 | $2 304 | Non |
| Anthropic | — | N/A | N/A | Non supporté |
4. Recommandation
En pratique, AssemblyAI Universal-2 est le point de départ logique : $240 pour 1600h, async natif, API simple, bonne précision, et $50 de crédit à l’inscription. C’est la combinaison la plus directe à mettre en œuvre.
Si le budget est la contrainte principale, tester Rev AI Reverb Turbo ($160) sur 20-30 fichiers représentatifs — la qualité sur ton type d’audio déterminera si c’est viable.
Mistral Voxtral Mini v2 mérite d’être évalué si tu as des considérations de résidence des données en Europe ou si tu travailles déjà dans l’écosystème Mistral.
À éviter pour ce cas d’usage : AWS Transcribe et Google Cloud standard — 4 à 10x plus chers que les alternatives sans gain de qualité documenté.
Pièges pratiques
Découpage des fichiers : OpenAI impose 25 MB/25 min par requête pour gpt-4o-transcribe. Pour des MP3 d’1h, il faut splitter (ex. avec ffmpeg) avant envoi. AssemblyAI et Deepgram acceptent des fichiers longs via URL distante — bien plus pratique.
Crédits gratuits : AssemblyAI offre $50 (~333h) et Deepgram $200 (~770h) à l’inscription — utiliser ces crédits pour valider la qualité avant de choisir.
Parallélisation : Les APIs ont des rate limits. Pour 1600h en temps raisonnable, prévoir un pipeline avec file d’attente et retry sur erreur 429.