Image default
Divers Formation

Transcrire et sous titrer des vidéos

En complémentarité à mon comparatif d’applications web de montage vidéo, je propose sur cette page une comparaison d’outils en ligne pour automatiser la transcription et rendre plus efficace la génération de sous titres pour vos vidéos.

L’enjeu est de trouver le meilleur outil qui puisse nous accompagner efficacement à travers toutes les étapes, depuis la vidéo « nue », sans transcription, à la vidéo bien présentée, avec sous titrage.
Idéalement de manière peu onéreuse, efficace et simple…

Cette page est régulièrement mise à jour, pour refléter les évolutions de ces outils.

Pourquoi transcrire ?

Il y a plusieurs raisons de vouloir transcrire ce qui est dit:

  • Accessibilité. Permettre aux personnes malentendantes de comprendre ce qui est dit.
  • Communication. Pouvoir lire à l’écran ce qui est dit au son devient de plus en plus important (85% des personnes regardent des vidéos sans son sur Facebook).
  • Trouvabilité (SEO). Aider les moteurs de recherche à trouver et à référencer ses vidéos, basé sur ce qui est dit.
  • Découverte. Améliorer les recommandations sur base de l’analyse fine du contenu.
  • Interactivité. Pouvoir trouver et pointer les parties intéressantes dans une vidéo, à l’aide d’un texte interactif.

On le voit: il y a intérêt à proposer une transcription de qualité pour ses vidéos, si l’on veut maximiser les chances que ses vidéos rencontrent les publics que l’on vise.

Comment transcrire ?

Il y a deux manières de faire:

  • Manuellement. Regarder la vidéo et transcrire à la main dans un fichier (Word, ou directement avec son logiciel de montage ou de sous titrage). Il faut segmenter les phrases en sous titres bien condensés, en relation avec le rythme du montage – c’est un travail non négligeable (il faut compter 3 à 4 fois la durée de la vidéo).
  • Automatiquement. Via une application qui « écoute » ce qui est dit et qui génère automatiquement le texte écrit, segmenté en sous titres. Le tout se déroule très rapidement, en quelques secondes par minute de vidéo initiale…

La méthode automatique qui nous intéresse ici est basée sur un mix entre des algorithmes et du machine learning (aka intelligence artificielle). Les solutions présentées plus bas utilisent des technologies mises à disposition par nos géants bien aimés (Google, Amazon, IBM, Microsoft etc) ou utilisent des services web (APIs) comme ceux de Speechmatics ou de Vocapia.
C’est donc les mécaniques algorithmiques créées spécifiquement par dessus une solution comme celle de Google qui feront la différence entre les diverses applications de transcription automatique.

L’automatisation a ses limites

Même si le speech to text a énormément progressé ces dernières années et fait maintenant partie intégrante des flux de travail professionnels, nous sommes encore loin d’une fiabilité assurée à 100% pour tous les cas de figures.
J’ai pu avoir un presque sans faute avec mon test d’une courte interview en anglais (proprement enregistrée) avec le logiciel Descript. Le seul mot qui n’est pas passé: french est devenu… friendship.
Ce logiciel fonctionne seulement avec l’anglais, malheureusement… Voir la vidéo plus bas.

Il faudra donc toujours prendre du temps pour corriger et affiner la transcription, de manière à pouvoir ensuite traduire et générer des sous titres dans diverses langues – avec la langue originale comme base de travail indispensable.

La base du test

Pour tester ma sélection de 6 applications web abordables et faciles à utiliser, j’ai créé une courte vidéo avec diverses situations potentiellement problématiques (c’est un vrai stress test, pour bien voir les limites):

  • plusieurs personnes qui parlent rapidement à la suite
  • deux situations d’interviews sans phrasé précis
  • une situation avec beaucoup de bruit en arrière fond (partie déjà sous titrée manuellement)
  • des transitions nets d’une situation à une autre

Voici la vidéo de base.

Si vous ouvrez la vidéo dans YouTube, vous pouvez activer le sous titrage automatique de YouTube, et voir la transcription en cliquant sur les trois … en bas à droite.
La transcription (interactive) se présente à droite de la vidéo.

Faire mieux que YouTube

La transcription automatique de YouTube est notre référence de base: on voit d’emblée que nous sommes encore bien loin de quelque chose de cohérent… C’est seulement en partie utilisable (il y a les mots clé importants qui ressortent, c’est déjà ça).

Est-ce que les autres solutions feront mieux ?

Je liste les diverses applications dans mon ordre de préférence, en basant mon analyse sur les critères suivants:

  • Fiabilité et robustesse du résultat automatique
  • Simplicité d’usage (mise en service, utilisation)
  • Efficacité du flux de travail (qualité des outils et des fonctionnalités)
  • Ouverture (import, export)
  • Réglages (paramètres à disposition)
  • Informations complémentaires (FAQ, tutoriels, aide)
  • Prix (rapport heure / coût et valeur ajoutée de l’abonnement)

Comme les applications web peuvent évoluer vite et en profondeur, ce comparatif réalisé début octobre 2020 pourrait s’avérer dépassé déjà dans quelques semaines…
Je vais essayer de tenir à jour ce billet en indiquant les évolutions des outils.

<mise à jour janvier 2022> Un comparatif très détaillé portant sur plusieurs solutions professionnelles avec un extrait pour donner une idée:

Lien de référence https://hal.archives-ouvertes.fr/halshs-02917916v2

Les applications web testées: le gagnant

Subly se présente au premier regard comme une solution plus grand public, principalement pour des usages de type réseaux sociaux. Une petite équipe développe cet outil depuis 2018, avec des mises à jours importantes tout récemment.

Je n’y aurais pas cru, mais il se trouve que c’est l’outil qui donne les meilleurs résultats (avec ma vidéo test) et qui est le plus intuitif et efficace à utiliser.

Voici le résultat brut en sortie de l’analyse automatique (les sous titres de transcription sont tout en bas de l’image, pour ne pas entrer en conflit avec les sous titres déjà existants):

Il s’agit du meilleur résultat en comparaison avec les autres outils testés ici. La bonne impression est sans doute soutenue par le fait que leur algorithme découpe ce qui est dit en plus petits morceaux. En effet, comme il y a beaucoup d’interlocuteurs différents et des phrases qui ne se terminent pas, le découpage en plus petits morceaux fonctionne mieux que des sous-titres avec beaucoup de mots qui restent longtemps.

L’interface de Subly est simple et sobre, et à l’usage l’éditeur de transcription vers les sous titres a été agréable et efficace à manipuler.

En plus, Subly est dans les solutions les meilleurs marché du comparatif (10$ pour 100 minutes de vidéo, par mois). Le désavantage de leur modèle économique est la facturation par mois, et pas par durée de la vidéo, ce qui n’est pas idéal en période de production intense.

Le top est réservé pour les vidéos parlées en anglais

Si vous travaillez avec des vidéos parlées en anglais, la solution idéale est Descript.
Cette solution (qui propose une application native OSX) a fait un sans faute sur ma vidéo test en anglais, et propose des fonctionnalités hallucinantes, que je vous propose de découvrir dans la vidéo ci-dessous:

Et ils ont ajouté le français en 2022 🙂
À côté de Descript, les autres solutions ont tout de suite 5 ans de moins.

Les autres applications

SimonSays est une solution un peu à part: en plus de l’application web, ils proposent une application native pour OSX et une intégration poussée avec Final Cut Pro X. Au démarrage du test, c’est la solution qui avait mes faveurs, grâce au côté workflow intégré avec mes propres outils de travail (j’utilise Final Cut Pro).

La qualité de la transcription est dans la moyenne, et leur application d’édition fonctionne plutôt pas mal, en gardant bien la synchronisation entre le son et le texte, ce qui permet de se concentrer sur les corrections et la segmentation.

Voici l’export vidéo de SimonSays, avec la première partie de la vidéo rapidement nettoyée manuellement (il faut regarder la fin de la vidéo pour voir le résultat brut de la transcription):

L’interface de l’application web de SimonSays ressemble à ça:

Cette application arrive en seconde position, juste après Subly, qui reste à mon avis le plus simple et le plus efficace à utiliser (il y a trop d’interfaces différentes et de difficultés de login avec Simon Says, le collaboratif est encore un peu instable), tout en étant moins chère que SimonSays (qui propose du pay-as-you-go à 15$ / heure).

Update novembre 2020: l’application a eu récemment plusieurs mises à jours, et en utilisant le service pour deux interviews simples de 3 minutes (une personne parle, proprement enregistrée), j’ai mis 20 minutes pour générer les flux de sous titre transcrits au propre et les traductions (anglaise & française) automatiquement, en incluant les petites corrections mineures, jusqu’à l’export depuis Final Cut Pro X avec les sous titres intégrés.

Update janvier 2021: l’application s’est dotée d’une fonctionnalité de montage en sélectionnant simplement des morceaux de texte – c’est encore dans les starting blocs mais c’est très prometteur ! Parfait pour travailler à plusieurs sur le prémontage d’une interview, pour ensuite exporter le bout à bout des textes vers l’éditeur de votre choix.
Je recommande donc, de plus en plus fortement…

Typestudio est une application que j’ai découvert en février 2021, et qui m’a d’emblée emballé pour sa simplicité et l’efficacité du résultat que j’ai pu atteindre en quelques minutes:

Comme on peut le voir, on a un player vidéo qui intègre le texte synchronisé à la vidéo. On voit bien que le résultat (non corrigé) est pas si mal que ça, par rapport aux autres solutions présentées ici.
Dans l’éditeur, il est très simple de corriger et de segmenter les phrases pour avoir des sous titres plus lisibles. Là, j’ai décidé de générer des sous-titres dynamiques, mais il est possible d’avoir des sous-titres classiques aussi.

Cerises sur le gâteau:

  • Cette solution permet aussi de monter les vidéos ! Simplement en éditant le texte… Bon c’est pas aussi bien que la solution développée par Simon Says (Assemble) parce que l’édition se fait en soustractif (les textes coupés disparaissent de notre vue) et pas en mode additif, comme le fait Simon Says (ce qui est plus pratique et efficace). Cela ne remplace pas un montage fin, parce que l’on va entendre les coupes à l’audio…
  • C’est vraiment pas cher: 18$ / mois pour 10 heures de vidéo (payement mensuel; en annualisé c’est 14$). Bémols: la durée est de maximum 30 minutes (pour ce plan) et la traduction est réservée à l’abonnement Entreprise…

Il n’y a pas autant de fonctionnalités d’exportation qu’avec Simon Says (qui est le leader dans ce domaine), il n’y a pas de notes ou de reconnaissance de locuteur, mais je vais définitivement garder un œil sur cette solution !

L’interface d’édition
La fonctionnalité d’édition du texte -> vidéo

Sonix est une application web solide et bien réalisée, avec beaucoup de fonctionnalités et une approche très customer friendly.

Si Sonix travaille encore sur la robustesse de sa transcription automatique (qui n’a pas été très performante avec ma vidéo test), en améliorant l’efficacité de son outil de gestion des sous titres (il manque cruellement le point de sortie des sous titres et l’éditeur de timeline n’est pas encore au point) cette solution serait tout à fait recommandable.
Ce d’autant plus que les tarifs sont abordables à 10$ / l’heure en « pay as you go » (sans frais mensuels).

Sonix ne propose pas encore d’export vidéo avec les sous titres (dommage), mais il permet l’export du sous titrage dans de multiples format (même si le fichier pour Final Cut Pro n’a pas fonctionné pour moi).

Voici l’interface de Sonix:

Capté est un outil développé en France, ce qui laisse à priori espérer que les vidéos parlées en Français seront mieux gérées que la concurrence anglo-saxonne. Leur application web se déconnecte souvent, ce qui force à recharger le projet avec une nouvelle connexion au service.

Le résultat de la transcription automatique n’est pas particulièrement probant, peut-être aussi aggravé par le fait que la segmentation des phrases n’est pas bonne.

Voici la vidéo générée par Capté:

L’outil d’édition des sous titres n’est pas très intuitif (je n’ai pas compris la logique) et ne fonctionne pas très bien. Sans doute par le fait d’avoir voulu trop simplifier ? Il manque ici aussi le fait de définir un time code de sortie.
Malgré ces soucis, je pense que cet outil a de l’avenir (s’ils ajoutent un service à la minute vidéo utilisée, en pay-as-you-go) et peut-être que dans quelques mois, les défauts seront corrigés.

Voici la capture d’écran de l’interface de Capté:

Veed.io est mon application de montage en ligne favorite, testée dans le cadre de mon billet sur les applications de montage vidéo. Dans le laps de temps de mon test sur ces applications web (5 jours), les développeurs ont sacrément amélioré l’outil de sous titrage, pour le rendre bien plus performant.
Un bon signe !

Veed subtitle tool

Par contre la qualité de la transcription est du même ordre que pour Capté: moins bon que la référence (momentanée) qu’est Subly. Mais heureusement que leur outil de segmentation de la transcription vers les sous titres est le meilleur de ce comparatif – pas étonnant, du fait que le montage vidéo, c’est dans leur ADN…

Le gros avantage de Veed.io, c’est que c’est bien plus qu’une « simple » application de transcription. C’est aussi une application de montage et d’effets spéciaux. Dans ce sens, il est difficile de comparer le positionnement tarifaire avec les autres outils. À la base, leur abonnement annuel à 288$ / année comprend à priori tout ce dont on a besoin (100GB de stockage, c’est pas mal) et donc la transcription et le sous titrage peut être vu comme « cadeau ».

Amberscript est une application développée en Suisse, qui cible une clientèle de solo entrepreneurs, de chercheurs et d’institutions. Il y a en outre divers services spécifiques proposés pour une qualité optimale (transcription et sous titrage manuel), en plus du module automatique.
Au niveau du prix, leur service est dans les plus chers (20€ / heure pour le pay-as-you-go).

Le résultat de la transcription n’est pas très bon non plus, mais pas pire que les autres solutions ci-dessus.
Là où ça devient réellement problématique par contre, c’est lorsque l’on veut affiner et améliorer la transcription avec le sous titrage. Leur outil est le moins bon de toutes les applications présentées ici: je n’ai pas compris la logique de l’usage de l’outil lorsque j’ai essayé de nettoyer la transcription à la main.

Voici la capture d’écran de l’interface:

Gageons que eux aussi, ils sauront faire évoluer leur outil au gré des retours.

En conclusion

Il faut bien dire que ma vidéo test a été un vrai casse tête pour les divers services web mis à l’épreuve ici. La fiabilité d’une transcription automatique tombe vite à moins de 50% lorsqu’il y a:

  • plusieurs personnes qui parlent à la suite, rapidement
  • un phrasé sans ponctuation et avec des mots répétés
  • un bruit de fond important, ou simplement la circulation automobile

La fiabilité de ces outils va grandement varier selon la qualité de la vidéo à transcoder. Je suis sûr que vous aurez un autre résultat concernant l’efficacité de la transcription avec vos propres vidéos. Ce qui revient à dire que l’élément différenciateur entre ces plateformes ne sera pas la qualité (très variable) de l’automatisation du speech to text, mais bien sa capacité à vous permettre de rapidement nettoyer et publier la transcription.
C’est là que l’on voit que les outils qui ont dans leur ADN le montage vidéo via une timeline, avec time code in et out, sont les plus efficaces (pour une personne qui a l’habitude des outils de montage).

Au niveau des plans tarifaires, les maigres plus values proposées par les services testés ici ne justifient par toujours le modèle de l’abonnement mensuel. Il faut vraiment que le service propose une valeur ajoutée originale et importante, que l’on utilise chaque mois, pour justifier le coût d’un abonnement mensuel.
Si c’est juste pour transcrire et traduire de temps à autres une vidéo, le pricing en pay-as-you-go est le plus adapté – mais malheureusement pas tous les services le proposent.
Il faut alors souscrire mensuellement lorsque l’on en a besoin et ensuite se désinscrire à la fin du mois…

Si vous utilisez avec bonheur une application qui manque à ce comparatif, merci de me le signaler par un simple email !

Bonus track

En complément, voici un autre test avec d’autres solutions:

Et le lien vers mon billet sur les outils de montage dans le navigateur.

Cet article vous a plu ? Inscrivez-vous à ma newsletter pour recevoir 4 fois par année une compilation d’articles de ce genre.

Laissez un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

;-)