Image default
Divers Formation

Transcrire et sous titrer des vidéos

En complémentarité à mon comparatif d’applications web de montage vidéo, je propose sur cette page une comparaison d’outils en ligne pour automatiser la transcription et rendre plus efficace la génération de sous titres pour vos vidéos.

L’enjeu est de trouver le meilleur outil qui puisse nous accompagner efficacement à travers toutes les étapes, depuis la vidéo « nue », sans transcription, à la vidéo bien présentée, avec sous titrage.
Idéalement de manière peu onéreuse, efficace et simple…

Pourquoi transcrire ?

Il y a plusieurs raisons de vouloir transcrire ce qui est dit:

  • Accessibilité. Permettre aux personnes malentendantes de comprendre ce qui est dit.
  • Communication. Pouvoir lire à l’écran ce qui est dit au son devient de plus en plus important (85% des personnes regardent des vidéos sans son sur Facebook).
  • Trouvabilité (SEO). Aider les moteurs de recherche à trouver et à référencer ses vidéos, basé sur ce qui est dit.
  • Découverte. Améliorer les recommandations sur base de l’analyse fine du contenu.
  • Interactivité. Pouvoir trouver et pointer les parties intéressantes dans une vidéo, à l’aide d’un texte interactif.

On le voit: il y a intérêt à proposer une transcription de qualité pour ses vidéos, si l’on veut maximiser les chances que ses vidéos rencontrent les publics que l’on vise.

Comment transcrire ?

Il y a deux manières de faire:

  • Manuellement. Regarder la vidéo et transcrire à la main dans un fichier (Word, ou directement avec son logiciel de montage ou de sous titrage). Il faut segmenter les phrases en sous titres bien condensés, en relation avec le rythme du montage – c’est un travail non négligeable (il faut compter 3 à 4 fois la durée de la vidéo).
  • Automatiquement. Via une application qui « écoute » ce qui est dit et qui génère automatiquement le texte écrit, segmenté en sous titres. Le tout se déroule très rapidement, en quelques secondes par minute de vidéo initiale…

La méthode automatique qui nous intéresse ici est basée sur un mix entre des algorithmes et du machine learning (aka intelligence artificielle). Les solutions présentées plus bas utilisent des technologies mises à disposition par nos géants bien aimés (Google, Amazon, IBM, Microsoft etc) ou utilisent des services web (APIs) comme ceux de Speechmatics ou de Vocapia.
C’est donc les mécaniques algorithmiques créées spécifiquement par dessus une solution comme celle de Google qui feront la différence entre les diverses applications de transcription automatique.

L’automatisation a ses limites

Même si le speech to text a énormément progressé ces dernières années et fait maintenant partie intégrante des flux de travail professionnels, nous sommes encore loin d’une fiabilité à 100% (qui ne sera sans doute jamais atteinte).

Il faudra donc toujours prendre du temps pour corriger et affiner la transcription, de manière à pouvoir ensuite traduire et générer des sous titres dans diverses langues – avec la langue originale comme base de travail indispensable.

La base du test

Pour tester ma sélection de 6 applications web abordables et faciles à utiliser, j’ai créé une courte vidéo avec diverses situations potentiellement problématiques (c’est un vrai stress test, pour bien voir les limites):

  • plusieurs personnes qui parlent rapidement à la suite
  • deux situations d’interviews sans phrasé précis
  • une situation avec beaucoup de bruit en arrière fond (partie déjà sous titrée manuellement)
  • des transitions nets d’une situation à une autre

Voici la vidéo de base.

Si vous ouvrez la vidéo dans YouTube, vous pouvez activer le sous titrage automatique de YouTube, et voir la transcription en cliquant sur les trois … en bas à droite.
La transcription (interactive) se présente à droite de la vidéo.

Faire mieux que YouTube

La transcription automatique de YouTube est notre référence de base: on voit d’emblée que nous sommes encore bien loin de quelque chose de cohérent… C’est seulement en partie utilisable (il y a les mots clé importants qui ressortent, c’est déjà ça).

Est-ce que les autres solutions feront mieux ?

Je liste les diverses applications dans mon ordre de préférence, en basant mon analyse sur les critères suivants:

  • Fiabilité et robustesse du résultat automatique
  • Simplicité d’usage (mise en service, utilisation)
  • Efficacité du flux de travail (qualité des outils et des fonctionnalités)
  • Ouverture (import, export)
  • Réglages (paramètres à disposition)
  • Informations complémentaires (FAQ, tutoriels, aide)
  • Prix (rapport heure / coût et valeur ajoutée de l’abonnement)

Comme les applications web peuvent évoluer vite et en profondeur, ce comparatif réalisé début octobre 2020 pourrait s’avérer dépassé déjà dans quelques semaines…
Je vais essayer de tenir à jour ce billet en indiquant les évolutions des outils.

Les applications web testées: le gagnant

Subly se présente au premier regard comme une solution plus grand public, principalement pour des usages de type réseaux sociaux. Une petite équipe développe cet outil depuis 2018, avec des mises à jours importantes tout récemment.

Je n’y aurais pas cru, mais il se trouve que c’est l’outil qui donne les meilleurs résultats (avec ma vidéo test) et qui est le plus intuitif et efficace à utiliser.

Subly – Subtitle your videos automagically

What a great software for someone who knows nothing about editing video. It took me a total of 5 minutes of work from uploading to video, having it transcribed, doing minor edits in the text, then downloading the video file ready with the subtitles integrated and timed.

Voici le résultat brut en sortie de l’analyse automatique (les sous titres de transcription sont tout en bas de l’image, pour ne pas entrer en conflit avec les sous titres déjà existants):

Il s’agit du meilleur résultat en comparaison avec les autres outils testés ici. La bonne impression est sans doute soutenue par le fait que leur algorithme découpe ce qui est dit en plus petits morceaux. En effet, comme il y a beaucoup d’interlocuteurs différents et des phrases qui ne se terminent pas, le découpage en plus petits morceaux fonctionne mieux que des sous-titres avec beaucoup de mots qui restent longtemps.

L’interface de Subly est simple et sobre, et à l’usage l’éditeur de transcription vers les sous titres a été agréable et efficace à manipuler.

En plus, Subly est dans les solutions les meilleurs marché du comparatif (10$ pour 100 minutes de vidéo, par mois). Le désavantage de leur modèle économique est la facturation par mois, et pas par durée de la vidéo, ce qui n’est pas idéal en période de production intense.

Les autres applications

SimonSays est une solution un peu à part: en plus de l’application web, ils proposent une application native pour OSX et une intégration poussée avec Final Cut Pro X. Au démarrage du test, c’est la solution qui avait mes faveurs, grâce au côté workflow intégré avec mes propres outils de travail (j’utilise Final Cut Pro).

Transcription, sous-titres et traduction par I.A. | Simon Says

Transcription et traduction précises par I.A. pour l’audio et la vidéo. A l’honneur dans le Keynote d’Apple. Conçu pour les professionnels de la vidéo, il s’intègre à Premiere, FCPX, Avid et autres.

La qualité de la transcription est dans la moyenne, et leur application d’édition fonctionne plutôt pas mal, en gardant bien la synchronisation entre le son et le texte, ce qui permet de se concentrer sur les corrections et la segmentation.

Voici l’export vidéo de SimonSays, avec la première partie de la vidéo rapidement nettoyée manuellement (il faut regarder la fin de la vidéo pour voir le résultat brut de la transcription):

L’interface de l’application web de SimonSays ressemble à ça:

Cette application arrive en seconde position, juste après Subly, qui reste à mon avis le plus simple et le plus efficace à utiliser, tout en étant moins chère que SimonSays (qui propose du pay-as-you-go à 15$ / heure).

Sonix est une application web solide et bien réalisée, avec beaucoup de fonctionnalités et une approche très customer friendly.

Si Sonix travaille encore sur la robustesse de sa transcription automatique (qui n’a pas été très performante avec ma vidéo test), en améliorant l’efficacité de son outil de gestion des sous titres (il manque cruellement le point de sortie des sous titres et l’éditeur de timeline n’est pas encore au point) cette solution serait tout à fait recommandable.
Ce d’autant plus que les tarifs sont abordables à 10$ / l’heure en « pay as you go » (sans frais mensuels).

Automatically convert audio to text: Fast, Accurate, & Affordable | Sonix

Sonix transcribes, timestamps, and organizes your audio and video files in over 35 languages so they are easy to search, edit, and share. Start your free trial now-all features included, no credit card required. Try Sonix for free Includes 30 minutes of free transcription

Sonix ne propose pas encore d’export vidéo avec les sous titres (dommage), mais il permet l’export du sous titrage dans de multiples format (même si le fichier pour Final Cut Pro n’a pas fonctionné pour moi).

Voici l’interface de Sonix:

Capté est un outil développé en France, ce qui laisse à priori espérer que les vidéos parlées en Français seront mieux gérées que la concurrence anglo-saxonne. Leur application web se déconnecte souvent, ce qui force à recharger le projet avec une nouvelle connexion au service.

Capté | Créez rapidement des sous-titres intégrés à votre vidéo

Capté c’est l’outil pour créer des sous-titres facilement. C’est ergonomique et efficace pour vous rendre la vie facile !

Le résultat de la transcription automatique n’est pas particulièrement probant, peut-être aussi aggravé par le fait que la segmentation des phrases n’est pas bonne.

Voici la vidéo générée par Capté:

L’outil d’édition des sous titres n’est pas très intuitif (je n’ai pas compris la logique) et ne fonctionne pas très bien. Sans doute par le fait d’avoir voulu trop simplifier ? Il manque ici aussi le fait de définir un time code de sortie.
Malgré ces soucis, je pense que cet outil a de l’avenir (s’ils ajoutent un service à la minute vidéo utilisée, en pay-as-you-go) et peut-être que dans quelques mois, les défauts seront corrigés.

Voici la capture d’écran de l’interface de Capté:

Veed.io est mon application de montage en ligne favorite, testée dans le cadre de mon billet sur les applications de montage vidéo. Dans le laps de temps de mon test sur ces applications web (5 jours), les développeurs ont sacrément amélioré l’outil de sous titrage, pour le rendre bien plus performant.
Un bon signe !

No Title

No Description

Par contre la qualité de la transcription est du même ordre que pour Capté: moins bon que la référence (momentanée) qu’est Subly. Mais heureusement que leur outil de segmentation de la transcription vers les sous titres est le meilleur de ce comparatif – pas étonnant, du fait que le montage vidéo, c’est dans leur ADN…

Le gros avantage de Veed.io, c’est que c’est bien plus qu’une « simple » application de transcription. C’est aussi une application de montage et d’effets spéciaux. Dans ce sens, il est difficile de comparer le positionnement tarifaire avec les autres outils. À la base, leur abonnement annuel à 288$ / année comprend à priori tout ce dont on a besoin (100GB de stockage, c’est pas mal) et donc la transcription et le sous titrage peut être vu comme « cadeau ».

Amberscript est une application développée en Suisse, qui cible une clientèle de solo entrepreneurs, de chercheurs et d’institutions. Il y a en outre divers services spécifiques proposés pour une qualité optimale (transcription et sous titrage manuel), en plus du module automatique.
Au niveau du prix, leur service est dans les plus chers (20€ / heure pour le pay-as-you-go).

Convertissez automatiquement vos audios et vidéos en texte – Amberscript

Nous relions votre audio au texte dans notre éditeur de texte en ligne dans lequel vous pouvez facilement ajuster votre texte, mettre en évidence certaines parties et faire des recherches en toute simplicité. L’éditeur permet de distinguer chaque locuteur et comprend des horodatages réglables.

Le résultat de la transcription n’est pas très bon non plus, mais pas pire que les autres solutions ci-dessus.
Là où ça devient réellement problématique par contre, c’est lorsque l’on veut affiner et améliorer la transcription avec le sous titrage. Leur outil est le moins bon de toutes les applications présentées ici: je n’ai pas compris la logique de l’usage de l’outil lorsque j’ai essayé de nettoyer la transcription à la main.

Voici la capture d’écran de l’interface:

Gageons que eux aussi, ils sauront faire évoluer leur outil au gré des retours.

En conclusion

Il faut bien dire que ma vidéo test a été un vrai casse tête pour les divers services web mis à l’épreuve ici. La fiabilité d’une transcription automatique tombe vite à moins de 50% lorsqu’il y a:

  • plusieurs personnes qui parlent à la suite, rapidement
  • un phrasé sans ponctuation et avec des mots répétés
  • un bruit de fond important, ou simplement la circulation automobile

La fiabilité de ces outils va grandement varier selon la qualité de la vidéo à transcoder. Je suis sûr que vous aurez un autre résultat concernant l’efficacité de la transcription avec vos propres vidéos. Ce qui revient à dire que l’élément différenciateur entre ces plateformes ne sera pas la qualité (très variable) de l’automatisation du speech to text, mais bien sa capacité à vous permettre de rapidement nettoyer et publier la transcription.
C’est là que l’on voit que les outils qui ont dans leur ADN le montage vidéo via une timeline, avec time code in et out, sont les plus efficaces (pour une personne qui a l’habitude des outils de montage).

Au niveau des plans tarifaires, les maigres plus values proposées par les services testés ici ne justifient par toujours le modèle de l’abonnement mensuel. Il faut vraiment que le service propose une valeur ajoutée originale et importante, que l’on utilise chaque mois, pour justifier le coût d’un abonnement mensuel.
Si c’est juste pour transcrire et traduire de temps à autres une vidéo, le pricing en pay-as-you-go est le plus adapté – mais malheureusement pas tous les services le proposent.
Il faut alors souscrire mensuellement lorsque l’on en a besoin et ensuite se désinscrire à la fin du mois…

Si vous utilisez avec bonheur une application qui manque à ce comparatif, merci de me le signaler par un simple email !

Bonus track

En complément, voici un autre test, mis à jour en 2017, avec d’autres solutions:

Automatic Transcription Services Compared: Which Should You Use? – Pop Up Podcasting

Things are changing rapidly in the automated transcription world so we thought it was time for a few updates to this review: Happy Scribe , which we originally panned, has made major improvements so we’ve taken down our original review and replaced it with this new review.

Et le lien vers mon billet sur les outils de montage dans le navigateur.

Applications web pour la création de vidéos

Cet article vous a plu ? Inscrivez-vous à ma newsletter pour recevoir 4 fois par année une compilation d’articles de ce genre.


Also published on Medium.

Laissez un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.