StoryToolkitAI : transcrire, sous-titrer, traduire et analyser des vidéos

Last updated on 4 octobre 2023

Je sais, je sais, toutes les semaines, il y a un logiciel « superstar premium excellence » qui vous permet de faire un bidule que vous saviez déjà faire à la main, mais avec l’IA. Alors maintenant qu’on est peut-être en train de passer la crête de la hype IA, vous vous méfiez à chaque nouveau logiciel ou service ? Vous avez bien raison, mais je vais quand même continuer ce billet (c’est mon blog je fais ce que je veux hého).

StoryToolkitAI est un logiciel libre qui a le bon gout d’être gratuit et d’avoir une interface graphique compréhensible. Il vous propose la retranscription audio, la création de sous-titres, leurs traductions mais aussi la retranscription vidéo. Il peut aussi s’acoquiner avec DaVinci Resolve (mais on va revenir dessus). Tout se fait en local, c’est à dire qu’on peut tout faire off-line (le mot cool pour dire quand on a pas de wifi gratuit). Il faut juste télécharger le modèle avant utilisation (et c’est merveilleux parce que c’est aussi automatique).

La retranscription audio

Le logiciel ressemble à ça :

Menu de StoryTool Kit AI

Pour retranscrire un vidéo, il faut donc appuyer sur ingest et sélectionner la dite vidéo.

Menu de StoryTool Kit AI

Vous a peu près tous les choix a votre disposition à savoir :

• Le langage source (ici français)

• La tâche (ici, transcrire, mais vous pouvez ajouter la traduction)

• le modèle : ici, j’ai pris large-v2 , donc le plus gros. L’idée évidemment est que si plus vous prenez un modèle gros, plus ça sera efficace, mais plus ça sera lent.

•Pré-detect speech permet de détecter en amont les zones de dialogues pour éviter que l’IA tente de transcrire toute la vidéo « à l’aveugle »

Vous lancez la machine, ça mouline et à la fin vous avez votre transcription.

Pour le test de ce billet, j’ai transcrit les 5 premières minutes de la vidéo du joueur du grenier sur les émissions jeunesse. Je l’ai faite avec le module de sous-titre automatique de première pro et celui de StoryToolkitAI (que j’appellerais sobrement STK à partir maintenant). La vidéo en question:

Je n’ai pas fait de minutage, parce que je pense franchement que ça dépend de bien d’autres facteurs que le simple temps de transcription par minutes, pour cette vidéo néanmoins, Adobe semble être un peu plus rapide que STK. Voilà le résultat :

ADOBE
Salut à tous. Cette vidéo est sponsorisée par Noor VPN. Imaginez, vous partez en vacances à l’aéroport. Votre téléphone est piraté par des terroristes internationaux qui ont accès total à vos données privées. Ils se servent de vidéos trouvées sur votre portable ou vous tirez les moustaches de votre chat Hector et la mettent en ligne. Votre réputation est ruinée, vous perdez votre emploi, votre femme et vos enfants.


Et en plus, vous payez l’avion 13 € Trop cher. Mais tout cela ne serait jamais arrivé avec nos époque, non ? VPN et le partenaire idéal pour vos vacances d’été ? Protéger votre connexion sur les réseaux Wi-Fi publics, hôtels, restaurants, aéroports et en vous connectant un serveur étranger fait des économies sur vos réservations de vols ou de location de voiture,

par exemple pour bénéficier de tarifs préférentiels pour réserver un hôtel à l’avenir.
Pool Wi-Fi deal, Go girl, working drop. Ça va non plus totalement interrompus, mais je faire des tarifs préférentiels pour réserver un hôtel Alienware pour Google. Babe Bob, le nom complet, c’est ça ? Et les habitants du coin, ils viennent faire ça au pays de Galles ? Bonjour l’étranger, c’est pas toujours qu’on a des visiteurs, l’herbe ne va pas couine, Google couine.

Vous pouvez aussi aller dans une autre ville. Ça marche pour tous les pays. Chili con gogole. Et en vous géolocalisant en France, continuez de profiter de vos contenus favoris ou vos abonnements depuis l’étranger. Obtenez 1 h VPN au meilleur prix en passant par le lien description et le lien A. Oh putain, c’est vrai que ça fait quatorze ans à peut être quelque chose, mais j’en ai trouvé une autre.


C’est un reportage sur la guerre en Irak en 2003 qui fini, mais c’est pas la guerre en Irak. Attendons que ça arrive. Je crois que nous avons une fuite de pétrole. Je vais mettre de la douceur, effectivement. Et puis a t il un nouveau personnage ? Ignore Saddam. On a été un vilain garçon, c’est pas mal. Je l’ai regardé un peu plus tard, mais c’est pas ça qu’on cherche.


Ça, c’est trop récent. On cherche un truc plus vieux. Attends, j’ai quelque chose pour toi Seb, On n’est pas dans une sitcom, il faut que tu me dise ce à quoi tu penses. Toi. Une cassette, c’est vraiment une vieille cassette. Et Casimir ? Alors bien non, mais ça c’est trop vieux, C’est Casimir, on n’était même pas nés. C’est vrai.







Mais en même temps, est ce que tu t’es déjà demandé d’où venaient les émissions jeunesse avant le Club Dorothée ? Pas du tout. Et bien justement, laisse moi te répondre. Un, deux, trois, quatre deux.




STK
Salut à tous, cette vidéo est sponsorisée par NordVPN ! Imaginez, vous partez en vacances.
A l’aéroport, votre téléphone est piraté par des terroristes internationaux qui ont accès total à vos données privées. Ils se servent de la vidéo trouvée sur votre portable où vous tirez les moustaches de votre chat Hector et la met en ligne. Votre réputation est ruinée. Vous perdez votre emploi, votre femme et vos enfants.


Et en plus, vous payez l’avion 13 euros trop cher! Tout cela ne serait jamais arrivé avec NordVPN. NordVPN est le partenaire idéal pour vos vacances d’été. Protégez votre connexion sur les réseaux wifi publics,
hôtels, restaurants, aéroports.
Et en vous connectant à un serveur étranger,
faites des économies sur vos réservations de vol ou de location de voiture.
Par exemple, vous bénéficiez de tarifs préférentiels
pour réserver un hôtel à Lianvirpoulguirgilgoguergurguindrop.
Quoi, ça va ?
Oh putain, tu m’as interrompu, maintenant je dois tout refaire !
Des tarifs préférentiels pour réserver un hôtel à Lianvirpoulguirg…
Bref, le nom complet, c’est ça, voilà.
Et les habitants du coin, ils l’appellent Yennefer.
C’est au Pays de Galles.
Bonjour l’étranger !
C’est pas toujours qu’on a des visiteurs à Lianvirpoulguirgugurguindrop.
Vous pouvez aussi aller dans une autre ville, ça marche pour tous les pays.
…gogogor.
Et en vous géolocalisant en France,
continuez de profiter de vos contenus favoris
ou vos abonnements depuis l’étranger.
Obtenez NordVPN au meilleur prix en passant par le lien en description.
Oh ! Oh !
Ah !
Oh putain, c’est vrai que ça fait 14 ans !
Ah !
T’as trouvé quelque chose ?
Ah ! Bah j’en ai trouvé une autre !
C’est un reportage sur la guerre en Irak en 2003.
Ouf !
Hmm.
C’est pas la guerre en Irak ça.
Attends toi, ça arrive.
Effectivement, ouais.
Ah ! Attends, y’a un nouveau personnage.
Hmm.
Ouais c’est pas mal, je la garderai pour plus tard,
mais c’est pas ça qu’on cherche, ça c’est trop récent,
on cherche un truc plus vieux.
Attends, j’ai quelque chose pour toi.
On est pas dans une sitcom, il faut que tu me dises ce à quoi tu penses.
Euh, mais toi, attends.
J’ai une petite cassette.
Ok.
C’est vraiment une vieille cassette.
Oh bah non, mais ça c’est trop vieux, c’est Casimir quoi,
on était même pas nés.
C’est vrai.
Mais en même temps, est-ce que tu t’es déjà demandé
les émissions jeunesse avant le Club Dorothée ?
Pas du tout.
Eh bien justement, laisse-moi te répondre.
Un, deux, trois, quatre !
Un, deux, trois, quatre !
Un, deux, trois, quatre !
Un, deux, trois, quatre !
Un, deux, trois, quatre !

Qu’est-ce qu’on peut en déduire ? En vrai, les deux se défendent plutôt bien, une petite mention spéciale a STK qui a trouvé le nom de la ville imprononçable. Là où STK se démarque bien, c’est la reconnaissance du style et de la ponctuation qui va avec. Globalement je trouve que STK offre plus un script complet qu’Adobe avec une reconnaissance des arrêts, des personnages, etc.

La traduction en anglais est plutôt bonne, je ne ferais pas de point dessus parce que je ne l’ai pas testée en profondeur.

C’est quoi la transcription vidéo ?

Et bien, c’est exactement ce que ça dit. Théoriquement, STK analyse la vidéo et transcrit ce qu’on y trouve. Vous avez un onglet « recherche », vous tapez votre texte et normalement STK vous retrouve les images qui correspondent, et ça se présente comme ceci :

Reconnaissance video de story tool kit

Donc, j’ai pris mon courage à bout de clavier, j’ai foncé, et j’ai tapé littéralement « Je recherche une voiture » (en français dans le texte) et voila résultat :

Reconnaissance video de story tool kit

Alors, le premier c’est assez fou je dois dire, le second par contre je n’ai pas compris. J’ai recherché des mots simples comme « lunettes » ou encore « homme souriant ». Dans les réponses, on va du génie absolu à l’artiste incompris. Certaines images sélectionnées par le logiciel sont complètement incompréhensibles, mais il suffit de trois bonnes pour qu’on tape dans ses mains de la petite prouesse.

C’est quoi l’histoire avec Da Vinci Resolve ?

Dans le menu de STK, vous pouvez connecter au logiciel DaVinci Resolve, Cela permet plusieurs choses :

  • Envoyer directement votre timeline en transcription
  • Retourner un fichier sous-titre à Resolve
  • Chercher du texte, qui une fois trouvé place votre timeline à l’endroit du texte.

Pour l’expérience, j’ai testé avec le montage d’une émission TV dont j’ai la charge ( Popex , soyez gentils faites moi du clic). J’ai envoyé en transcription le bout à bout de la journée de tournage, et j’ai cherché les morceaux que je n’arrivais pas à trouver tout seul, ceux indiqués dans le conducteur. Au final, le logiciel a pas mal planté (c’est une version alpha), et même si j’ai retrouvé des éléments que je ne retrouvais pas, est-ce que ça valait le coup de faire une longue retranscription ( de 6 heures) pour juste chercher des bouts ? J’ignore de le savoir, mais c’était fun.

Alors ?

Ben alors, c’est quand même très chouette. La retranscription est clean et surtout, l’avantage c’est qu’elle se fait en local, gratuitement sans faire appel à d’obscurs services de l’internet. Le logiciel est simple à manier, sa retranscription, sous-titrage et sa traduction sont plutôt très efficaces. Dans d’autres tests effectués, j’avais remarqué qu’en plus de reconnaitre plutôt bien les intonations, STK « reconstruisait » la syntaxe des phrases qui étaient plus ou moins bien prononcées pour faire un sous-titre cohérent. Et ça, on aime.

Frederick Écrit par :