ApplicationsGénéralités

Aiko transcrit gratuitement sur Mac et iOS

Sur les appareils Apple, l’IA d’Aiko transforme gratuitement en texte n’importe quel contenu audio ou vidéo.

Aiko fait fureur depuis quelques jours dans l’univers Apple. Aiko est une application de transcription et traduction disponible pour Mac et pour iOS. Elle exploite le module de reconnaissance speech to text en open source Whisper développé par Open AI. Dans une interface ultra-minimaliste, l’application a peu de fonctions mais elle gratuite. Elle permet :

  • de transcrire un fichier audio ou une vidéo en glissant/déposa,t son fichier dans sa fenêtre,
  • ou bien un speak enregistré en direct en cliquant sur son icône microphone,
  • en détectant évidemment toute seule la langue parlée,
  • et d’exporter la transcription au format .txt, .csv ou sous la forme de sous-titres WebVTT ou SRT,
  • et de partager la transcription.

La reconnaissance dans l’appareil

L’IA utilisée pour transcrire un enregistrement audio en texte (le « speech-to-text » (stt), ce qu’on appelle aussi la « dictée vocale »), ça n’est pas nouveau. Siri et OK Google ne font rien d’autres depuis des années. Et nombreux sont les logiciels et applications, gratuits mais plus souvent payants, à proposer la transcription (et parfois aussi la traduction). Mais celle-ci se fait en ligne : les fichiers audio sont transmis et analysés à distance sur les serveurs contenant les modèles de reconnaissance, qui retournent enfin une transcription textuelle. Alors qu’Aiko installe tout bonnement l’IA Whisper sur votre appareil, Mac, iPhone ou iPad. Résultat, les fichiers (audio) source ne sortent pas de votre appareil où ils sont analysés en local. De quoi ravir les défenseurs de la « privacy »… et refroidir ceux qui regardent l’espace de stockage de leur appareil ! Car l’IA d’Aiko pèse pas loin de 3 Go.

Les limites de la gratuité

Pour mes besoins de transcription et de sous-titrage de vidéos, j’utilise pour ma part Premiere Pro. Le logiciel de montage d’Adobe intègre depuis quelques années un module de speech-to-text très performant qui justifie en partie, à mes yeux l’abonnement d’un peu plus de 200€/an du logiciel. L’outil profite de différentes options qu’Aiko ne propose pas. A commencer par la reconnaissance d’interlocuteurs différents.

J’ai quand même eu envie de comparer les performances de transcription de Premiere Pro et d’Aiko. Je leur ai soumis une grosse vidéo d’un peu plus d’une heure (1h18 exactement), consistant en une interview d’un médecin par un journaliste. Je vous livre les premières lignes de ces transcriptions comparées. A gauche la version de Premiere Pro, à droite, celle d’Aiko.

Vous constaterez que Premiere Pro ajoute un timecode automatiquement et distingue les voix des deux intervenants. C’est une des options du module de Premiere et un avantage indéniable. En revanche, dans le logiciel d’Adobe, il est nécessaire de spécifier au préalable quelle est la langue de l’audio à transcrire. Là où Aiko la détecte toute seule. Et si vous prêtez attention à la transcription, vous jugerez sans doute que l’IA d’Aiko est plus pertinente dans son interprétation que celle de Premiere Pro. Et nécessite moins de corrections.

Sécurité vs rapidité

Mais je vous rappelle que Premiere Pro transcrit en envoyant le contenu à son IA quelque part dans un de ses data centers. Moralité, l’audio voyage par Internet pour être analysé et stocké, au mieux temporairement, sur les serveurs d’Adobe.  Alors qu’Aiko a installé l’IA Whisper sur votre appareil Apple pour que le fichier audio y soit traité sans en sortir. C’est un gage de sécurité pour les fichiers sensibles. Mais contre toute attente, ce traitement « à domicile » de la transcription n’est pas pour autant plus rapide. Au contraire…

Installée sur mon Mac Studio M1 max avec 32 Go de Ram, Aiko a pris pas loin de 30 minutes pour transcrire le texte de la vidéo de 1h18m. Quand Adobe Premiere Pro a terminé le même job, en ligne, en moins de 5 minutes chrono.

Sécurité de vos fichiers et gratuité de transcription ou rapidité du traitement, à vous de choisir ce qui prime pour vous.

Laurent Clause

Laurent Clause

Journaliste par vocation, spécialiste des nouvelles technologies depuis la fin des années 80, je suis devenu réalisateur d'images et formateur (à la vidéo en général et à la "vidéo mobile", sur smartphone, en particulier). J'ai enseigné le MoJo à l'Ecole de Journalisme de Sciences-Po Paris et interviens avec ma société Milledix notamment à Gobelins l'Ecole de l'Image, pour Samsa, le groupe CapCom ou aux Antilles et à la Réunion pour Inzy-Learning . J'enseigne l'écriture audiovisuelle, le montage avec FCP X, Adobe Premiere Pro ou Da Vinci Resolve et bien sûr la vidéo mobile, le MoJo (mobile journalism), le tournage avec Filmic Pro, Open Camera ou autres et le montage notamment avec Adobe Rush, LumaFusion ou VN..

Leave a Reply

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.