Sur les appareils Apple, l’IA d’Aiko transforme gratuitement en texte n’importe quel contenu audio ou vidéo.
Aiko fait fureur depuis quelques jours dans l’univers Apple. Aiko est une application de transcription et traduction disponible pour Mac et pour iOS. Elle exploite le module de reconnaissance speech to text en open source Whisper développé par Open AI. Dans une interface ultra-minimaliste, l’application a peu de fonctions mais elle gratuite. Elle permet :
- de transcrire un fichier audio ou une vidéo en glissant/déposa,t son fichier dans sa fenêtre,
- ou bien un speak enregistré en direct en cliquant sur son icône microphone,
- en détectant évidemment toute seule la langue parlée,
- et d’exporter la transcription au format .txt, .csv ou sous la forme de sous-titres WebVTT ou SRT,
- et de partager la transcription.
La reconnaissance dans l’appareil
L’IA utilisée pour transcrire un enregistrement audio en texte (le « speech-to-text » (stt), ce qu’on appelle aussi la « dictée vocale »), ça n’est pas nouveau. Siri et OK Google ne font rien d’autres depuis des années. Et nombreux sont les logiciels et applications, gratuits mais plus souvent payants, à proposer la transcription (et parfois aussi la traduction). Mais celle-ci se fait en ligne : les fichiers audio sont transmis et analysés à distance sur les serveurs contenant les modèles de reconnaissance, qui retournent enfin une transcription textuelle. Alors qu’Aiko installe tout bonnement l’IA Whisper sur votre appareil, Mac, iPhone ou iPad. Résultat, les fichiers (audio) source ne sortent pas de votre appareil où ils sont analysés en local. De quoi ravir les défenseurs de la « privacy »… et refroidir ceux qui regardent l’espace de stockage de leur appareil ! Car l’IA d’Aiko pèse pas loin de 3 Go.
Les limites de la gratuité
Pour mes besoins de transcription et de sous-titrage de vidéos, j’utilise pour ma part Premiere Pro. Le logiciel de montage d’Adobe intègre depuis quelques années un module de speech-to-text très performant qui justifie en partie, à mes yeux l’abonnement d’un peu plus de 200€/an du logiciel. L’outil profite de différentes options qu’Aiko ne propose pas. A commencer par la reconnaissance d’interlocuteurs différents.
J’ai quand même eu envie de comparer les performances de transcription de Premiere Pro et d’Aiko. Je leur ai soumis une grosse vidéo d’un peu plus d’une heure (1h18 exactement), consistant en une interview d’un médecin par un journaliste. Je vous livre les premières lignes de ces transcriptions comparées. A gauche la version de Premiere Pro, à droite, celle d’Aiko.
Vous constaterez que Premiere Pro ajoute un timecode automatiquement et distingue les voix des deux intervenants. C’est une des options du module de Premiere et un avantage indéniable. En revanche, dans le logiciel d’Adobe, il est nécessaire de spécifier au préalable quelle est la langue de l’audio à transcrire. Là où Aiko la détecte toute seule. Et si vous prêtez attention à la transcription, vous jugerez sans doute que l’IA d’Aiko est plus pertinente dans son interprétation que celle de Premiere Pro. Et nécessite moins de corrections.
Sécurité vs rapidité
Mais je vous rappelle que Premiere Pro transcrit en envoyant le contenu à son IA quelque part dans un de ses data centers. Moralité, l’audio voyage par Internet pour être analysé et stocké, au mieux temporairement, sur les serveurs d’Adobe. Alors qu’Aiko a installé l’IA Whisper sur votre appareil Apple pour que le fichier audio y soit traité sans en sortir. C’est un gage de sécurité pour les fichiers sensibles. Mais contre toute attente, ce traitement « à domicile » de la transcription n’est pas pour autant plus rapide. Au contraire…
Installée sur mon Mac Studio M1 max avec 32 Go de Ram, Aiko a pris pas loin de 30 minutes pour transcrire le texte de la vidéo de 1h18m. Quand Adobe Premiere Pro a terminé le même job, en ligne, en moins de 5 minutes chrono.
Sécurité de vos fichiers et gratuité de transcription ou rapidité du traitement, à vous de choisir ce qui prime pour vous.
Commentaires récents