Généralités

En vidéo aussi, l’invasion IA a commencé

Avatars qui vous remplacent face caméra, voix de synthèse naturelle, génération de vidéos à partir de texte… Petit tour d’horizon des sites grand public qui mettent l’Intelligence Artificielle au service de la vidéo.

Depuis l’été, l’invasion IA a commencé. Illustrations ou photos réalistes générées à partir d’une simple requête texte (midjourney, dalle…), article rédigé en quelques secondes sur n’importe quelle thématique ou dialogue instantané avec un chatbot aussi pertinent que cultivé (chat.openai.com)… Logique que la vidéo profite aussi des miracles de l’Intelligence Artificielle. Meta (Facebook) s’est empressé d’en faire l’annonce pour nous faire rêver.

Le projet Meta AI promet des vidéos générées à partir de requêtes texte

Mais il faudra sans doute patienter avant de pouvoir produire de bout-en-bout, avec de simples requêtes texte, une vidéo cohérente et aussi parfaite que les photos et dessins criants de réalisme qu’on voit partout depuis des mois. Comme celui affiché en ouverture, obtenu sur Midjourney en demandant « une IA avec un visage de robot avec un rendu cinématique ». En attendant ce qui demeure aujourd’hui un doux rêve, l’IA travaille déjà au service de la vidéo depuis des décennies et dans des domaines variés. On peut en citer quelques itérations.

  • La voix de synthèse (TTS, text-to-speech)
    Rappelez-vous la voix de Dave dans « 2001, l’Odyssée de l’espace ». Nos ordis en sont équipes depuis des années, et il est possible de générer des voix off plus ou moins naturelle.
  • La transcription (STT, speech-to-text) et traduction
    Pour sous-titrer vos vidéos, une IA en analyse l’audio et le transcrit en texte. Une autre traduit la transcription dans une multitude de langues.
  • La post-prod audio/vidéo
    L’IA analyse les contenus audio d’une vidéo (les voix, les sons d’ambiance, la musique de fond) pour mixer automatiquement l’audio en appliquant un « ducking » automatique. Elle est aussi capable de détecter des mouvements dans les images pour recadrer de façon dynamique  au format portrait, une vidéo filmée en 16:9, en suivant pour cela le véhicule ou le personnage qui traverse la cadre.
  • L’avatar
    Le film éponyme est à nouveau à l’affiche en version 2. Et votre iPhone en est capable : avec la caméra selfie, il analyse les mouvements de votre visage et les applique en temps réel sur un petit personnage (robot, licorne…) ou sur l’avatar que vous avez caricaturé à votre image. Cela fait des années que des les comédiens jouent sur fond vert, seulement vêtus d’une combinaison bardée de capteurs, pour transcrire les mouvements et postures qu’on applique ensuite à des personnages  de synthèse.
  • Le TTV (text-to-video)
    Confiez un texte à une IA pour qu’elle en sorte la substantifique moelle et fouille les banques d’images pour en sortir les vidéos illustrant le mieux vos idées.
  • L’avatar vocal
    Des acteurs filmés en studio servent aujourd’hui d’avatar pour dire, à l’image, le texte de votre choix, avec différents timbres et dans une multitude langues au choix.

Ce n’est évidemment pas fini. D’autant que, comme vous allez pouvoir vous en rendre compte en testant certaines technos ci-dessous, les IA ne concourent encore qu’à réaliser des vidéos auxquelles il manque un petit quelque chose. Convertir en images un contenu conçu à l’origine sous la forme d’un texte n’est sans doute pas la meilleure façon de faire. Et autant les IA excellent à produire des images fixes (photos, illustrations), autant dans les images qui bougent, il faut un peu de vivant, un peu d’humain en plus. Et vous verrez que les avatars, même quand ils sont des déclinaisons de vrais acteurs, manquent cruellement d’expressions, avec un charisme souvent équivalent à celui d’une huitre. C’en est presque rassurant !

Remplacer voix off et animateur

Rédigez un speech et déposez-le sur Synthesys pour le convertir en voix off de synthèse naturelle (Text-to-Speech, TTS) et ou le mettre dans la bouche d’un avatar humain ou « humatar » (Text-to-Video, TTV). L’IA propose 73 « humatars » au choix (homme ou femme), 254 timbres de voix et dans 66 langues, et quelques fonction de post-production pour mettre en scène l’animateur virtuelle sur des fonds, avec du texte animé. Et générer ainsi des vidéos marketing, publicitaires, explainers (tutos…). Coûts du service : de 23$/mois pour la seule synthèse audio d’une voix off à 47$/mois pour ses « humatars » et ses fonctions de montage/habillage.

Même principe chez Synthesia et D-ID qui propose en plus la création de votre propre avatar à partir d’une photo de vous où en demandant à une IA de vous le créer de toutes pièces.

Editer et générer des vidéos à partir de texte

L’IA de Pictory propose une série de services tournant autour du texte. En accédant à une bibliothèque d’images libres de droit, elle peut par exemple générer une petite vidéo à partir du texte que vous lui soumettez. Pictory propose ainsi de mettre en images un article de blog que l’IA commence par résumer en identifiant les idées fortes ou essentielles avant d’aller dénicher des vidéos « footage » pour illustrer chaque phrase. A contrario, Pictory peut aussi transcrire n’importe quelle vidéo en texte. Et vous permettre ensuite de raccourcir la vidéo en coupant le texte : supprimer une phrase ou un paragraphe du texte transcrit, la vidéo est amputée des sections correspondantes. L’IA peut aussi identifier les moments forts du texte (et donc de la vidéo) et en réduire ainsi la durée selon le pourcentage que vous lui avez indiqué. Idéal pour tenter , a posteriori, de faire un « best of » d’une interminable visioconférence ou d’un live plein de temps de mort.

Elai et Synths fonctionnent sur le même principe en y ajoutant des avatars pour réaliser des vidéos de présentation ou de formation. Pointez l’URL d’un article de blog ou du texte en Html, choisissez un modèle de présentation, un avatar, l’IA génère la vidéo.

Evidemment, après quelques tests gratuits, tous ces services en ligne sont payant. Comme le seront ceux des IA capables de générer un rush de quelques secondes sur une requête texte. A moins d’imaginer des images futuristes ou surréalistes qui justifieront d’y faire appel, le meilleur moyen d’obtenir gratuitement les plans dont on a besoin, c’est toujours de les filmer ! Avec un smartphone ou autre chose.

Laurent Clause

Laurent Clause

Journaliste par vocation, spécialiste des nouvelles technologies depuis la fin des années 80, je suis devenu réalisateur d'images et formateur (à la vidéo en général et à la "vidéo mobile", sur smartphone, en particulier). J'ai enseigné le MoJo à l'Ecole de Journalisme de Sciences-Po Paris et interviens avec ma société Milledix notamment à Gobelins l'Ecole de l'Image, pour Samsa, le groupe CapCom ou aux Antilles et à la Réunion pour Inzy-Learning . J'enseigne l'écriture audiovisuelle, le montage avec FCP X, Adobe Premiere Pro ou Da Vinci Resolve et bien sûr la vidéo mobile, le MoJo (mobile journalism), le tournage avec Filmic Pro, Open Camera ou autres et le montage notamment avec Adobe Rush, LumaFusion ou VN..

Leave a Reply

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.