
Il y a à peine quelques années, nous n'aurions guère pu imaginer que des millions de personnes dans le monde entier auraient accès à des applications d'intelligence artificielle générative faciles à utiliser produisant des textes, des images et des vidéos. Ces applications peuvent générer des résultats qui semblent créés par des êtres humains, ainsi que créer des choses qui n'ont jamais existé dans la réalité.
Le rapide avancement des capacités des grands modèles linguistiques, qui après des décennies de développement ont commencé à générer des textes complexes et raisonnablement crédibles, a pris même les experts par surprise. En conséquence, l'attention s'est également portée sur des modèles qui combinent du texte avec des données visuelles, telles que des images et des vidéos, et leur développement a été accéléré.
Ces modèles peuvent maintenant générer des vidéos réalistes d'une rue animée d'une ville ou d'un écureuil marchant sur la Lune, et tout ce que l'utilisateur a à faire est d'entrer une brève description textuelle ou des images servant de source visuelle.
Cependant, avec ces capacités surprenantes et les préoccupations qui les accompagnent concernant les dangers inhérents à des ordinateurs si puissants, la portée opérationnelle des réseaux d'apprentissage profond reste limitée, surtout en ce qui concerne la vidéo, et c'est le défi que de nombreux chercheurs s'efforcent de relever.

L'équipe du laboratoire de la docteur Tali Dekel pour l'étude de la vision artificielle au Département d'informatique et de mathématiques appliquées de l'Institut Weizmann de Science espère surmonter les limitations de ces machines génératives et les amener au niveau humain, voire au-delà.
“Je définis notre domaine de recherche comme ‘re-renderiser la réalité’, c'est-à-dire recréer le monde visuel en utilisant des outils computationnels”, dit-elle. “Nous analysons des images et des vidéos et nous concentrons sur leurs aspects spécifiques, puis nous créons une nouvelle version avec des caractéristiques différentes. Mon objectif est d'améliorer la façon dont nous voyons le monde, pour nous donner plus de créativité et même un nouveau type d'interaction avec les données visuelles”.
Dekel ajoute : “Notre recherche soulève des questions fascinantes, telles que : Qu'apprend un modèle génératif sur le monde et comment encode-t-il cette information ? Comment pouvons-nous représenter efficacement l'information visuelle dans l'espace et le temps afin de pouvoir la modifier et, finalement, pouvoir interagir avec notre monde dynamique à travers des vidéos ?”.

En plus de son travail à l'Institut Weizmann, Dekel est également chercheuse chez Google. Alors que ses études à Weizmann se concentrent sur le dépassement des limitations des modèles d'IA existants, son travail chez Google implique le développement de nouveaux modèles, comme le modèle innovant de texte à vidéo Lumiere, dont le résultat a récemment été présenté au public.
Lumiere peut, avec l'utilisation d'un bref message textuel ou d'une photo de référence, produire une large et impressionnante gamme de vidéos ou éditer des vidéos existantes. Par exemple, le modèle a généré une série de vidéos d'une femme courant dans un parc, la transformant en une figure faite de blocs de bois, de briques de jouets colorés ou même de fleurs.
Lorsque Lumiere a été présenté à une image d'un vieux train à vapeur crachant de la fumée sur une voie ferrée et que les chercheurs ont mis en évidence la partie de l'image contenant la fumée, le modèle a créé une image animée partielle où seule la fumée se déplaçait. Il l'a fait d'une manière très réaliste, laissant le reste de l'image inchangé. Les chercheurs se sont même amusés un peu avec Lumière, lui demandant de générer une Mona Lisa bâillant et de mettre un sourire sur le visage de la fille dans La jeune de la perle de Vermeer.

“Lumiere [est] un modèle de diffusion de texte à vidéo conçu pour synthétiser des vidéos représentant un mouvement réaliste, divers et cohérent, un défi fondamental dans la synthèse vidéo”, selon l'article publié par les chercheurs, dont Dekel, lorsqu'ils ont annoncé le nouveau modèle.
Lumiere est unique dans sa capacité à générer une série complète d'images sans espaces entre elles, tandis que les modèles précédents commençaient par générer des images clés distantes dans l'échelle spatio-temporelle et complétaient ensuite le mouvement entre les images clés. C'est pourquoi les modèles précédents avaient du mal à générer un mouvement convaincant et naturel ; Lumiere peut générer des séquences complètes de mouvement de haute qualité.
Mais comment les modèles d'apprentissage profond opèrent-ils leur magie ? Même les scientifiques ne sont pas tout à fait sûrs. “Tout le domaine de l'IA générative traverse un changement de paradigme”, explique Dekel. “Dans un passé pas si lointain, ces modèles étaient beaucoup plus petits, plus simples et conçus pour effectuer des tâches spécifiques, la plupart du temps en utilisant des données étiquetées. Par exemple, pour enseigner à un ordinateur à reconnaître des objets dans une image, nous devions lui présenter une série d'images dans lesquelles ces objets étaient étiquetés et lui expliquer que ceci est une voiture, ceci est un chat, etc. Maintenant, les modèles ont grandi et peuvent apprendre à partir d'énormes quantités de données sans étiquetage humain. Les modèles acquièrent une représentation universelle du monde visuel qu'ils peuvent utiliser pour une variété de tâches, et pas seulement pour le but spécifique pour lequel ils ont été initialement entraînés”.

Et bien que l'amélioration des capacités d'apprentissage automatique de ces modèles soit évidente, nous ne savons toujours pas exactement comment ils fonctionnent. “De grandes sections de réseaux neuronaux sont une sorte de ‘boîte noire’ pour nous”, ajoute Dekel.
Cette énigme devient particulièrement compliquée en ce qui concerne les modèles générateurs de vidéo, car chaque seconde de vidéo est composée d'environ 25 images différentes. En particulier, la plupart des modèles de texte à vidéo à grande échelle sont très complexes, nécessitent une énorme puissance de calcul et sont entraînés avec de grandes quantités de données. Cela signifie que la taille des réseaux informatiques et les défis computationnels auxquels ils font face sont encore plus grands que dans le cas des modèles qui créent des textes ou des images, et la portée de fonctionnement impénétrable des modèles s'étend en conséquence.

Pour Dekel, les “boîtes noires” au sein de ces modèles offrent d'excellentes opportunités de recherche. “Au cours du processus d'auto-apprentissage, les modèles acquièrent une énorme quantité d'informations sur le monde. Dans le cadre de notre recherche sur la reproduction de la réalité par des outils numériques, nous essayons de produire des résultats différents à partir de modèles existants, presque sans les altérer. Au lieu de cela, nous essayons de mieux comprendre comment ils fonctionnent tout en essayant de découvrir de nouvelles tâches qu'ils peuvent accomplir”, dit Dekel à propos de la recherche qu'elle a réalisée avec son collègue de Weizmann, le docteur Shai Bagon, le docteur Yoni Kasten de NVIDIA Research et les étudiants de Weizmann Omer Bar-Tal, Narek Tumanyan, Michal Geyer, Rafail Fridman et Danah Yatim.
Les chercheurs du laboratoire de Dekel recherchent également des méthodes sophistiquées pour traiter les vidéos, qui incluent la décomposition du contenu en composants plus simples, comme une image représentant l'arrière-plan d'une vidéo et d'autres images, chacune représentant des objets qui changent tout au long de la vidéo.
Cette séparation rend le processus d'édition beaucoup plus simple : au lieu de traiter une quantité énorme de pixels, le modèle édite seulement une image et tous les autres cadres changent en conséquence. Par exemple, si la couleur d'une robe change dans une image, le modèle sait comment faire ce changement tout au long de la vidéo, garantissant ainsi la continuité.

Un autre d défi auquel sont confrontés les chercheurs est le fait que de nombreuses images et vidéos générées par des modèles ne semblent pas réalistes, car elles présentent des objets qui se déplacent différemment de ce que l'on pourrait s'attendre, compte tenu de notre expérience dans le monde réel.
Dans le cadre de leurs efforts pour enseigner aux modèles à générer des vidéos où le mouvement est cohérent et logique, Dekel et son équipe ont démontré comment les capacités des modèles de texte à image peuvent être élargies pour qu'ils puissent également générer et éditer des vidéos.
Par exemple, ils ont introduit une vidéo d'un loup secouant la tête d'un côté à l'autre dans un modèle open-source appelé Stable Diffusion et lui ont demandé de générer une vidéo similaire avec un marionnettes ressemblant à un loup. Au début, le modèle a créé une vidéo qui avait des retards et était peu réaliste, car chaque image de la vidéo était éditée différemment.
Mais en comprenant mieux comment le modèle traite et représente les images pendant l'édition, les chercheurs ont réussi à faire en sorte qu'il édite tous les cadres de la même manière, ce qui a abouti à une vidéo où la marionnette-loup se déplaçait de manière naturelle et convaincante.