Il semble y avoir un avenir où les pensées ne sont plus de simples images éphémères dans notre esprit, mais peuvent devenir des vidéos de haute qualité. Et cela semble de plus en plus proche de la réalité. Un groupe de chercheurs talentueux vient de dévoiler une percée majeure dans le domaine des neurosciences. Avec l’aide d’une bonne dose d’IA.
Le « projecteur » cérébral
Jiaxin Qing, Zijiao Chen et Juan Helen Zhou de l’Université nationale de Singapour et de l’Université chinoise de Hong Kong ont présenté un travail de recherche très intéressant. L’équipe a combiné des données obtenues à partir de l’imagerie par résonance magnétique fonctionnelle (IRMf) avec l’intelligence artificielle générative Stable Diffusion pour créer MinD-Video, un modèle capable de générer des vidéos de haute qualité directement à partir des lectures du cerveau.
Cela semble sorti tout droit d’un film de science-fiction, mais c’est bel et bien documenté sur arXiv, et voici le lien.
Comment fonctionne exactement MinD-Video?
MinD-Video n’est pas simplement un générateur de vidéos, mais tout un système conçu pour faire dialoguer le décodage des images par une IA et celui effectué par un cerveau. Mais comment entraîne-t-on un tel système ?
Les chercheurs ont utilisé un ensemble de données public contenant des vidéos et les lectures IRMf correspondantes de sujets les ayant regardées. Et apparemment, cela a très bien fonctionné.
Voir les pensées, nous y sommes parvenus
Les vidéos publiées par les scientifiques montrent des résultats fascinants. Prenons par exemple une vidéo originale montrant des chevaux dans un champ. MinD-Video l’a « reconstruite » en créant une version plus vibrante des chevaux. Dans un autre cas, une voiture traverse une zone boisée et la vidéo reconstruite montre un voyage à la première personne le long d’une route sinueuse.
Selon les chercheurs, les vidéos reconstruites sont de « haute qualité », avec des mouvements et des dynamiques de scène bien définis. Et la précision ? 85%, une amélioration significative par rapport aux tentatives précédentes.
Lecture de l’esprit et vidéos de haute qualité, quelles perspectives ?
« L’avenir est prometteur et les applications potentielles sont immenses. De la neurosciences aux interfaces cerveau-ordinateur, nous pensons que notre travail pourrait avoir un impact important », ont déclaré les auteurs. Et les découvertes ne s’arrêtent pas là : leur travail a mis en évidence le rôle dominant du cortex visuel dans la perception visuelle et la capacité de leur modèle à apprendre des informations de plus en plus sophistiquées lors de la formation.

Le modèle Stable Diffusion utilisé dans cette nouvelle recherche permet une visualisation plus précise. « Un avantage clé de notre modèle par rapport à d’autres modèles génératifs, tels que les GAN, est sa capacité à produire des vidéos de qualité supérieure. Il utilise les représentations apprises par l’encodeur IRMf et utilise son processus de diffusion unique pour générer des vidéos de haute qualité qui correspondent mieux aux activités neuronales d’origine », ont expliqué les chercheurs.
En somme, il semble que nous soyons vraiment entrés dans l’ère de la lecture de l’esprit grâce à l’intelligence artificielle. Un domaine ouvert à mille possibilités, où la seule limite semble être l’imagination.