La génération d’images n’a rien de nouveau, nous connaissons déjà des outils très populaires comme DALL-E, MidJourney, Stable Diffusion, et bien d’autres.
Cependant, il semblerait que Meta vienne de révolutionner la génération d’images par IA avec son nouvel outil CM3Leon.
Introducing CM3leon, a first-of-its-kind multimodal model that achieves state-of-the-art performance for text-to-image generation with 5x the compute efficiency of competitive models.
— Meta AI (@MetaAI) July 14, 2023
More details ➡️ https://t.co/VR12zkmLDs pic.twitter.com/jUnG7G1Fxf
Qu’est-ce qui fait la différence avec CM3Leon ?
La première chose à retenir de CM3Leon, c’est qu’il aurait besoin d’une puissance de calcul moins élevée que les autres IA de génération d’images, sans pour autant contenir moins de paramètres que ces dernières.
Meta déclare d’ailleurs : « Avec les capacités de CM3Leon, les outils de génération d’images peuvent produire des images plus cohérentes qui correspondent mieux à la requête. »
Si cela est possible, c’est grâce à une approche différente de celle des autres générateurs d’images. Si nous prenons DALL-E ou Stable Diffusion, ils utilisent ce que l’on appelle « la diffusion ». C’est un procédé par lequel l’IA va soustraire petit à petit des éléments jusqu’à se rapprocher de la demande de l’utilisateur. Cela demande une puissance de calcul très élevée et donc de l’électricité et des ressources informatiques, sans compter que le processus manque cruellement de rapidité.
Meta a choisi de se diriger vers un autre type de processus nommé « l’attention ». Dans ce processus, la pertinence des données envoyées va être évaluée par l’IA, résultant d’un gain de temps et d’énergie élevé pour la mise au point de chaque image.
Une étape suivante est greffée au processus. Cette étape est dite de « réglage. » Elle permet d’affiner les instructions.
L’utilisation des images libres de droit
Il convient également d’ajouter que CM3Leon résout le problème d’utilisation de sources d’images non autorisées.
Certains outils de génération d’images se contentaient simplement de récupérer des images qui sont accessibles au grand public, ce qui entraînait des problèmes juridiques quant à l’utilisation des images.
Meta a voulu éviter ce problème en récupérant uniquement des images libres de droit qui sont présentes dans des banques d’images comme Shutterstock.
Il s’agit du même processus que Photoshop a employé pour son IA générative Firefly en utilisant uniquement des images issues de la banque de données d’Adobe Stock, qui sont des images libres de droit.