Accueil LOGICIELS Meta dévoile la génération d’images avec CM3leon : l’avenir de l’IA visuelle

Meta dévoile la génération d’images avec CM3leon : l’avenir de l’IA visuelle

16
0

  • , un modèle d'IA leader dans la texte-image, propulsé par , permet de produire cohérentes et détaillées, surpassant autres générateurs et ouvrant de nouvelles possibilités dans la compréhension des images.
  • Il utilise des transformateurs et des mécanismes d'attention pour évaluer la pertinence des données d'entrée, atteignant vitesse d'entraînement et une capacité de parallélisation plus élevées, surpassant les méthodes précédentes basées sur la diffusion.
  • Peut générer des légendes, répondre à des questions et modifier des images existantes en suivant des instructions textuelles, démontrant ainsi une capacité exceptionnelle à suivre des directives complexes et à produire des résultats visuellement cohérents et adaptés au contexte.

Progrès dans la génération d'images pilotée par l'IA. L'imagerie pilotée par l'IA a connu une croissance importante au cours des deux dernières années. Grâce à la disponibilité généralisée de la technologie et à l'abaissement des barrières techniques, celle-ci a été banalisée et déployée par de nombreuses entreprises, notamment des géants de la technologie tels que Google et Microsoft, ainsi que de nouvelles start-ups. Selon TechCrunch, Meta a dévoilé aujourd'hui CM3leon, un modèle d'IA , selon l'entreprise, atteint des performances de pointe en matière de génération de texte à partir d'images. CM3leon se distingue notamment par sa capacité à générer des légendes pour les images, jetant ainsi les bases de modèles de compréhension d'images plus sophistiqués à l'.

CM3leon : une percée dans la génération texte-image.

Selon Meta, CM3leon permet aux outils de génération d'images de produire des images plus cohérentes qui suivent mieux les instructions de saisie. L'entreprise affirme que les performances robustes de CM3leon sur une variété de tâches constituent une étape vers la génération et la compréhension d'images plus fidèles à la réalité.

Transformateurs et efficacité de l'imagerie. La plupart des imageurs modernes, tels que DALL-E 2 d'OpenAI, Google Image et Stable Diffusion, utilisent un processus appelé diffusion pour créer des œuvres d'art. Cependant, la diffusion est un calcul intensif et n'est pas pratique pour la plupart des applications en temps réel en raison de son coût et de sa vitesse.

Lire aussi :  Une attaque massive va être menée pour tester la sécurité des chatbots d'IA.

D'autre part, CM3leon est un modèle de transformateur qui tire parti d'un mécanisme appelé “attention” pour évaluer la pertinence des données d'entrée, qu'il s'agisse de textes ou d'images. L'utilisation de transformateurs augmente la vitesse d'entraînement du modèle et permet une plus grande capacité de parallélisation. CM3leon est encore plus efficace que la plupart des transformateurs, car il nécessite moins de calculs et un ensemble de données d'entraînement plus petit que les méthodes précédentes basées sur les transformateurs.

Entraînement et paramètres de CM3leon.

Pour entraîner CM3leon, Meta a utilisé un ensemble de données composé de millions d'images sous licence Shutterstock. La version la plus avancée de CM3leon construite par Meta compte 7 milliards de paramètres, soit plus de deux fois plus que DALL-E 2. Les paramètres sont des éléments appris par le modèle à partir des données d'entraînement et déterminent la capacité du modèle à résoudre un problème spécifique, dans ce cas, la génération d'images.

Le réglage fin supervisé et son impact sur CM3leon. L'une des clés de l'amélioration des performances de CM3leon est une technique appelée réglage fin supervisé (SFT). Cette technique a été utilisée avec succès pour former des modèles de génération de texte, tels que le d'OpenAI. Meta a émis l'hypothèse que cette technique serait également utile dans le domaine de l'image. En fait, le réglage fin des instructions a amélioré les performances de CM3leon non seulement dans la génération d'images, mais aussi dans la rédaction de légendes et la capacité à répondre à des questions sur les images et à modifier des images en suivant des instructions textuelles.

Lire aussi :  Les fonctionnalités cachées de Mac qu'il faut commencer à utiliser

Progrès et capacités notables de CM3leon. CM3leon fait preuve d'une capacité exceptionnelle à générer des images cohérentes et détaillées, même lorsqu'on lui fournit des instructions complexes. Comparé à d'autres générateurs, tels que DALL-E 2, CM3leon produit des images qui sont plus proches des instructions données et qui contiennent plus de détails. En outre, CM3leon peut comprendre les instructions pour modifier des images existantes, générant ainsi des résultats visuellement cohérents et adaptés au contexte. Contrairement à DALL-E 2, CM3leon est également capable de générer des légendes et de répondre à des questions sur des images spécifiques. Dans ces domaines, le modèle surpasse même les modèles spécialisés dans le sous-titrage d'images, bien qu'il reçoive moins de texte dans ses données d'entraînement, selon Meta.

Considérations sur les biais dans la génération d'images.

Bien que la question des préjugés dans la génération d'images ne soit pas directement abordée par Meta, c'est un problème qui a été observé dans des modèles d'IA générative tels que DALL-E 2. Ces modèles ont montré un biais social dans la génération d'images représentant principalement des hommes blancs dans des rôles d'autorité, tels que “PDG” ou “directeur”. Meta mentionne que CM3leon peut refléter tout biais présent dans les données d'entraînement, mais ne fournit pas d'autres détails.

L'avenir des modèles génératifs et l'importance de la transparence. À mesure que le secteur de l'IA évolue, les modèles génératifs tels que CM3leon deviennent de plus en plus sophistiqués. Meta souligne l'importance de la transparence pour accélérer les progrès dans ce domaine, bien qu'il n'ait pas annoncé de date de sortie pour CM3leon. Compte tenu du débat entourant les générateurs d'art open source, on ne sait pas quand il sera mis à la disposition du grand public.

Article précédentCréer des portraits époustouflants : un examen plus approfondi de l’outil alimenté par l’IA de CapCut.
Article suivantMarantz Cinema 70s : l’anti-barre sonore