- Google MusicLM est un modèle de langage innovant qui utilise des descriptions de texte pour créer des compositions musicales impressionnantes sans avoir besoin de connaissances musicales.
- MusicLM combine des techniques avancées pour fournir des résultats musicaux cohérents et personnalisés, permettant aux utilisateurs de spécifier leur vision musicale par le biais d'un texte.
- Des bandes sonores passionnantes pour les jeux vidéo à la musique relaxante basée sur la localisation, Google MusicLM offre un large éventail d'options, élargissant la créativité musicale à de nouveaux horizons.
Google MusicLM est un modèle de langage avancé dont le but spécifique est de produire des compositions musicales à partir de descriptions textuelles. Ce modèle innovant se concentre exclusivement sur le domaine de la génération musicale et s'appuie sur les fondements d'AudioLM, qui a été conçu pour générer des continuations cohérentes de musique vocale et pianistique sans avoir besoin de transcriptions ou de représentations musicales symboliques.
fonctionnalité d'AudioLM et son application dans MusicLM.
AudioLM convertit l'Audio d'entrée en une série de jetons discrets, ce qui permet au modèle d'apprendre des modèles et des structures inhérents aux données audio. MusicLM utilise une méthodologie similaire, générant de la musique en fonction des descriptions textuelles fournies. En entrant une description textuelle, telle que “une mélodie de guitare apaisante dans un riff de signature temporelle 4/4”, MusicLM peut produire une composition musicale correspondante qui capture l'essence de la description.
Composants et étapes d'AudioLM
AudioLM se compose de trois étapes hiérarchiques :
- Modélisation sémantique: établit une cohérence structurelle à long terme en capturant l'organisation et l'arrangement globaux du signal d'entrée.
- Modélisation acoustique grossière: génère des jetons acoustiques qui sont concaténés ou conditionnés en fonction des jetons sémantiques, établissant ainsi une représentation approximative de l'audio.
- Modélisation acoustique fine: améliore l'audio en traitant les jetons acoustiques grossiers en même temps que les jetons acoustiques fins, ce qui ajoute de la profondeur et de la complexité à l'audio généré.
Modélisation autorégressive et conditionnement du texte dans MusicLM.
MusicLM utilise la modélisation autorégressive à plusieurs étapes d'AudioLM comme composant génératif, mais étend cette capacité en incorporant le conditionnement de texte.

Ce résultat est obtenu grâce à l'utilisation de trois composants : SoundStream, w2v-BERT et MuLan. SoundStream et w2v-BERT traitent et symbolisent le signal audio d'entrée, tandis que MuLan représente un modèle d'intégration commun pour la musique et le texte.

Avantages et capacités de MusicLM
MusicLM offre trois avantages distincts :
- Génération basée sur des descriptions textuelles.: permet aux utilisateurs de spécifier la composition musicale qu'ils souhaitent sous forme de texte.
- Conditionnement des mélodies d'entrée: tu peux utiliser des mélodies fournies par l'utilisateur pour étendre tes fonctionnalités et générer la musique correspondante.
- Génération de séquences multi-instruments étendues.: excelle dans la génération de compositions musicales longues et complexes sur un large éventail d'instruments.
Données d'entraînement et disponibilité du modèle.
L'ensemble de données utilisé pour entraîner MusicLM se compose d'environ 5500 paires de musique et de texte. Google a mis cet ensemble de données à disposition sur Kaggle sous le nom de “MusicCaps”. Cependant, le géant de la technologie n'a actuellement pas l'intention de distribuer publiquement les modèles associés à MusicLM, car ils nécessitent d'être développés et affinés avant d'être partagés.
Bien que Google n'ait pas distribué les modèles associés à MusicLM, il a fourni de nombreux exemples dans un livre blanc pour démontrer les capacités du modèle à générer de la musique à partir de descriptions textuelles :
- Descriptions évocatricesCette musique peut générer une bande son passionnante pour un jeu vidéo plein d'action avec un tempo rapide, des rythmes énergiques et une mélodie de guitare électrique contagieuse. La musique se caractérise par des motifs répétitifs et des éléments inattendus tels que des cymbales tonitruantes et des roulements de tambour dynamiques.
- Durée prolongée: a la capacité de générer un son continu de haute qualité qui s'étend jusqu'à 5 minutes. Les utilisateurs peuvent fournir des invites textuelles telles que “post-rock triste” ou “hip-hop amusant” pour guider la génération de musique, créant ainsi une expérience musicale cohérente et immersive.
- Mode narratifpermet aux utilisateurs de créer une séquence musicale basée sur une histoire cohérente. Par exemple, on peut demander au modèle de générer une méditation relaxante, une transition progressive vers un thème de réveil entraînant, un rythme de course énergique et de culminer dans une section motivante et puissante.
- Conditionnement de la mélodie et du texte.: Les utilisateurs peuvent profiter de cette fonction pour générer de la musique qui s'aligne sur une mélodie fournie, comme un bourdon ou un sifflet, tout en conservant le message textuel souhaité. Cela permet de convertir un flux audio existant en la représentation audio souhaitée.
- Thèmes basés sur la localisationpeuvent générer de la musique basée sur des descriptions de lieux ou d'environnements spécifiques. Par exemple, tu peux capturer l'ambiance sereine et ensoleillée d'une journée tranquille à la plage, en utilisant ce message texte pour générer de la musique qui résume l'humeur et l'atmosphère de l'environnement.