dans Article de recherche publié jeudiLes chercheurs de Google MusicLM décrivent comme « un modèle qui génère de la musique haute fidélité à partir de descriptions textuelles telles qu’une » mélodie de violon apaisante soutenue par un riff de guitare déformé « ».
« Nous démontrons que MusicLM peut être adapté à la fois au texte et à la mélodie en ce qu’il peut transformer des mélodies sifflées et fredonnées selon la méthode décrite dans un commentaire de texte », indique le journal.
Selon l’étude, les utilisateurs pourraient entrer des descriptions comme « une charmante chanson de jazz avec des solos de saxophone mémorables et un solo vocal » ou « Techno berlinoise des années 90 avec des basses basses et un coup de pied puissant » et obtenir des résultats similaires. Exemples similaires, partagés sur Page Google GitHubaffichez le son correspondant à ces invites.
La montée en puissance de MusicLM survient lors de la montée rapide du chatbot ChatGPT d’OpenAI, qui a incité Google à émettre un « jeton rouge » – ce qui Le New York Times décrit en décembre comme « ressemblant à tirer une alarme incendie » pour le géant de la technologie.
Dans un effort pour être compétitif, la société accélère la sortie de 20 nouveaux produits, ainsi qu’une version de Google Search avec des fonctionnalités de chat bot AI, dans la Tamise.
Cependant, Google a déclaré qu’il n’avait pas l’intention de diffuser MusicLM au public, citant une variété de risques, notamment des biais logiciels qui pourraient entraîner un manque de représentation et d’appropriation culturelle, des problèmes technologiques et plus particulièrement un « détournement potentiel de contenu créatif ».
Selon l’étude, des chansons existantes identifiables ont été trouvées dans environ 1 % des exemples, ce qui indique une éventuelle violation du droit d’auteur.
« Nous insistons fortement sur la nécessité de poursuivre les travaux futurs pour faire face à ces risques associés à la génération de musique – nous n’avons pas l’intention de publier des modèles à ce stade », indique l’étude.
L’étude souligne également les limites actuelles de la technologie, notamment l’utilisation de la négation et l’ordre chronologique utilisé dans les invites textuelles, ainsi que la qualité phonétique. Pour l’avenir, les chercheurs ont déclaré qu’ils avaient l’intention de travailler à « la modélisation d’une structure de chanson de niveau supérieur telle que l’introduction, le couplet et le refrain ».