Meta lance une IA générative pour créer de la musique et des sons • The Register

Meta a publié mercredi AudioCraft, un ensemble de trois modèles d'IA capables de créer automatiquement du son à partir de descriptions textuelles.

Alors que les modèles d’IA générative qui prennent des invites écrites et les transforment en images ou en texte continuent de mûrir, les informaticiens étudient la création d’autres formes de médias en utilisant l’apprentissage automatique.

L'audio est difficile pour les systèmes d'IA, en particulier la musique, car le logiciel doit apprendre à produire des modèles cohérents sur plusieurs minutes et être suffisamment créatif pour générer quelque chose d'accrocheur ou d'agréable à écouter.

"Une piste musicale typique de quelques minutes échantillonnée à 44,1 kHz (qui est la qualité standard des enregistrements musicaux) se compose de millions de pas de temps", a expliqué l'équipe Meta. Autrement dit, un modèle de génération audio doit produire beaucoup de données pour créer une piste conviviale.

"En comparaison, les modèles génératifs basés sur du texte comme Llama et Llama 2 sont alimentés par du texte traité sous forme de sous-mots qui ne représentent que quelques milliers de pas de temps par échantillon."

Le géant Facebook envisage que les gens utilisent AudioCraft pour expérimenter la création de sons générés par ordinateur sans avoir à apprendre à jouer d'un instrument. La boîte à outils est composée de trois modèles : MusicGen, AudioGen et EnCodec.

MusicGen a été formé sur 20 000 heures d'enregistrements, détenus ou sous licence par Meta, ainsi que sur les descriptions textuelles correspondantes. AudioGen se concentre davantage sur la génération d’effets sonores plutôt que sur la musique et a été formé sur des données publiques. Enfin, EnCodec est décrit comme un codec neuronal avec perte capable de compresser et de décompresser les signaux audio avec une haute fidélité.

Meta a déclaré qu'il s'agissait d'AudioCraft "open source", et c'est le cas dans une certaine mesure. Le logiciel nécessaire pour créer et entraîner les modèles, ainsi que pour exécuter l'inférence, est disponible sous une licence MIT open source. Le code peut être utilisé dans des applications gratuites (comme dans la liberté et la bière gratuite) et commerciales ainsi que dans des projets de recherche.

Cela dit, les pondérations du modèle ne sont pas open source. Ils sont partagés sous une licence Creative Commons qui interdit spécifiquement toute utilisation commerciale. Comme nous l'avons vu avec Llama 2, chaque fois que Meta parle de choses open source, vérifiez les petits caractères.

MusicGen et AudioGen génèrent des sons à partir d'une invite de saisie de texte. Vous pouvez entendre de courts extraits créés à partir des descriptions « sifflement avec le vent qui souffle » et « piste de danse pop avec des mélodies entraînantes, des percussions tropicales et des rythmes entraînants, parfaits pour la plage » sur la page d'accueil AudioCraft de Meta, ici.

Les effets sonores courts sont réalistes, même si ceux qui ressemblent à de la musique ne sont pas géniaux à notre avis. Ils ressemblent à des jingles répétitifs et génériques pour de la mauvaise musique de maintien ou des chansons d'ascenseur plutôt que des singles à succès.

Les chercheurs de Meta ont déclaré qu'AudioGen – décrit en détail ici – avait été formé en convertissant l'audio brut en une séquence de jetons et en reconstruisant l'entrée en les transformant à nouveau en audio haute fidélité. Un modèle de langage mappe des extraits de l'invite de texte saisie aux jetons audio pour apprendre la corrélation entre les mots et les sons. MusicGen a été formé en utilisant un processus similaire sur des échantillons de musique plutôt que sur des effets sonores.

"Plutôt que de garder le travail comme une boîte noire impénétrable, être ouvert sur la manière dont nous développons ces modèles et veiller à ce qu'ils soient faciles à utiliser pour les gens - qu'il s'agisse de chercheurs ou de la communauté musicale dans son ensemble - aide les gens à comprendre ce que ces modèles peuvent apporter. faire, comprendre ce qu'ils ne peuvent pas faire et avoir les moyens de les utiliser réellement », a soutenu l'équipe Meta.

"À l'avenir, l'IA générative pourrait aider les gens à améliorer considérablement le temps d'itération en leur permettant d'obtenir des commentaires plus rapidement au cours des premières étapes de prototypage et de grayboxing - qu'il s'agisse d'un grand développeur créant des mondes pour le métaverse, d'un musicien (amateur, professionnel ou sinon) travaillant sur leur prochaine composition, ou un propriétaire de petite ou moyenne entreprise cherchant à améliorer ses atouts créatifs.

Vous pouvez récupérer le code AudioCraft ici, expérimenter MusicGen ici et l'essayer. ®

Envoyez-nous des nouvelles