Comment l’IA de Sony Flow Machines se prend pour les Beatles
Publié le 14 octobre 2016 par Elsa Ferreira
Bienvenue dans le futur. En moins d’un mois, deux titres composés par une intelligence artificielle ont dépassé les 1,5 millions de vues sur le Net. L’IA musicale Flow Machines de Sony sera-t-elle la première IA-star?
Cela fait quatre ans que Sony planche sur le projet d’intelligence artificielle (IA) Flow Machines, un compositeur de musique pop, jazz et brésilienne. Ses premiers titres, rendus publics début septembre, Daddy’s Car, de la pop inspirée des Beatles, et The Ballad of Mr Shadow, dans le style des songwriters américains Irving Berlin ou Duke Ellington, ont été écoutés par plus d’1,5 millions d’internautes. Est-ce le début d’une nouvelle veine musicale ?
«Daddy’s Car», chanson la plus populaire de Flow Machines:
Le programme a été développé au sein de Sony CSL Paris, laboratoire de recherche qui fête ses 20 ans et qui planche sur tout un tas de sujets, de la permaculture robotisée à la linguistique computationnelle. Son équivalent tokyoïte planche sur les prothèses (qu’on a pu voir au tout premier Cybathlon à Zurich), l’énergie ou la réalité augmentée.
Pour Flow Machines, François Pachet, chercheur au Sony CSL de Paris en charge du développement du projet, a reçu une bourse de cinq ans du Conseil européen de la recherche et travaille avec une dizaine de personnes aux compétences variées : ingénieurs du son, musiciens, programmeurs ou physiciens.
Dissection d’une chanson
Pour expliquer comment fonctionne son programme, François Pachet commence par disséquer le fonctionnement d’une chanson en quatre étapes :
– Première étape : la partition, une « leadsheet » en anglais ou « l’information symbolique » en science cognitive ;
– Deuxième étape : la réalisation, l’orchestration ou l’arrangement. C’est-à-dire, explique le chercheur, « comment on met du son sur des notes de musique ».
– Troisième étape : la production, c’est-à-dire « les effets spéciaux qu’on applique sur le son », la compression, l’équalisation, ou encore le panoramique;
– Quatrième étape : la performance.
13 000 partitions pour nourrir la machine
Pour la première étape, les ingénieurs ont intégré dans la base de données des partitions de jazz, de pop et de musique brésilienne – 13 000 au total – ainsi que l’intégralité des partitions écrites par le Brésilien Almir Chediak, « le dieu de la partition », selon Pachet. « Beaucoup de partitions ne sont pas bonnes. Chediak est un des premiers à avoir fait des transcriptions fidèles des stars de la musique brésilienne. »
Pourquoi se cantonner à la pop, au jazz et à la musique brésilienne ? Le catalogue a d’abord été choisi pour son caractère « fermé » : le style des compositeurs morts, comme Miles Davis par exemple, est plus facile à modéliser. Et ces genres musicaux s’attachent à la mélodie ou l’harmonie. « Dans la musique lounge, le hard rock ou le rap, la notion de partition est beaucoup moins importante parce qu’il n’y a pas d’harmonie, ou très peu », explique François Pachet. Sans jugement de valeur, insiste-t-il.
La machine se lance alors dans un travail de représentation statistique. « Au départ, on a donné un style, c’est-à-dire un ensemble de morceaux qu’on a sélectionnés nous-mêmes – en machine learning, on appelle ça le training set. La machine va les analyser et essayer de voir ce qui est récurrent. Après telle note et tel accord, il y a plutôt telle note et tel accord avec telle probabilité. C’est fait de manière intelligente et ça construit un objet statistique à partir duquel on va pouvoir générer d’autres morceaux qui auront les propriétés statistiques observées dans le corpus. »
Bossa nova sauce Mozart
Pour la seconde étape, les programmes Flowcomposer et Rechord, également développés au Sony CSL, entrent en jeu. Ils permettent de créer des accompagnements dans un style donné. « On a enregistré des êtres humains qui jouent The Girl from Ipanema, détaille Pachet. Le système Rechords prend cet accompagnement et le découpe en morceaux, l’analyse et synthétise un accompagnement pour une autre partition qui n’aura pas les mêmes accords ou les mêmes rythmes. » Et compose un morceau de bossa nova dans le style de Mozart, par exemple…
Comment fonctionne Flowcomposer, Sony CSL Paris:
Le mixage est assuré par un système développé par Sony, Automix, qui devrait être commercialisé bientôt. Si le programme ne sait pas faire de choix esthétiques ou effectuer des « tâches plus créatives », « il est capable de faire un prémixe, de faire un gros boulot de nettoyage, des gains de piste, d’équalisation », ajoute Pachet.
Pour la performance enfin, les chercheurs ont mis en place le Reflexive Looper, qui « permet de jouer une partition en faisant plus ou moins en temps réel ce que ferait un orchestrateur : on joue un peu de guitare, le système comprend automatiquement ce qu’on a joué et joue le morceau de guitare qui va bien dans le futur de la chanson. » Ce programme, destiné plutôt au live, n’est pas intégré à Flow Machines.
Le son que l’on entend dans les premiers titres de Flow Machines est donc un « vrai » son d’instrument enregistré qui a été intégré à la base et choisi par la machine.
Comment fonctionne le Reflexive Looper, Sony CSL Paris (en anglais):
La place de l’humain
Flow Machines pourrait être totalement autonome, mais François Pachet dit rechercher la qualité. « Une bonne chanson est rare », répète-t-il. « Une chanson raconte une histoire : un début, un milieu et une fin. Aujourd’hui les techniques d’IA ne sont pas très bonnes pour fabriquer de la structure. » Entre l’artiste et la machine s’établit donc un dialogue, explique le chercheur. Les partitions apparaissent à l’écran et le compositeur (humain) peut les éditer. « On peut par exemple lui dire : “j’aime le début mais pas la fin, donne-moi une autre solution.” On peut dialoguer jusqu’à obtenir quelque chose qui nous plaise. »
Benoit Carré, le compositeur qui a travaillé sur les premiers morceaux publiés, suivait les expérimentations du chercheur depuis longtemps. Il raconte (par mail) avoir été « happé » par l’expérience Flow Machines. Entre la machine et lui s’est établi un « dialogue intérieur d’un nouveau genre ».
«La machine vous pousse dans vos retranchements. Les mélodies générées vous confrontent à un choix. Votre instinct ou votre intuition sont très sollicités. La machine m’a aidé à lui créer une chanson – phrase bizarre mais pas fausse! Il n’y a pas de limites à sa “créativité”, c’est à vous de lui donner vos choix, de baliser le terrain. Une fois le cadre défini, s’il est suffisamment cohérent (si vous faites le bon choix dans votre sélection de partitions sources), les mélodies générées peuvent être très inspirantes.»
Benoit Carré, le compositeur de Flow Machines
Un demi-siècle d’intelligence artificielle musicale
Si les deux morceaux sortis par Sony ont été présentés comme les premiers composés par une intelligence artificielle, cela fait plusieurs décennies que les chercheurs s’intéressent au sujet. La première création générée par ordinateur, Suite Illiac, composition pour un quatuor à cordes, remonte à 1957. Dans les années 1990, le chercheur et compositeur américain David Cope sort également plusieurs albums générés par un programme capable d’imiter les compositeurs classiques.
En juin dernier, c’est Google qui sortait une ballade de 90 secondes composée par son programme Magenta. Une mélodie naïve et simplette. Une « blague », estime Fançois Pachet. « Google a fait une opération de comm’ idiote. Parce que par ailleurs ils ont de très bonnes technologies. »
La composition de Magenta:
« Le terme de “premier” a fait polémique, reconnaît François Pachet. Mais c’est bien la première fois qu’on a une chanson de niveau professionnel. C’est très difficile de passer de la démo technique pour les collègues à un machin que les gens écoutent. Il y a un mur entre les deux. » Les premiers (ou presque) à sortir du lab donc, à l’exception de Pierre Barbaud, « un type un peu excentrique » qui, jusqu’à sa mort en 1990, composait des jingles de télé par IA, se rappelle le chercheur.
«French Gagaku» de Pierre Barbaud, 1971:
Pour l’instant, la technologie Flow Machines n’est pas accessible au grand public. « Ça coûte très cher de rendre un logiciel public en développement, on est un petit labo », justifie le chercheur. Sony prévoit en revanche de sortir trois albums. Le premier sera Mr Shadow, de Flow Machines et Benoit Carré. « C’est un peu comme explorer sa part d’ombre en mettant de côté l’égo du compositeur ! », dit Benoit Carré. Puis un album collaboratif avec Alb, Barbara Carlotti et « d’autres plus connus que je ne peux pas mentionner », tease Pachet. Enfin sortira le « prochain album des Beatles ». « Pas imitatif, mais comme si les Beatles avaient continué jusqu’à aujourd’hui. Parce qu’ils étaient toujours au-devant de l’innovation », explique le chercheur. En attendant, Flow Machines fait aussi l’objet d’une web-BD, Max Order, dont la machine a composé la bande sonore. Une star est née…
Flow Machines et autres projets du Sony CSL seront présentés le 27 octobre à la Gaîté lyrique, à Paris, dans le cadre du festival Intensive Science, à partir de 15h (gratuit sur inscription)