Een computer die componeert, kan dat?

Dit is de 75^ste blogpost van mijn blogpost Expeditie muziek. Ik kies voor een actueel thema, muziek die met computers wordt voortgebracht. De reeks Franse rock wordt voor dit doel eenmalig onderbroken. Ook bij deze post voeg ik een videopodcast toe. Zowel de blogpost als de podcast zijn wat langer dan normaal. De blogpost werkt een aantal aspecten dieper uit.

Technologiebedrijven experimenteren al decennia met kunstmatige intelligentie (AI) bij de productie van muziek, net zoals ze programmatuur maken waarmee een computer een schaakgrootmeester kan verslaan en werken aan auto’s die zelfstandig rijden. De principes zijn in alle gevallen hetzelfde: Je voedt de computer met miljoenen voorbeelden en laat deze zelf patronen ontdekken^[1]. De laatste jaren zijn er belangrijke doorbraken gerealiseerd. Hierdoor is een nummer dat overwegend tot stand is gekomen met AI voor de leek niet meer van ‘echte’ muziek te onderscheiden. Zeker in combinatie met de toepassing van deepfakes. Luister naar het volgende nummer.

Dit nummer klinkt niet verkeerd, vind ik. Het heet Peronu’ de la garä. Het werd in het Romeens gezongen door Lolita Cercel. Maar Lolita Cercel bestaat niet: Haar uiterlijk en stem, de melodie en het arrangement zijn gegenereerd met kunstmatige intelligentie. Een uitzondering? Van alle nummers die dagelijks aan Deezer – een streamingdienst – worden aangeboden is inmiddels al 34% geheel of gedeeltelijk met behulp van kunstmatige intelligentie gemaakt, doorgaans zonder dat luisteraars zich dit realiseren. Hoe werkt dit en waar gaat dit naartoe? Dat zijn de vragen die ik in deze post beantwoord.

Wat kunnen computers als het om de productie van muziek gaat?

Wat computers al jarenlang kunnen is bijvoorbeeld de zangpartijen en de gebruikte instrumenten van een muziekstuk isoleren en daar bladmuziek van maken. Ook is het al geruime tijd mogelijk dat ze een geneuried melodietje ‘op toon’ zetten, inclusief suggesties voor bijbehorende akkoorden. In deze gevallen maken computers niets ‘nieuws’. Er wordt daarom gesproken van non-generatieve kunstmatige intelligentie.

Holly Hendorn is al jaren bezig met de productie van muziek met computers. Ze gebruikt daarvoor vooral een grote hoeveelheid stemmen van professionele zangers en (amateur)koren. Ze is gepromoveerd op het gebied van computertechnologie en muziek en ze heeft veel van de door haar gebruikte AI-applicaties zelf ontworpen. Ze treedt ook live op. Zij brengt klanken voort en de computer maakt daar een muziekstuk van. Hier zie je zo’n optreden.

Sinds de opkomst van generatieve kunstmatige intelligentie kan een computer wél iets ‘nieuws’ maken. De schaal waarop dat gebeurt is de laatste paar jaar enorm toegenomen. Bovendien zijn er betaalbare programma’s op de markt gekomen die binnen enkele minuten een kant en klaar nummer produceren. Een van de eerste geslaagde pogingen om met behulp van AI composities te maken dateert uit 2016. Dit gebeurde door de Sony Computer Science Laboratories Paris (Sony CSL Paris) met subsidie van de EU. De zanger Benoît Carré schreef teksten en de computer genereerde op basis van slechts 45 liedjes van de Beatles de melodieën. Je hoort hier een van die nummers, ‘Daddy’s Car’.

Een jaar later, in 2017, bracht Taryn Southern het album ‘I am AI’ uit. Ze gebruikte daarvoor verschillende AI-applicaties. Zij heeft de teksten geschreven; de melodieën, de instrumentatie en de achtergrondzang is gegeneerd met behulp van AI op haar aanwijzing. Voor het genereren van de melodie van het nummer waarnaar je nu kunt luisteren is de computer getraind op basis van pianosonates uit de 19^de eeuw.

Sinds 2017 is veel veranderd. Met de programmatuur die sinds enkele jaren beschikbaar is kan een leek de computer een compleet muziekstuk laten genereren, inclusief tekst, muziek en de beeltenis van de zanger. Verreweg de meest gebruikte applicatie is SUNO.

De grote vraag is hoe werkt dit?

Om uit te leggen hoe dit werkt, begin ik met de manier waarop een componist en/of tekstschrijver dat doet. Het is aannemelijk dat deze veel naar muziek luistert en bedreven is in de herkenning van stijl, structuur, woordgebruik en ‘hooks’ (verrassende tekstfragmenten of klankcombinaties) en daar creatief mee om kan gaan. Als je deze musicus vraagt om een nummer te maken over een willekeurig onderwerp, is de kans groot dat ideeën voor dit liedje zich binnen enkele ogenblikken aandienen.

Kunstmatige intelligentie doet precies hetzelfde, zij het op basis van miljoenen nummers. Om dit te kunnen heeft het ‘systeem’ daarin voorkomende combinaties van klanken, akkoorden, arrangementen en gebruikte instrumenten verwerkt, het beschikt over een bijna onbeperkte woordenschat en destilleert sfeer, klankkleur en stijl op basis van steeds verfijndere klassen van kenmerken.

Ik ga verschillende voorbeelden laten horen. Het eerste voorbeeld is de fictieve band The Velvet Sundown, die in 2025 meer dan een miljoen keer beluisterd werd op Spotify. Je luister en kijkt naar het nummer ‘The corner bar’.

Na enige tijd zag ook Spotify het bedrog in en noemde de groep The Velvet Sundown “een synthetisch muziekproject was, geleid door menselijke creatieve leiding, en gecomponeerd, ingezongen en gevisualiseerd met de ondersteuning van kunstmatige intelligentie”. Over deze formulering is ongetwijfeld lang nagedacht. Met AI gegenereerde videoclips lijken in veel opzichten op andere videoclips. Met als belangrijkste verschil dat de ‘muzikanten’ meestal deepfakes, figuranten of beide zijn en gemeen hebben dat ze niet kunnen zingen of een instrument bespelen.

Een tweede voorbeeld is ‘Walk my walk’ gezongen door een fictieve zanger ‘Breaking Rust’.

https://www.youtube.com/watch?v=–fHvjBz2WM&list=RD–fHvjBz2WM&start_radio=1
Breaking Rust – Livin On Borrowed Time (Visualizer)

Breaking rust

Deze zanger kreeg 35.000 volgens op Instagram. Zowel de tekst, de muziek als het arrangement zijn gegenereerd door SUNO.

Hoe verrassend het resultaat van de toepassing van AI met nauwelijks menselijke tussenkomst soms ook is, het begrip kunstmatige intelligentie is misplaatst. Er is sprake van supersnelle verwerking van een enorme hoeveelheid data van uiteenlopende aard, variërend van encyclopedieën, internetsites, woordenboeken, afbeeldingen, films en bestaande muziekstukken. De kwaliteit van het resultaat hangt af van de hoeveelheid beschikbare data en hun variatie. En niet te vergeten knappe programmeurs en energievretende datacenters.

Hoe worden deze data verwerkt?

In datacenters worden miljoenen muziekstukken tot op het bot gefileerd. Bewaard worden combinaties van melodieën en akkoorden, rijmstructuren en de betekenis daarvan, persoonsgegevens van artiesten en kenmerken van hun werk. Stel dat je deze gegevens en hun relaties in een meerdimensionale figuur ‘in kaart’ brengt , dan hoor je na de verwerking van enkele honderden nummers nog dat zich bepaalde patronen aftekenen. Naarmate meer gegevens worden toegevoegd, hoor je alleen maar ruis, zonder dat de oorspronkelijke data verkoren zijn gegaan. Dit proces heet diffusie.

Je kunt deze gigantische database voor je aan het werk zetten met behulp van eenvoudige tekstuele opdrachten, ‘prompts’ genaamd. Zo’n prompt kan bijvoorbeeld luiden:

“Funky synthpop , downbeat met een drijvende staande bas, een karakteristieke jaren ‘80 sfeer, met afwisselend opbeurende en gelaten teksten over relaties, gezongen in duetvorm met op de achtergrond een koortje”

Met een ‘prompt’ en een aantal voorgeprogrammeerde uitgangspunten waaraan muziekstukken van een bepaald type moeten voldoen als uitgangspunt draait de computer al itererend het proces van diffusie terug. Uit de ruis emergeren steeds duidelijker te onderscheiden combinaties van tekst en klank. Het resultaat kan elke keer anders zijn.

In de volgende video laat muziekcriticus en -docent, producer, multi-instrumentalist en vlogger Rick Beato zien hoe hij zelf een nummer, met AI heeft geproduceerd voor de luisteraars naar zijn podcast:

Bij een ander nummer dat met SUNO is gemaakt kwam de geest uit de fles. Je kijkt weer naar Rick Beato. Het nummer ‘Walking away’ ‘gezongen’ door ene Sadie Winters is in korte tijd een tophit geworden en is miljoenen malen op Spotify beluisterd zonder dat de fans wisten dat zij een fake is.

Hoe wordt er over AI geproduceerde muziek gedacht?

Er zijn in de loop der tijd verschillende visies uitgekristalliseerd over het wezen van muziek.

1. Muziek is het resultaat van een al dan niet authentiek gevoel dat de maker wil uitdrukken. In de amusementsindustrie is dat vooral ‘good feeling’. Voor zover luisteraars dit herkennen kunnen ze zich erdoor aangesproken voelen. Het gros van alle nummers hoort tot deze categorie.

2. Muziek is een objectivering van doorleefde ervaring van de maker ) en bevat essentiële kennis van de werkelijkheid, of zoals Langer het uitdrukt: ”Music is lived experience that presents the morphology of felt life”.

In de eerste omschrijving ligt de nadruk op expressie, in de tweede op representatie. In de eerste visie is muziek een middel stemming op te wekken. In de tweede visie helpt muziek om de vraag te beantwoorden naar de betekenis van wat zich in de wereld afspeelt, denk aan bijvoorbeeld Bob Dylan.

Vanuit elk van deze visies kun je verschillend aankijken tegen met AI geproduceerde muziek.

Als muziek in de eerste plaats een middel is om gevoelens op te wekken (expressie) dan vindt een deel van de luisteraars dat de totstandkoming ervan er niet zo veel toe doet. Anderen voelen zich misleid; ze waren al op zoek naar de mogelijkheid om een liveconcert van hun idool bij te wonen.

In de tweede visie staat centraal de beleving van wat zich in de wereld afspeelt en de betekenis daarvan voor de zanger(es) of bandleden. Luisteraars kunnen zich daarmee identificeren. Dit zal met kunstmatige intelligentie gegenereerde muziek in principe niet gebeuren. ‘In principe’, want er ontstaat een boeiend grensgebied, waarbinnen mens en machine samenwerken.

Telisha Jones is een interessante casus. Zij tekende contract van 3 miljoen dollar voor het schrijven van teksten voor de (fictieve) zangeres Xania Monet. Zij heeft het nummer “How was I supposed to know?” to know geschreven. It is het eerste AI-nummer dat de Billboard-radiohitlijst haald. In enkele maanden tijd hebben op Spotify meer dan 3 miljoen personen ernaar geluisterd. Nu jij.

Telisha Jones zegt de teksten te hebben geschreven op basis van haar eigen ervaringen. Ze gebruikt SUNO om de zang en melodie, het arrangement en de instrumentatie te genereren. In een televisie-interview zegt Jones zei dat ze wil dat mensen weten dat er een echt persoon achter Xania zit en dat de teksten de emoties daarvan uitdrukken. Over de identiteit van Xania bleef ze vaag; mijn indruk is dat zij het zelf is. Luister naar een fragment van een interview met Thelisha Jones op CBS.

Wat waar is van het verhaal van Telisha Jones is niet eens zo belangrijk. De kernvraag is of het mogelijk is dat componisten en tekstschrijvers ‘samenwerken’ met AI om innovatieve en kwalitatief goede muziek te creëren. Ik had het over een boeiend grensgebied. Wat mij betreft ligt het ten tonele voeren van fictieve uitvoerders, die zelf geen instrument kunnen bespelen of kunnen zingen of aan de verkeerde kant van die grens. Muzikanten die eigen werk door SUNO van tekst of begeleiding laten voorzien, bevinden zich aan de ‘goede’ kant van de grens, mits er geen twijfels bestaan 0ver wat ieders bijdrage is.

Kan door AI gegenereerde muziek kunst zijn?

Puristen komen niet eens toe aan deze vraag omdat zij vinden dat er niet van muziek als zodanig mag worden gesproken. Zij reserveren voor AI-gegenereerde klanken de fraaie Duitse term ‘Augen- und Ohrenkitzlung’. Ik heb geen bezwaar tegen de term muziek, zeker als er sprake is van minimaal een gelijkwaardige bijdrage van ‘mens en machine’ aan de totstandkoming ervan. Deze bepaalt ook of in potentie in van kunst kan worden gesproken. Maar wat is kunst?

De meest kernachtige omschrijving is dat het gaat om creatieve uitingen van een mensen, die getuigt van vakmanschap. Hieraan wordt vaak toegevoegd dat dit erkenning behoeft van hetzij deskundige kunstcritici en/of het publiek. Bovendien moet dit oordeel de tand des tijds in voldoende mate hebben doorstaan. Over een aantal jaren zou kunnen blijken dat de teksten van Telisha Jones een uitzonderlijke poëtische kwaliteit hebben. Zij zouden dan een vorm van kunst kunnen zijn.

In essentie gaat kunst over de verbinding van iets dat een mensen in hun hoofd hebben en de bijzondere en bekwame wijze waarop zij dat verbeelden, al dan niet met technische hulpmiddelen. Veel auteurs van ‘promps’ verzinnen hooguit enkele kenmerken van het muziekstuk dat SUNO of welke applicatie dan ook, moet maken. Van hoe dit gaat klinken hebben ze vooraf niet het minste idee. Dat wordt anders als zodra er sprake is van een interactief proces tussen mens en machine. Dat zagen we onder andere bij Holly Hendorn. Zij heeft hiervoor deels zelf ontworpen programmatuur gebruikt. Haar producties benaderen het meest een coproductie van mens en machine en maken vanwege haar vakmanschap en bestendige artistieke prestaties kans om kunst te heten.

Ik heb ChatGPT gevraagd een stappenplan te maken voor dit soort coproducties. Dat kun je hier downloden

Je kunt nu kijken en luisteren naar Johnny Keeley, uitvoerend musicus en tekstschrijver. Op een gegeven moment besloot hij een van zijn teksten met SUNO op muziek te laten zetten en ook de zang te genereren. Uiteindelijk viel hij voor een van de gemaakte versies en die gebruikte hij als voorbeeld van zijn eigen vertolking.

Of Telisha Jones aan de goede kans van de grens bevindt is mijns inziens twijfelachtig. In het geval van Johnny Keeley beantwoord ik deze vraag bevestigend.

Wat betekent met AI gegenereerde muziek voor het auteursrecht?

Volgens het Bureau voor Intellectueel Eigendom van de Europese Unie en recente jurisprudentie van het Hof van Justitie van de Europese Unie dient er voor het verkrijgen van auteursrechten sprake te zijn van origineel werk dat de persoonlijkheid van de maker weerspiegelt. Het Amerikaanse auteursrechtbureau stelt eveneens dat het geen auteursrechten zal verlenen aan “werken die geen menselijk auteurschap hebben.”

Streamingdiensten als Spotify en Deezer willen in de toekomst een label toekennen aan muziek die met AI tot stand is gekomen. Deezer weert nu al dergelijke nummers uit de afspeellijsten die de reactie samenstelt.

Het is maar de vraag of een zwart-wit oordeel mogelijk en wenselijk is. Denk aan Johnny Keeley. Om een betrouwbaar en rechtvaardig oordeel te kunnen vellen over de mate van authenticiteit van muziekstukken is het noodzakelijk dat van elk muziekstuk de eventuele bijdrage van AI bekend is. Dit ten behoeve van instanties die auteursrechtelijke claims moeten beoordelen maar ook voor luisteraars in het algemeen. Voor hen is wellicht een systeem met sterren bruikbaar, mogelijk voor tekst, muziek en vertolking afzonderlijk.

Zo lang zo’n systeem ontbreekt blijft het op de markt brengen van muziek die tot stand is gekomen met een substantiële bijdrage van AI een riskante zaak. Dit kan leiden tot aanklachten voor schending van het auteursrecht, het portretrecht en misleiding. Er lopen bovendien al verschillende rechtszaken van artiesten die van mening zijn dat producenten als SUNO ten onrechte hun auteursrechtelijk beschermde werk als trainingsmateriaal voor hun computers hebben gebruikt. Naar aanleiding van zo’n rechtszaak heeft SUNO een schikking van 500 miljoen (!) dollar getroffen met de Warner Music Group waarmee zowel de rechten van auteurs worden afgekocht en gebruikers van SUNO van rechtszaken worden gevrijwaard.

Wat zijn de mogelijke gevolgen van de opkomst van door AI gegenereerde muziek voor de muziekindustrie?

De opkomst van met AI geproduceerde muziek zal gevolgen hebben voor de muziekindustrie, de muziekproducenten en musici. Een deel van de gebruikers van streamingdiensten of luisteraars van radiostations zal muziek beoordelen op basis van hoe deze klinkt en niet op basis van haar totstandkoming. De muziekindustrie zal daarom moeite doen om grotendeels door AI voortgebrachte muziek te promoten. Op zich vind ik dat geen probleem, zolang ze daar heldere informatie over geeft en er eigen speellijsten en hitlijsten voor dit soort muziek komen.

Gelukkig zullen er mensen blijven die hun idolen willen horen en zien. De Taylor Swifts, Bruce Springsteens en Coldplays van deze wereld zullen volle stadions blijven trekken. Singer-songwriters zullen een toegewijd publiek houden en dat geldt ook voor alles wat daar tussenin zit, afhankelijk van de authenticiteit en kwaliteit ervan.

Wel zal er in het voortraject veel veranderen. Nummers steeds vaker zullen coproducties van mens en machine zijn, zowel wat betreft de tekst, de melodie als het arrangement. Dit zal de efficiency van de productie vergroten en kan ook tot betere kwaliteit leiden. Wat albums en veel gestreamde muziek betreft; vaak zul je de stem horen van een artiest terwijl alle arrangementen en begeleiding met AI wordt geproduceerd.

Mocht je een muzikale carrière willen opbouwen?

Doe dat vooral. Onderscheid je dan door vakmanschap als tekstschrijver, zanger(es) of musicus, liefst alle drie. Laat tijdens liveoptredens zien hoe goed je bent. Raak in de tweede plaats vertrouwd met AI en wees open over de manier waarop je die gebruikt. Bedenk dat “De meerwaarde zit niet in wat AI maakt, maar in hoe de mens ermee omgaat”, citaat letterlijk overgenomen van Chat GPT.

Om dit artikel te kunnen schrijven heb ik geput uit de snel groeiende hoeveelheid publicaties in Medium, The Riff, Music for Thought, The Guardian en de Nederlandse-, Engels en Franstalige versies van Wikipedia. Chat GPT heeft me geholpen bij het verzamelen en vergelijken van verschillende vormen van het genereren van muziek met AI.

^[1] Wil je meer weten over kunstmatige intelligentie (AI) en de potentiële gevaren ervan, lees dan hier de post die ik eerder over dit onderwerp heb geschreven.

Een computer die componeert, kan dat?

Dit delen:

Plaats een reactie Reactie annuleren