Het moeilijke aan AI-muziek maken is niet op de knop drukken. Het moeilijke is weten wat je erin stopt vóórdat je erop drukt, lezen wat er terugkomt met enig onderscheidingsvermogen, en beslissen of je doorgaat of stopt. De meeste mensen die AI-muziek "generiek" noemen hebben geen ongelijk — ze stopten gewoon te vroeg in het proces, of begonnen zonder voldoende helderheid over wat ze eigenlijk probeerden te maken.
Dit is een doorloop van het proces dat ik honderden keren heb doorlopen. Het behandelt generatie als iteratie, niet als een verkoopautomaat. Wanneer het werkt, klinkt de output niet alsof een machine het heeft geschreven. Wanneer het mislukt, weet je precies welke beslissing je opnieuw moet bekijken.
Besluit wat voor soort nummer je eigenlijk wilt
Voordat je een tool opent, zit met één vraag: wiens ervaring leeft dit nummer in? Niet "welk genre" en niet "welke sfeer" — die komen later. Begin met perspectief, dan de plek, dan het emotionele zwaartepunt.
Een eenvoudig kader hiervoor:
Een [WIE] die [WAT] doet, het moment net voor [KEERPUNT]. De emotie eronder is [GEVOEL], niet [OPPERVLAKTEGEVOEL]. Houd het [ÉÉN TONAAL WOORD].
Het onderscheid tussen oppervlaktegevoel en het gevoel eronder is geen schrijfoefening — het is een generatorinstructie. Een nummer over "verdriet" klinkt op één manier; een nummer over de specifieke ergernis van niet kunnen huilen op een begrafenis klinkt als een compleet ander plaat. De specificiteit reist mee in de generatie op manieren die genretags simpelweg niet kunnen.
Terwijl je nog op papier nadenkt, beslis over lengte. Een nummer van twee minuten en een van vier minuten vereisen andere structurele keuzes, en de generator dwaalt zonder een doel. Kies er één voordat je verdergaat.
Stap 1: schrijf een prompt die een houding benoemt, geen textuur
De meeste eerste prompts beschrijven geluid: "lo-fi beat, warme toetsen, melancholisch." Dat beschrijft hoe de track zou moeten aanvoelen voor een luisteraar drie stappen verwijderd van de emotie. Een houding beschrijft wat de performer doet met zijn lichaam en aandacht.
Vergelijk deze twee:
- Textuurprompt: "Langzame R&B, zachte falsetto, late avond, verlangen."
- Houdingsprompt: "Iemand die oude berichten leest die ze zichzelf hebben beloofd te verwijderen. Ze blijven lezen. De vocal is zacht alsof ze niet wil dat iemand het hoort."
Beide wijzen naar een vergelijkbare emotionele bestemming. De houdingsprompt geeft het model iets om uit te voeren. De textuurprompt geeft het een sonische referentie en verder niets. De resultaten zijn niet gelijkwaardig.
Houd houdingsprompts tot drie of vier zinnen. Het plafond is lager dan je denkt — na ongeveer vijf zinnen begint het model te middelen over de instructies in plaats van erop te bouwen.
Stap 2: kies een generator die je takes kunt vergelijken
Single-take generatoren maken iteratie traag op een specifieke, vervelende manier: je krijgt een resultaat, het is bijna goed, je regenereert met een kleine aanpassing, en de nieuwe take landt in een compleet andere richting omdat er geen gedeeld ankerpunt was. Je eindigt met het najagen van de originele take die "bijna goed" was voor zes cycli.
Parallelle varianten uitvoeren lost dit op. De muziekgenerator van aisonggen rendert vijf takes tegelijkertijd vanuit dezelfde prompt, zodat je ze naast elkaar kunt vergelijken voordat je je vastlegt op een richting. Als twee van de vijf in het juiste gebied zitten, heb je de meeste van de regeneratie-loops al overgeslagen.
Een eerlijke opmerking: vijf takes kosten meer credits dan één. Als je een erg krap creditbudget hebt, doe dan twee takes in plaats van vijf en behandel er één als referentie. Het punt is om minstens één vergelijking te hebben, niet om er vijf te hebben.
Stap 3: schrijf of co-schrijf je teksten eerst
Het tekstgebied van de generator is een klein tekstveld, en het model erachter heeft een sterke voorkeur om te behouden wat je het geeft — het oorspronkelijke aantal regels, het oorspronkelijke rijmschema, zelfs het oorspronkelijke syllabepartroon. Als je teksten in dat veld schrijft en later besluit dat je een brug wilt toevoegen, zul je bij elke regeneratie met het model strijden.
Maak teksten apart voordat je ze erin plakt. De Lyric Studio geeft je genoeg ruimte om werkelijk te zien wat je schrijft. Je kunt een volledig couplet herzien, een andere refreinhaak proberen, het pre-refrein verplaatsen voordat het structureel wordt — allemaal voordat je iets aan de generator geeft.
Teksten-eerst laat je ook één ding controleren dat de generator niet kan: of de tekst een natuurlijk spreekritme heeft dat een zanger daadwerkelijk kan landen. Lees je refrein hardop. Als je struikelt, zal het model dat ook doen.
Als je de tekst interactief opbouwt naast de muziek — eerst de prompt, daarna teksten verfijnen — is die workflow ook geldig. Het sleutelmoment is dat het bewerken van teksten ergens plaatsvindt met echte bewerkingsruimte, niet in het tekstvak van de generator.
Stap 4: kies je stijlcontroles met intentie
Genretags zijn zaden, geen contracten. "Indie folk" vergrendelt de output niet in een specifieke productiestijl — het brengt het model naar een cluster van geluiden die geassocieerd worden met dat label, wat een startpunt is, geen garantie. Als je wilt begrijpen hoe het model deze tags daadwerkelijk interpreteert voordat je je vastlegt, is de gids over genretags tien minuten van je tijd waard.
Wat de output betrouwbaarder beperkt:
- Stemming, precies benoemd. "Wrang" en "berusten" landen anders, ook binnen dezelfde genretag.
- Scène of setting. "Lege parkeerplaats om middernacht" geeft de mixengineer (hier het model) een visuele referentie voor galm en ruimte.
- Vocaal geslacht en register. De meeste generatoren accepteren expliciete instructies hier, en de standaard is niet altijd de juiste voor je tekst.
Stel BPM in als je het weet. Geen bereik — een getal. "Rond de 90" geeft het model te veel ruimte. "88 BPM" geeft het een klok. Hetzelfde geldt voor tracklengte: schrijf de gewenste duur expliciet in plaats van het aan de standaard over te laten.
Stap 5: render, en luister dan op de slechtste luidspreker die je bezit
AI-gegenereerde tracks hebben een bekend faalmodus: ze klinken beter op koptelefoons dan ze verdienen. Het stereoveld is vaak breed, het laag is gecontroleerd, de mix is schoon op een manier die zich pas als kunstmatig onthult wanneer je het op iets genadeloos hoort.
Ga na de eerste render naar je telefoonluidspreker. Of een ingebouwde laptop. Of, als je toegang hebt, een autoradio met de ramen omlaag. Deze luidsprekers klappen het stereoveld in, stellen het laag-midden modder bloot en brengen de hardheid in het hogere middenbereik naar boven. Als de track nog steeds klinkt als een track — niet per se goed, maar coherent — dan heb je iets om mee te werken.
Als het instort tot pap, is dat niet altijd een teken om opnieuw te genereren. Het is een teken om naar je stijlcontroles te kijken. Een laag-zwaar genretag plus een warme kameromgeving plus een langzaam BPM zal vaak een track produceren die niet meereist. Pas één variabele aan, niet alle drie.
Stap 6: cover, herrender of stop
Weten wanneer te stoppen is de vaardigheid die de mensen die iets uitbrengen scheidt van de mensen die vierhonderd opgeslagen concepten hebben en niets op een afspeellijst.
Drie signalen dat een take klaar is:
- Het refrein trekt echt. Je voelt de aankomst voordat je erover nadenkt. Als je jezelf moet overtuigen waarom het refrein werkt, werkt het niet.
- De vocal zit in de pocket. De zanger klinkt alsof hij dit nummer zingt, niet alsof hij demonstreert dat hij die noten kan halen. AI-vocals overarticuleren medeklinkers vaak — een goede take doet dat niet.
- Er zijn geen AI-tekens meer die je bij de derde keer luisteren opmerkt. Drumpatronen die te metronoomschoon zijn. Akkoordovergangen die elke snelheidsvariatie missen. Een aangehouden noot die nooit ademt. Dit zijn de tekens. Één ervan is vaak acceptabel. Drie is te veel.
Als de take twee van de drie haalt, stop dan en noem het een concept. Als je alle drie haalt, stop dan en noem het klaar.
Herrenderen is zinvol wanneer één specifieke parameter verkeerd is en je het kunt benoemen. "De vocal is te helder voor de tekst" is een herrenderinstructie. "Er voelt iets niet goed aan" is dat niet — dat is een luisterprobleem, geen generatieprobleem, en meer takes zullen het niet oplossen.
Veelgemaakte fouten
- Prompt te kort. Één zin is geen prompt; het is een genretag met een zinsomhulsel. Drie zinnen is het minimum voor een resultaat met enig karakter.
- Prompt te lang. Acht zinnen gedetailleerde wereldopbouw geven het model te veel beperkingen om gelijktijdig te bevredigen. Het zal ze middelen en niets in het bijzonder produceren.
- Halverwege de iteratie van tool wisselen. Elke generator heeft een ander intern model, en "dezelfde prompt" produceert structureel verschillende resultaten in verschillende tools. Als je halverwege een sessie wisselt, reset je je vergelijkingsbasis en verlies je de iteratiegeschiedenis. Kies één tool per track en blijf daarbij.
- Hergeneren met dezelfde invoer en een ander resultaat verwachten. De variatie in outputs voor identieke prompts is reëel maar begrensd. Als drie opeenvolgende takes allemaal op dezelfde manier fout zijn, is de prompt het probleem, niet het willekeurige zaad.
- Vocaal mismatch negeren. De vocale timbre, het register en de energie die door je tekst worden geïmpliceerd moeten overeenkomen met de stem die het model kiest. Een tekst geschreven voor een raspende bariton die wordt geleverd door een lichte tenor is een castingfout, en geen hoeveelheid herrenderen repareert casting.
Na de eerste track die werkt
Download stems als de tool ze aanbiedt. Zelfs als je niet van plan bent te mixen, betekent het scheiden van de vocal en het instrumentale dat je later opnieuw kunt stemmen, of het instrumentale aan een echte zanger kunt geven zonder vanaf nul te beginnen.
Sla de prompt op precies zoals hij was toen hij werkte. Niet de versie die je doorheen hebt geïtereerd — de definitieve versie. Kopieer hem in een notitiesbestand, een spreadsheet, ergens dat niet binnen de tool zelf is. De meeste tools bewaren prompts niet over sessies in een vorm die je gemakkelijk kunt doorzoeken. De muziekbibliotheek van aisonggen slaat je generatiegeschiedenis automatisch op en de prompts die elke track produceerden, wat vermindert hoeveel je dit zelf moet beheren, maar het is nog steeds de moeite waard om je eigen kopie bij te houden van de prompts die je beste resultaten produceerden.
Log twee dingen voor elke track die werkt: de genre-stemmingtagcombinatie die je gebruikte, en elke houdingszin die generatief aanvoelde. Over tien of vijftien tracks komen patronen naar voren — je zult de tagcombinaties vinden die passen bij jouw creatieve bereik en de formuleringen die betrouwbaar iets produceren wat de moeite waard is. Dat logboek is waardevoller dan welke gids dan ook, inclusief deze.
Als je wilt zien hoe andere mensen de generator gebruiken voordat je je vastlegt op je eigen workflow, toont de recensiepagina hoe echte gebruikers verschillende genres en toepassingen benaderen.
Het doel is niet muziek genereren. Muziek genereren is nu het gemakkelijke deel — iedereen kan op de knop drukken. Het doel is nummers schrijven. Nummers die een perspectief hebben, een specifiek emotioneel centrum, een structuur die zijn einde verdient. AI is de productielaag: het verzorgt het arrangement, de mix, de stem. Je moet het schrijven nog steeds zelf doen. Hoe meer je daarvan meebrengt naar de prompt, hoe minder je het mist in de output.