Sådan laver du AI-musik, der ikke lyder som AI-musik

Det svære ved at lave AI-musik er ikke at trykke på knappen. Det svære er at vide, hvad man skal skrive, inden man trykker på den, læse det man får tilbage med et vist skøn og beslutte, om man skal fortsætte eller stoppe. De fleste, der kalder AI-musik for "generisk", har ikke fejl — de stoppede bare for tidligt i processen, eller de startede uden tilstrækkelig klarhed over, hvad de faktisk forsøgte at lave.

Dette er en gennemgang af den proces, jeg har gennemgået adskillige hundrede gange. Den behandler generering som iteration, ikke som en automat-transaktion. Når det virker, lyder resultatet ikke som om en maskine har skrevet det. Når det fejler, ved du præcis, hvilken beslutning du skal genoverveje.

Beslut dig for, hvilken slags sang du faktisk vil have

Inden du åbner noget som helst værktøj, sæt dig med ét spørgsmål: Hvis oplevelse lever sangen i? Ikke "hvilken genre" og ikke "hvilken stemning" — det kommer senere. Start med perspektiv, derefter sted, og derefter det emotionelle tyngdepunkt.

En simpel ramme for dette:

En [HVEM] der gør [HVAD], det øjeblik lige inden [VENDEPUNKT]. Den underliggende følelse er [FØLELSE], ikke [OVERFLADEFØLELSE]. Hold det [ET TONALT ORD].

Distinktionen mellem overfladefølelse og den underliggende følelse er ikke en skriveøvelse — det er en generatorinstruktion. En sang om "sorg" lyder på én måde; en sang om den specifikke irritation ved at være ude af stand til at græde ved en begravelse lyder som en helt andre plade. Specificiteten rejser ind i genereringen på måder, som genre-tags simpelthen ikke kan.

Mens du stadig tænker på papir, beslut dig for længden. Et to-minutters nummer og et fire-minutters nummer kræver forskellige strukturelle valg, og generatoren vil drive uden et mål. Vælg et, inden du bevæger dig videre.

Trin 1: skriv en prompt, der navngiver en holdning, ikke en tekstur

De fleste første prompts beskriver lyd: "lo-fi beat, varme tangenter, melankolsk." Det beskriver, hvad nummeret skal føles som for en lytter tre skridt fra følelsen. En holdning beskriver, hvad udøveren gør med sin krop og opmærksomhed.

Sammenlign disse to:

Tekstur-prompt: "Langsom R&B, blød falsetto, sen aften, længsel."
Holdnings-prompt: "Nogen der læser gamle beskeder, de lovede sig selv de ville slette. De bliver ved med at læse. Vokalen er stille, som om de ikke vil have nogen til at høre det."

Begge peger mod en lignende følelsesmæssig destination. Holdnings-prompten giver modellen noget at udføre. Tekstur-prompten giver den en sonisk reference og intet andet. Resultaterne er ikke ækvivalente.

Hold holdnings-prompts til tre eller fire sætninger. Loftet er lavere end du tror — efter cirka fem sætninger begynder modellen at gennemsnittes på tværs af instruktionerne i stedet for at bygge videre på dem.

Trin 2: vælg en generator, der lader dig sammenligne resultater

Enkelt-resultat-generatorer gør iteration langsom på en specifik, irriterende måde: du får et resultat, det er næsten rigtigt, du regenererer med en lille justering, og det nye resultat lander i en helt anden retning, fordi der ikke var noget fælles ankerpunkt. Du ender med at jage det oprindelige resultat, der var "næsten det" i seks cyklusser.

At køre parallelle varianter løser dette. aisonggens musikgenerator gengiver fem resultater simultant fra den samme prompt, så du kan sammenligne dem side om side, inden du forpligter dig til en retning. Hvis to af de fem er i det rette territorium, har du allerede sprunget over det meste af genereringssløjfen.

En fair bemærkning: fem resultater koster flere kreditter end ét. Hvis du har et meget stramt kreditbudget, kør to resultater i stedet for fem og behandl det ene som din reference. Pointen er at have mindst én sammenligning, ikke at have fem.

Trin 3: skriv eller samskyv dine tekster først

Generatorens tekstfelt er et lille tekstfelt, og modellen bag det har en stærk forudindstilling mod at beholde det du giver den — det oprindelige linjeantal, det originale rimskema, selv det originale stavelsesmønster. Hvis du skriver tekster i det felt og beslutter dig for at tilføje et bro-vers senere, vil du kæmpe med modellen ved hver regenerering.

Kladde tekster separat, inden du indsætter dem. Lyric Studio giver dig nok plads til faktisk at se, hvad du skriver. Du kan revidere et helt vers, prøve et andet refrænkrog, flytte pre-refrænnet inden det bliver strukturelt — alt sammen inden du giver noget til generatoren.

Tekster-først lader dig også tjekke noget, som generatoren ikke kan: om teksten har en naturlig talerytme, som en sanger faktisk kan lande. Læs dit refræn højt. Hvis du snubler, vil modellen det også.

Hvis du bygger teksten interaktivt sideløbende med musikken — prompt first, raffiner tekster anden — er det arbejdsforløb også gyldigt. Nøglen er, at tekstredigeringen sker et sted med rigtig redigeringsplads, ikke i generatorens tekstfelt.

Trin 4: vælg dine stilkontroller med intention

Genre-tags er frø, ikke kontrakter. "Indie folk" låser ikke resultatet til en specifik produktionsstil — det forprejuderer modellen mod en klynge af lyde forbundet med den etiket, hvilket er et startpunkt, ikke en garanti. Hvis du vil forstå, hvordan modellen faktisk fortolker disse tags inden du forpligter dig, er guiden om genre-tags ti minutters tid værd.

Hvad der faktisk begrænser resultatet mere pålideligt:

Stemning, navngivet præcist. "Bittersød" og "resigneret" lander forskelligt endda inden for den samme genre-tag.
Scene eller omgivelser. "Tom parkeringsplads ved midnat" giver mix-ingeniøren (modellen, her) en visuel reference for rumklang og rum.
Vokal køn og register. De fleste generatorer accepterer eksplicitte instruktioner her, og standarden er ikke altid den rigtige til din tekst.

Indstil BPM, hvis du kender det. Ikke et interval — et tal. "Omkring 90" giver modellen for meget rum. "88 BPM" giver den et ur. Det samme med nummerets længde: skriv målets varighed eksplicit i stedet for at lade det stå som standard.

Trin 5: render, og lyt så på den dårligste højttaler du ejer

AI-genererede numre har en kendt fejltilstand: de lyder bedre i høretelefoner, end de fortjener. Stereobilledet er ofte bredt, det lave register er kontrolleret, og mixet er rent på en måde, der kun afsløres som kunstigt, når du hører det på noget ubarmhjertigt.

Efter den første rendering, skift til din telefonhøjttaler. Eller en indbygget bærbars. Eller, hvis du har adgang til en, en bilstereo med vinduer ned. Disse højttalere kollapser stereobilledet, afslører den lavmidtens mudder og fremhæver hårdheden i det øvre midterområde. Hvis nummeret stadig lyder som et nummer — ikke nødvendigvis godt, men sammenhængende — så har du noget, der er værd at arbejde med.

Hvis det kollapser til mos, er det ikke altid et tegn på at regenerere. Det er et tegn på at kigge på dine stilkontroller. En lavt-tungvægtende genre-tag plus en varm rumindstilling plus et langsomt BPM vil ofte producere et nummer, der ikke rejser. Juster én variabel, ikke alle tre.

Trin 6: omslag, re-render eller stop

At vide, hvornår man skal stoppe, er den færdighed, der adskiller dem, der udgiver, fra dem, der har fire hundrede gemte kladder og intet på en spilleliste.

Tre signaler om, at et resultat er færdigt:

Refrænnet trækker faktisk. Du mærker ankomsten, inden du tænker på den. Hvis du skal argumentere dig frem til, hvorfor refrænnet virker, gør det det ikke.
Vokalen sidder i lommen. Sangeren lyder som om de synger dette nummer, ikke som om de demonstrerer, at de kan ramme disse toner. AI-vokaler overarticulerer ofte konsonanter — et godt resultat gør det ikke.
Der er ingen AI-tegn tilbage, som du bemærker ved tredje lytning. Tromme- mønstre, der er for metronomisk rene. Akkordovergange, der mangler nogen hastighedsvariation. En holdt tone, der aldrig trækker vejret. Det er tegnene. Ét af dem er ofte acceptabelt. Tre er for mange.

Hvis resultatet clearer to af de tre, stop og kald det en kladde. Hvis du clearer alle tre, stop og kald det færdigt.

Re-rendering giver mening, når en specifik parameter er forkert, og du kan navngive den. "Vokalen er for lys til teksten" er en re-render instruction. "Noget føles forkert" er det ikke — det er et lytteproblem, ikke et genereringsproblem, og flere resultater vil ikke løse det.

Almindelige fejl

Prompt for kort. Én sætning er ikke en prompt; det er en genre-tag med en sætningspakke. Tre sætninger er minimum for et resultat med nogen som helst karakter.
Prompt for lang. Otte sætninger med detaljeret verdensopbygning giver modellen for mange begrænsninger at opfylde simultant. Den vil gennemsnitsberegne dem og producere intet specifikt.
Skift af værktøjer midt i iteration. Hvert generator har en forskellig intern model, og "den samme prompt" producerer strukturelt forskellige resultater på tværs af værktøjer. Hvis du skifter midt i en session, nulstiller du din sammenligningsbaseline og mister iterationshistorikken. Vælg ét værktøj per nummer og bliv der.
Regenerering med de samme inputs og forventning om et andet resultat. Variationen i output for identiske prompts er reel men begrænset. Hvis tre på hinanden følgende resultater alle er forkerte på samme måde, er prompten problemet, ikke det tilfældige frø.
Ignorering af vokal-uoverensstemmelse. Vokalklangen, registret og energien impliceret af din tekst skal stemme overens med den stemme, modellen vælger. En tekst skrevet til en hæs baryton leveret af en lys tenor er en castingfejl, og ingen mængde re-rendering retter casting.

Efter det første nummer, der virker

Download stems, hvis værktøjet tilbyder dem. Selv hvis du ikke planlægger at mixe, betyder det at have vokalen og instrumentet adskilt, at du kan omstemmegive det senere, eller give instrumentaldelen til en rigtig sanger uden at starte fra nul.

Gem prompten præcis som den var, da den virkede. Ikke den version du itererede igennem — den endelige version. Kopier den til en notesfil, et regneark, et sted der ikke er inde i selve værktøjet. De fleste værktøjer bevarer ikke prompts på tværs af sessioner i en form, du nemt kan søge i. aisonggens musikbibliotek gemmer automatisk din genereringshistorik og de prompts, der producerede hvert nummer, hvilket reducerer, hvor meget du selv skal styre dette, men det er stadig værd at beholde din egen kopi af de prompts, der producerede dine bedste resultater.

Log to ting for hvert nummer, der virker: den genre-stemningskombination du brugte, og enhver holdningssætning, der føltes generativ. Over ti eller femten numre opstår mønstre — du vil finde tag-kombinationerne, der passer til dit kreative rækkevidde, og formuleringerne, der pålideligt producerer noget, der er værd at beholde. Den log er mere værdifuld end enhver guide, inklusive denne.

Hvis du vil se, hvordan andre bruger generatoren, inden du forpligter dig til dit eget arbejdsforløb, viser anmeldelsessiden hvordan rigtige brugere nærmer sig forskellige genrer og anvendelsestilfælde.

Målet er ikke at generere musik. At generere musik er den nemme del nu — alle kan trykke på knappen. Målet er at skrive sange. Sange der har et perspektiv, et specifikt følelsesmæssigt centrum, en struktur der fortjener sin afslutning. AI er produktionslaget: det håndterer arrangementet, mixet, stemmen. Du skal stadig lave skrivningen. Jo mere af det du bringer til prompten, desto mindre af det hører du mangle i resultatet.

Sådan laver du AI-musik, der ikke lyder som AI-musik

Beslut dig for, hvilken slags sang du faktisk vil have

Trin 1: skriv en prompt, der navngiver en holdning, ikke en tekstur

Trin 2: vælg en generator, der lader dig sammenligne resultater

Trin 3: skriv eller samskyv dine tekster først

Trin 4: vælg dine stilkontroller med intention

Trin 5: render, og lyt så på den dårligste højttaler du ejer

Trin 6: omslag, re-render eller stop

Almindelige fejl

Efter det første nummer, der virker

Læs videre

Sådan laver du AI-covers, der ikke bare lyder som en remix

Sådan bruger du tekst-til-tale, så det holder op med at lyde som en robot, der læser lektier op

Sangskriver-prompts, der faktisk flytter et nummer

Dit næste nummer er én gratis prompt væk