Slik lager du AI-musikk som ikke høres ut som AI-musikk

Den vanskelige delen med å lage AI-musikk er ikke å trykke på knappen. Den vanskelige delen er å vite hva du skal sette inn før du trykker, lese det som kommer tilbake med noen kompetanse, og bestemme om du skal fortsette eller stoppe. De fleste som kaller AI-musikk «generisk» tar ikke feil — de stoppet bare for tidlig i prosessen, eller de startet uten nok klarhet om hva de faktisk prøvde å lage.

Dette er en gjennomgang av prosessen jeg har kjørt gjennom flere hundre ganger. Den behandler generering som iterasjon, ikke som en transaksjonsautomat. Når det fungerer, høres outputen ikke ut som en maskin som lagde den. Når det feiler, vil du vite nøyaktig hvilken beslutning du bør revidere.

Bestem hva slags sang du faktisk vil ha

Før du åpner noe verktøy, sett med ett spørsmål: hvis oppleves tilhører dette i? Ikke «hvilken sjanger» og ikke «hvilken vibe» — de kommer senere. Start med perspektiv, deretter sted, deretter den emosjonelle tyngdepunktet.

Et enkelt rammeverk for dette:

En [HVEM] som gjør [HVA], øyeblikket rett før [VENDEPUNKT]. Følelsen underteksten er [FØLELSE], ikke [OVERFLATE-FØLELSE]. Hold den [ETT TONALT ORD].

Skillet mellom overflate-følelse og følelsen underneath er ikke en skriveøvelse — det er en generatorinstruksjon. En sang om «sorg» høres ut på én måte; en sang om den spesifikke irritasjonen ved å ikke klare å gråte i et begravelse høres ut som en helt annen plate. Spesifisiteten reiser inn i genereringen på måter som sjangertagger enkelt ikke kan.

Mens du fortsatt tenker på papir, bestem om lengde. Et to-minutters spor og et fire-minutters spor krever ulike strukturvalg, og generatoren vil drive uten et mål. Velg ett før du fortsetter.

Steg 1: skriv en prompt som navngir en holdning, ikke en tekstur

De fleste første prompts beskriver lyd: «lo-fi beat, varme toner, melankolsk.» Det beskriver hva sporet bør føles ut for en lytter tre steg bort fra emosjonen. En holdning beskriver hva utøveren gjør med kropp og oppmerksomhet.

Sammenlign disse to:

Teksturprompt: «Sakte R&B, myk falsett, senkjøring, lengtende.»
Holdningsprompt: «Noen som leser gamle meldinger de lovet seg selv de ville slette. De fortsetter å lese. Vokalen er stille som om de ikke vil at noen skal høre.»

Begge peker på et lignende emosjonelt mål. Holdningsprompen gir modellen noe å fremføre. Teksturprompen gir den en sonisk referanse og ingenting annet. Resultatene er ikke likeverdige.

Hold holdningsprompts til tre eller fire setninger. Taket er lavere enn du tror — etter omtrent fem setninger begynner modellen å middle over instruksjonene fremfor å bygge på dem.

Steg 2: velg en generator som lar deg sammenligne takes

Enkelt-take-generatorer gjør iterasjon sakte på en spesifikk, irriterende måte: du får et resultat, det er nesten riktig, du regenererer med en liten justering, og det nye taket lander i en helt annen retning fordi det var ingen felles anker. Du ender opp med å jage det originale taket som var «nesten det» i seks sykluser.

Å kjøre parallelle varianter løser dette. aisonggens musikk-generator renderer fem takes simultant fra samme prompt, slik at du kan sammenligne dem side om side før du forplikter deg til en retning. Hvis to av de fem er i riktig territorium, har du allerede hoppet over mesteparten av regenerasjonssløyfen.

Et rettferdig notat: fem takes koster mer kreditter enn én. Hvis du har et veldig stramt kredittsbudsjett, kjør to takes i stedet for fem og behandle én som din referanse. Poenget er å ha minst én sammenligning, ikke å ha fem.

Steg 3: skriv eller medskriv tekstene dine først

Generatorens tekstfelt er et lite tekstfelt, og modellen som kjører bak det har en sterk tendens til å beholde det du gir den — det opprinnelige linjeantallet, det opprinnelige rimskjemaet, til og med det opprinnelige stavelsesmønsteret. Hvis du skriver tekster inne i det feltet og bestemmer deg for at du vil legge til en bro, vil du kjempe mot modellen ved hver re-generering.

Utarbeid tekster separat før du limer dem inn. Lyric Studio gir deg nok plass til å faktisk se hva du skriver. Du kan revidere et fullt vers, prøve en annen refrengkrok, flytte pre-refrenget før det blir strukturelt — alt før du gir noe til generatoren.

Tekst-først lar deg også sjekke én ting som generatoren ikke kan: om teksten har en naturlig taleytme som en sanger faktisk kan levere. Les refrenget høyt. Hvis du snubler, vil modellen det også.

Hvis du bygger teksten interaktivt ved siden av musikken — prompt first, finjuster tekster andre — er den arbeidsflyten også gyldig. Nøkkelen er at tekstrediger skjer et sted med virkelig redigeringsplass, ikke i generatorens tekstfelt.

Steg 4: velg stiljusteringene dine med hensikt

Sjangertagger er frø, ikke kontrakter. «Indie folk» låser ikke outputen til noen spesifikk produksjonsstil — det skjevner modellen mot en klynge av lyder assosiert med det etiketten, noe som er et utgangspunkt, ikke en garanti. Hvis du vil forstå hvordan modellen faktisk tolker disse taggene før du forplikter deg, er guiden om sjangertagger verdt ti minutter av din tid.

Det som faktisk begrenser outputen mer pålitelig:

Stemning, navngitt presist. «Bittersøt» og «resignert» lander ulikt even within the same sjangertag.
Scene eller setting. «Tom parkeringsplass ved midnatt» gir miksingeniøren (modellen, her) en visuell referanse for reverb og rom.
Vokalt kjønn og register. De fleste generatorer aksepterer eksplisitte instruksjoner her, og standarden er ikke alltid den riktige for teksten din.

Sett BPM hvis du vet det. Ikke et område — et tall. «Rundt 90» gir modellen for mye rom. «88 BPM» gir den en klokke. Det samme med sporlengde: skriv målvarighet eksplisitt fremfor å overlate det til standarden.

Steg 5: render, lytt deretter på den dårligste høyttaleren du eier

AI-genererte spor har en kjent feilmodus: de høres bedre ut på hodetelefoner enn de fortjener. Stereofeltet er ofte bredt, bassen er kontrollert, miksen er ren på en måte som bare avslører seg som kunstig når du hører den på noe ubarmhjertig.

Etter den første rendret, gå til telefon-høyttaleren din. Eller en innebygget laptop. Eller, hvis du har tilgang til en, en bilstereo med vinduene nede. Disse høyttalerne kollapser stereofeltet, eksponerer lav-mid mudderet og bringer frem harsheten i det øvre midregisteret. Hvis sporet fortsatt høres ut som et spor — ikke nødvendigvis bra, men sammenhengende — da har du noe verdt å jobbe med.

Hvis det kollapser til grøt, er det ikke alltid et tegn på å re-generere. Det er et tegn til å se på stiljusteringene dine. En lavfrekvent-tung sjangertag pluss en varm rominsstilling pluss en sakte BPM vil ofte gi et spor som ikke reiser. Juster én variabel, ikke alle tre.

Steg 6: cover, re-render, eller stopp

Å vite når man skal stoppe er ferdigheten som skiller menneskene som shipper fra menneskene som har fire hundre lagrede utkast og ingenting på en spilleliste.

Tre signaler på at et take er ferdig:

Refrenget drar faktisk. Du kjenner ankomsten før du tenker på den. Hvis du må resonnere deg til hvorfor refrenget fungerer, gjør det det ikke.
Vokalen sitter i lommen. Sangeren høres ut som om de synger denne sangen, ikke demonstrerer at de kan treffe disse notene. AI-vokal over-artikulerer ofte konsonanter — et godt take gjør det ikke.
Det er ingen AI-tegn igjen som du merker på tredje lytting. Tromme- mønstre som er for metronomisk rene. Akkordoverganger som mangler velocity-variasjon. En holdt note som aldri puster. Dette er tegnene. Én av dem er ofte akseptabel. Tre er for mange.

Hvis taket klarer to av tre, stopp og kall det et utkast. Hvis du klarer alle tre, stopp og kall det ferdig.

Re-rendering gir mening når én spesifikk parameter er feil og du kan navngi den. «Vokalen er for lys for teksten» er en re-render- instruksjon. «Noe føles galt» er ikke det — det er et lytteproblem, ikke et genereringsproblem, og flere takes vil ikke fikse det.

Vanlige feil

Prompt for kort. Én setning er ikke en prompt; det er en sjangertag med en setningsinnpakning. Tre setninger er minimum for et resultat med noen karakter.
Prompt for lang. Åtte setninger med detaljert verdensbygging gir modellen for mange begrensninger å tilfredsstille simultant. Den vil middle dem og produsere ingenting spesielt.
Bytte verktøy midt i iterasjon. Hver generator har en annen intern modell, og «samme prompt» produserer strukturelt ulike resultater på tvers av verktøy. Hvis du bytter midt i sesjonen, tilbakestiller du sammenlignings- grunnlinjen og mister iterasjonshistorikken. Velg ett verktøy per spor og bli der.
Re-generere med samme input og forvente et annet resultat. Variasjonen i output for identiske prompts er reell men avgrenset. Hvis tre på rad er alle feil på samme måte, er prompten problemet, ikke det tilfeldige frøet.
Ignorere vokal feilkasting. Vokaltembret, registeret og energien som er underforstått av teksten din, må samsvare med stemmen modellen velger. En tekst skrevet for en hes baryton levert av en lett tenor er en castingfeil, og ingen mengde re-rendering fikser casting.

Etter det første sporet som fungerer

Last ned stems hvis verktøyet tilbyr dem. Selv om du ikke planlegger å mikse, betyr å ha vokalen og instrumentalet separert at du kan re-stemme senere, eller gi instrumentalet til en ekte sanger uten å starte fra null.

Lagre prompten nøyaktig slik den var da den fungerte. Ikke versjonen du itererte gjennom — den endelige versjonen. Kopier den til en notisfil, et regneark, hvor som helst som ikke er inne i selve verktøyet. De fleste verktøy bevarer ikke prompts på tvers av sesjoner i en form du enkelt kan søke. aisonggens musikk-bibliotek auto-lagrer generasjons- historikken din og promptene som ga hvert spor, noe som reduserer hvor mye du trenger å administrere dette selv, men det er fortsatt verdt å beholde din egen kopi av promptene som ga dine beste resultater.

Logg to ting for hvert spor som fungerer: sjanger-stemning-taggkombinasjonen du brukte, og eventuelle holdningsfraser som føltes generative. Over ti eller femten spor dukker mønstre opp — du vil finne taggkombinasjonene som passer det kreative registeret ditt og formuleringene som pålitelig gir noe verdt å beholde. Den loggen er mer verdifull enn noen guide, inkludert denne.

Hvis du vil se hvordan andre mennesker bruker generatoren før du forplikter deg til din egen arbeidsflyt, viser anmeldelsessiden hvordan ekte brukere nærmer seg ulike sjangre og brukstilfeller.

Målet er ikke å generere musikk. Å generere musikk er den enkle delen nå — hvem som helst kan trykke på knappen. Målet er å skrive sanger. Sanger som har et perspektiv, et spesifikt emosjonelt senter, en struktur som fortjener avslutningen. AI er produksjonslaget: det håndterer arrangementet, miksen, stemmen. Du må fortsatt gjøre skrivingen. Jo mer av det du bringer til prompten, jo mindre av det hører du mangle i outputen.

Slik lager du AI-musikk som ikke høres ut som AI-musikk

Bestem hva slags sang du faktisk vil ha

Steg 1: skriv en prompt som navngir en holdning, ikke en tekstur

Steg 2: velg en generator som lar deg sammenligne takes

Steg 3: skriv eller medskriv tekstene dine først

Steg 4: velg stiljusteringene dine med hensikt

Steg 5: render, lytt deretter på den dårligste høyttaleren du eier

Steg 6: cover, re-render, eller stopp

Vanlige feil

Etter det første sporet som fungerer

Fortsett å lese

Slik lager du AI-cover-sanger som ikke bare høres ut som en remix

Slik bruker du tekst-til-tale slik at det slutter å høres ut som en robot som leser lekser

Låtskriverprompts som faktisk flytter et spor

Det neste sporet ditt er én gratis prompt unna