Så skapar du AI-coversånger som inte bara låter som en remix

En cover som fungerar är en tydlig konstnärlig tolkning av någon annans låt — en annan vinkel, ett annat känslomässigt fokus, kanske ett helt annat genre. När den landar hör du benstrukturen i originalet och något nytt på samma gång. En cover som inte fungerar är bara samma låt med en grumligare mix och en röst som låter vagt fel. Skillnaden mellan de två beror nästan aldrig på vilket verktyg du använde. Det handlar om de val du gjorde innan du tryckte på rendera.

AI-covergeneratorer har gjort det genuint enkelt att ta ett musikstycke och rekonstruera det i en annan röst, stil eller arrangemang. Men enklare tillgång till processen förbättrar inte automatiskt resultatet. Du behöver fortfarande veta vilka låtar som är värda att covra, hur man skriver en stilbeskrivning som ger modellen något verkligt att arbeta med, och när man ska sluta fiffla och kalla det klart. Den här guiden går igenom allt detta, steg för steg.

Innan du börjar: licensfrågan

Det här är den del som de flesta handledningar hoppar över, så låt oss ta det ur vägen direkt. Om du gör en cover av en låt du inte äger, är den låten nästan säkert upphovsrättsskyddad. Att publicera en AI-genererad cover av ett upphovsrättsskyddat spår på en streamingtjänst eller tjäna pengar på det via YouTube är ett derivatverk, och att göra det utan licens eller mekanisk rättighetsklarering placerar dig i en gråzon som kan förvandlas till ett rättighetsanspråk eller en nedtagningsbegäran. Reglerna varierar från land till land, men "jag samplade inte det ursprungliga ljudet" gör dig inte automatiskt säker — en igenkännlig melodi eller ett igenkännligt textavsnitt är fortfarande skyddat.

Det säkraste alternativet: covra ditt eget material, covra låtar med en Creative Commons-licens som tillåter derivatverk, eller covra kompositioner som har passerat in i den allmänna domänen (i USA innebär detta i allmänhet verk vars upphovsrätt har löpt ut — slå upp det för det specifika stycket). Om du vill covra något samtida och publicera det kommersiellt, undersök tjänster som hanterar mekanisk licensiering. För personligt, icke-monetiserat bruk är risken lägre, men det är ändå värt att veta var du står innan du investerar timmar i ett projekt.

Steg 1: välj en referens med utrymme att andas

Inte varje låt fungerar som en cover. De som tenderar att överleva processen är strukturellt enkla: en tydlig melodilinje, ett hanterbart antal ackordbyten, minimal beroende av produktionstextur för sin känslomässiga effekt. Akustiska ballader, trekordslåtar och avskalad softpop är naturliga kandidater. En bra melodi kan bära sig själv över mycket olika instrumentering. En fantastisk låt byggd kring enkelhet låter vanligtvis intressant i nästan vilken stil som helst.

Låtarna som motstår att bli covrerade är de där den ursprungliga produktionen ÄR låten. Bohemian Rhapsody är egentligen ingen melodi — det är en vägg av interagerande arrangemang, vokala lager och dynamiska skiften som är oskiljbara från upplevelsen. Stadionrocken från 2010-talet (tät reverb, skiktade gitarrer, komprimerat allting) har samma problem. Du kan plocka ner dessa låtar till skelettet, men det du får låter ofta så annorlunda från originalet att kopplingen går förlorad. Det är inte alltid dåligt — ibland är en radikal dekonstruktion intressant — men det är ett mycket svårare kreativt problem än vad de flesta förväntar sig när de börjar.

Fråga dig själv: om någon framförde den här låten akustiskt på ett gathörn, skulle den fortfarande vara igenkännlig? Skulle den fortfarande röra dig? Om ja, är den förmodligen en bra kandidat. Om svaret är "bara om de perfekt imiterade studioverionen", kanske den låten inte är redo för en cover.

Steg 2: skriv en stilbeskrivning, inte bara ett genre

"Gör det till jazz" berättar nästan ingenting användbart för modellen. Jazz är Coltrane och det är också pianot på hotellbaren och det är också bossanova och det är också bebop. En ett-ords-genrebeskriving ger nästan alltid generisk utdata, eftersom modellen måste gissa allting: tempo, instrumenteringsbalans, vokalt tillvägagångssätt, produktionstäthet. Gissningen är vanligtvis rätt på ett tekniskt korrekt och estetiskt minneslöst sätt.

En bra stilbeskrivning begränsar den känslomässiga och soniska världen till något specifikt. Istället för genren, beskriv rummet, nattens tid, känslan. Ju mer specifik och visuell beskrivningen är, desto mer sannolikt är det att modellen gör val som hänger ihop till en faktisk tolkning snarare än ett blandat genomsnitt av allt i den genren.

Sen-natt pianobar-cover, klockan 4, sista-beställning-energi. Sången ska kännas nästan som talat — låg, lugn, som om sångaren bara tänker högt. Borstad snarentrumma väldigt långt bak i mixen, knappt hörbar. Inga stråkar. Pianot ska låta lite ostämt, den typ du hittar i en gammal hotelllounge. Håll det under 3 minuter.

Den beskrivningen säger vad modellen ska betona och vad som ska utelämnas. Den ger en synvinkel. Din beskrivning behöver inte vara så lång, men den behöver ha en synvinkel.

Steg 3: ladda upp referensen och ställ in rätt inställningar

När du har ditt referensljud och din stilbeskrivning är själva renderingsprocessen ganska enkel — men några inställningar spelar större roll än andra. Aisonggens covergenerator tar en referensljudfil och en stilbeskrivning och låter dig justera röstkaraktär, genreviktning och arrangemangstäthet innan rendering. Samma allmänna arbetsflöde gäller i de flesta nuvarande verktyg.

En sak att kontrollera innan du renderar: om verktyget separerar referens-VOCAL från referens-LÅTEN. Vissa generatorer låter dig ladda upp hela låten som en strukturell referens medan du laddar upp en separat isolerad vocal (eller väljer en röstkaraktär) för utdatarösten. Det här är en betydande kapabilitetsskillnad mellan verktyg — om du kan specificera rösten separat kan du ändra vem som sjunger medan du behåller den melodiska och harmoniska skelettet av originalet intakt. Den kombinationen ger vanligtvis de mest övertygande coverna.

Om du är ny på det här, börja med covergeneratorn och skriv din stilbeskrivning innan du rör några andra inställningar. Beskrivningen gör mer jobb än vilken reglage som helst.

Steg 4: rendera parallella tagningar och lyssna på olika högtalare

Rendera inte bara en gång och bestäm dig. Rendera tre eller fyra tagningar med små variationer i beskrivningen eller röstkaraktären, lyssna sedan på alla innan du bestämmer. AI-covergenerering har tillräckligt med slumpmässighet i utdata för att två renderingar med identiska inställningar kan producera märkbart olika resultat. Dra nytta av det.

Det test som spelar störst roll: hur låter det i din telefon, genom öronsnäckan, i ett bullrigt rum? AI-covers låter ofta polerade på studiohögtalare eller bra hörlurar och faller sedan helt isär på telefonstyrda högtalare. Det beror på att de flesta AI-genererade ljud är mixade för klarhet vid full bandbredd — basen bär mycket av rikedomen, och när du förlorar basen på en liten högtalare blir en ihålig eller onaturlig kvalitet i rösten eller instrumenten uppenbar. Den tagning som klarar telefontestet är nästan alltid rätt tagning, även om den lät något mindre imponerande på studiohögtalarna.

Prova också med bärbar datorhögtalare utan att titta på skärmen. Dina ögon kommer att styra dig mot den tagning som ser ut att borde låta bättre. Dina öron på ett försämrat uppspelningssystem berättar sanningen.

Steg 5: identifiera AI-tecken och åtgärda dem med omrendering eller manuell redigering

Nuvarande AI-covers har konsekventa felmönster. När du vet vad du ska lyssna efter kan du fånga dem innan du publicerar och bestämma om du ska omrendera eller manuellt fixa dem i ett DAW.

Överartikulerade konsonanter. Rösten slår varje T, D och P hårdare än en mänsklig sångare skulle göra. Riktiga vokalister suddar konsonanter vid frasslut; AI-modeller skärper dem ofta.
Vibrato som inte avtar. Mänskligt vibrato snabbar upp och saktar ner naturligt beroende på andning och frasposition. AI-genererat vibrato låser sig ofta i ett jämnt tempo och stannar där, vilket låter mekaniskt på hållna noter.
Trumslagningar som är för rena. Levande trumspel har små timsavvikelser och spökslagningar. Om trummorna i din cover låter som om de programmerades på ett rutnät, var de det troligtvis, och det märks.
Frasslut som skärs av istället för att släppas. Sångare tonar av naturligt. AI-vokaler slutar ibland bara, eller tonar av på ett sätt som inte matchar hur andning faktiskt fungerar.
Tonjustering som är för tajt. Om varje ton landar exakt på pitch, utan glissando, utan mikroinflexion, utan blue note någonstans, låter rösten korrigerad snarare än sjungen.

De flesta av dessa kan åtgärdas med en omrendering med en reviderad beskrivning (t.ex. "mer avslappnade konsonanter, låt fraser andas i slutet") eller med lätt manuell bearbetning efteråt.

En kommentar om vokaler: den kusliga dalen är högre än mixen

Anledningen till att de flesta AI-covers faller kort är inte instrumenteringen — det är rösten. Instrument kan vara ofullkomliga och fortfarande kännas rätt. En något felaktig pianostämning läses som karaktär. Men en röst som är lite fel läses som störande. Det mänskliga hörselsystemet är extremt känsligt för vokal autenticitet; vi har en hel evolutionär uppsättning mönsterigenkänningsverktyg för att upptäcka riktig kontra simulerad mänsklig tal och sång. Om rösten i din cover inte landar, kommer ingen mängd produktionspolering att rädda den. Tillbringa inte tre iterationer med att justera reverb och EQ på en vokal som inte fungerar. Prova en annan röstkaraktär först, omrendera och se om problemet försvinner. Rösten är beslutet.

När du ska sluta

Det här är den svåraste delen av alla iterativa kreativa processer, och AI-verktyg gör det värre genom att göra nästa rendering alltid kännas som att det kanske är den som fixar saker. Några signaler på att du är klar:

Du har lyssnat på två olika renderingar och verkligen inte kan avgöra vilken som är bättre. Det är ett myntsingel, inte en kvalitetsskillnad.
Du justerar inställningar som lät bra tre iterationer sedan och nu känns fel. Det är lyssnaruttröttning, inte förbättring.
Någon annan lyssnade på det och svarade utan förbehåll. Om det första de säger är "men..." har du mer arbete att göra. Om de bara säger "det är bra", är det bra.
Du försöker få det att låta som originalet. Det är inte längre en cover.
Det du är missnöjd med är något du inte kunde fixa ens med en perfekt rendering — ett strukturellt val i källmaterialet, inte ett exekveringsproblem i din utdata.

Sluta där. Exportera det.

En cover är ett kärleksbrev till en låt, inte en förfalskning. De bästa säger något om varför den låten spelar roll — varför det är värt att återvända till, varför den låter annorlunda genom en annan uppsättning erfarenheter eller ett annat musikaliskt sammanhang. Innan du renderar ytterligare en tagning, fråga om din version har en synvinkel ännu. Om den har det, är du förmodligen närmre klar än du tror. Om den inte har det, kan ingen verktyginställning lägga till en åt dig. Den delen är fortfarande din att bidra med. För inspiration om hur ett färdigt projekt kan se ut, kolla AI-musikbiblioteket för att höra hur andra har angripit transformationer, eller utforska prissidan för att se vilket abonnemang som ger dig tillräckligt med renderingar för att iterera ordentligt.

Så skapar du AI-coversånger som inte bara låter som en remix

Innan du börjar: licensfrågan

Steg 1: välj en referens med utrymme att andas

Steg 2: skriv en stilbeskrivning, inte bara ett genre

Steg 3: ladda upp referensen och ställ in rätt inställningar

Steg 4: rendera parallella tagningar och lyssna på olika högtalare

Steg 5: identifiera AI-tecken och åtgärda dem med omrendering eller manuell redigering

En kommentar om vokaler: den kusliga dalen är högre än mixen

När du ska sluta

Fortsätt läsa

Så skapar du AI-musik som inte låter som AI-musik

Så använder du text-till-tal så att det slutar låta som en robot som läser läxor

AI-cover kontra AI-original — de ärliga avvägningarna

Din nästa låt är en gratis prompt bort