Slik lager du AI-cover-sanger som ikke bare høres ut som en remix

Et cover som fungerer er en distinkt kunstnerisk tolkning av noen andres sang — annen vinkel, annen emosjonell vektlegging, kanskje en helt annen sjanger. Når det lander, hører du beina i originalen og noe nytt på samme tid. Et cover som ikke fungerer er bare den samme sangen med en mudrere miks og en stemme som høres litt underlig ut. Forskjellen mellom de to er nesten aldri verktøyet du brukte. Det er valgene du gjorde før du trykket render.

AI-cover-generatorer har gjort det genuint enkelt å ta et stykke musikk og rekonstruere det i en annen stemme, stil eller arrangement. Men lettere tilgang til prosessen forbedrer ikke automatisk outputen. Du trenger fortsatt å vite hvilke sanger som er verdt å covere, hvordan du skriver en stilbeskrivelse som gir modellen noe reelt å jobbe med, og når du skal slutte å pirke og kalle det ferdig. Denne guiden går gjennom alt dette, steg for steg.

Før du starter: lisensieringsspørsmålet

Dette er den delen de fleste veiledninger hopper over, så la oss rydde det av veien først. Hvis du cover en sang du ikke eier, er sangen nesten helt sikkert opphavsrettsbeskyttet. Å legge ut et AI-generert cover av et opphavsrettsbeskyttet spor på en strømmeplattform eller tjene penger på det på YouTube er et avledet verk, og å gjøre det uten lisens eller mekaniske rettighetsklarering plasserer deg i en grå sone som kan bli en rettighetsklage eller nedtaking. Reglene varierer etter land, men «Jeg samplet ikke den originale lyden» gjør deg ikke automatisk trygg — en gjenkjennelig melodi eller sangtekst er fortsatt beskyttet.

Det sikreste grunnlaget: cover ditt eget materiale, cover sanger med en Creative Commons-lisens som tillater derivater, eller cover komposisjoner som er gått inn i det offentlige domenet (i USA betyr dette generelt verk hvis opphavsrett er utløpt — sjekk det for det spesifikke stykket). Vil du covere noe samtidsbasert og gi det ut kommersielt, se etter tjenester som håndterer mekanisk lisensiering. For personlig, ikke-monetarisert bruk er risikoen lavere, men det er fortsatt verdt å vite hvor du står før du investerer timer i et prosjekt.

Steg 1: velg en referanse som har rom til å puste

Ikke alle sanger fungerer som et cover. De som tenderer til å overleve prosessen er strukturelt enkle: en klar melodisk linje, et håndterbart antall akkordendringer, minimal avhengighet av produksjonstekstur for den emosjonelle virkningen. Akustiske ballader, treakkordsfolksanger og stripped-back soft pop er naturlige kandidater. En god melodi kan bære seg selv på tvers av svært ulike instrumenteringer. En god sang bygget rundt enkelhet vil vanligvis høres interessant ut i nesten hvilken som helst stil.

Sangene som motstår cover-behandling er de der originalproduksjonen ER sangen. Bohemian Rhapsody er egentlig ikke en melodi — det er en vegg av samspillende arrangementer, vokallag og dynamiske skift som er uatskillelige fra opplevelsen. Stadionmix-rock fra 2010-tallet (tett reverb, lagdelte gitarer, komprimert alt) er det samme problemet. Du kan strippe disse sangene ned til beina, men det du får høres ofte så annerledes ut fra originalen at forbindelsen er tapt. Det er ikke alltid dårlig — noen ganger er en radikal dekonstruksjon interessant — men det er et mye vanskeligere kreativt problem enn de fleste forventer.

Spør deg selv: hvis noen fremførte denne sangen akustisk på et gatehjørne, ville den fortsatt vært gjenkjennelig? Ville den fortsatt bevege deg? Hvis ja, er det sannsynligvis en god kandidat. Hvis svaret er «bare hvis de perfekt imiterte studioversjonen», er den sangen kanskje ikke klar for et cover.

Steg 2: skriv en stilbeskrivelse, ikke bare en sjanger

«Gjør det til jazz» sier modellen nesten ingenting nyttig. Jazz er Coltrane og det er også pianisten på hotellbaren og det er også bossa nova og det er også bebop. En énords sjangerbeskrivelse produserer nesten alltid en generisk output, fordi modellen må gjette på alt: tempo, instrumenteringsvekt, vokal tilnærming, produksjonstetthet. Gjetningen er vanligvis riktig på en teknisk korrekt og estetisk glembar måte.

En god stilbeskrivelse innsnevrer den emosjonelle og soniske verden til noe spesifikt. I stedet for sjangeren, beskriv rommet, tidspunktet, følelsen. Jo mer spesifikk og visuell beskrivelsen er, jo mer sannsynlig er modellen til å gjøre valg som henger sammen til en faktisk tolkning fremfor et blandet gjennomsnitt av alt i den sjangeren.

Senkjøringspianobardekke, 04.00, siste-runde-energi. Vokalen bør føles nesten talt — lav, uhurret, som om sangeren bare tenker høyt. Børstesnare svært langt bak i miksen, knapt hørbar. Ingen strykere. Pianoet bør høres litt ute av stemme, den typen du finner på et gammelt hotellslotunge. Hold det under 3 minutter.

Den beskrivelsen forteller modellen hva den skal vektlegge og hva den skal utelate. Den gir den et synspunkt. Beskrivelsen din trenger ikke å være så lang, men den trenger å ha et synspunkt.

Steg 3: last opp referansen og sett de riktige kontrollene

Når du har referanselyden og stilbeskrivelsen, er den faktiske renderprosessen ganske grei — men noen innstillinger betyr mer enn andre. Aisonggens cover-generator tar en referanselyd-fil og en stilbeskrivelse og lar deg justere vokalkarakter, sjangervekting og arrangementstetthet før rendering. Den samme generelle arbeidsflyten gjelder for de fleste aktuelle verktøy.

En ting å sjekke før du rendrer: om verktøyet separerer referanse-VOKAL fra referanse-SANG. Noen generatorer lar deg laste opp hele sangen som en strukturell referanse mens du laster opp en separat isolert vokal (eller velger en stemmekarakter) for output-stemmen. Dette er en betydelig evnesforskjell mellom verktøy — hvis du kan spesifisere stemmen separat, kan du endre hvem som synger mens du beholder den melodiske og harmoniske skjelettet til originalen intakt. Den kombinasjonen produserer vanligvis de mest overbevisende coversene.

Er du ny i dette, start med cover-generatoren og skriv stilbeskrivelsen din før du rører noen andre innstillinger. Beskrivelsen gjør mer arbeid enn noen glider.

Steg 4: render parallelle takes og lytt på ulike høyttalere

Ikke render én gang og forplikter deg. Render tre eller fire takes med små variasjoner i beskrivelsen eller stemmekarakteren, og lytt til alle før du bestemmer deg. AI-cover-generering har nok tilfeldighet i outputen til at to renders med identiske innstillinger kan gi merkbart ulike resultater. Dra nytte av det.

Testen som betyr mest: hvordan høres det ut på telefonen, gjennom ørestykket, i et bråkete rom? AI-covers høres ofte polerte ut på studioskjermer eller gode hodetelefoner og faller så fullstendig fra hverandre på telefon-høyttalere. Dette er fordi det meste AI-generert lyd er mikset for klarhet på full båndbredde — bassen bærer mye av rikdommen, og når du mister bassen på en liten høyttaler, blir en hul eller unaturlig kvalitet i stemmen eller instrumentene åpenbar. Taket som overlever telefontesten er nesten alltid det riktige taket, selv om det hørtes litt mindre imponerende ut på skjermene.

Prøv det også på laptophoyttalere uten å se på skjermen. Øynene dine vil skyve deg mot taket som ser ut som om det bør høres bedre ut. Ørene dine på et degradert avspillingssystem vil fortelle deg sannheten.

Steg 5: oppdage AI-tegn og fikse dem med en re-render eller manuell redigering

Nåværende AI-covers har konsistente feilmønster. Når du vet hva du skal lytte etter, kan du fange dem før du publiserer og bestemme om du skal re-rende eller manuelt fikse dem i en DAW.

Over-artikulerte konsonanter. Stemmen treffer hver T, D og P hardere enn en menneskelig sanger ville. Ekte vokalister utvasker konsonanter ved setningsendene; AI-modeller skjerper dem ofte.
Vibrato som ikke avtar. Menneskelig vibrato øker og avtar naturlig avhengig av pust og fraseringsposisjon. AI-generert vibrato låser seg ofte inn i en jevn hastighet og holder seg der, noe som høres mekanisk ut på vedvarende noter.
Trommeslagene er for rene. Live trommespill har bittesmå timinginkonsekvenser og ghost hits. Hvis trommene i coveret ditt høres ut som de ble programmert på et rutenett, var de det sannsynligvis, og det viser seg.
Fraseslutt som kutter av fremfor å slippe. Sangere avtar naturlig. AI-vokal stopper noen ganger bare, eller falmer på en måte som ikke samsvarer med hvordan pust faktisk fungerer.
Tonehøydekorreksjon som er for tett. Hvis hver note lander nøyaktig på tonehøyde, ingen glidning, ingen mikroinfleksjon, ingen blue note noe sted, høres stemmen korrigert fremfor sunget ut.

De fleste av disse er fikserbare med en re-render ved hjelp av en revidert beskrivelse (f.eks. «mer avslappede konsonanter, la fraser puste på slutten») eller med lett manuell bearbeiding etterpå.

En merknad om vokal: det uhyggelige dalen er høyere enn miksen

Grunnen til at de fleste AI-covers kommer til kort er ikke instrumenteringen — det er stemmen. Instrumenter kan være ufullkomne og fortsatt føles riktige. Et litt skjevt pianovoicing leses som karakter. Men en stemme som er litt feil leses som urovekkende. Det menneskelige auditive systemet er ekstremt følsomt for vokal autentisitet; vi har et helt utviklet sett med mønstergjenkjenningsverktøy for å oppdage ekte versus simulert menneskelig tale og sang. Hvis stemmen i coveret ditt ikke lander, vil ingen mengde produksjonspolering redde det. Ikke bruk tre iterasjoner på å justere reverb og EQ på en vokal som ikke fungerer. Prøv en annen stemmekarakter først, re-render og se om problemet forsvinner. Stemmen er beslutningen.

Når du skal stoppe

Dette er den vanskeligste delen av enhver iterativ kreativ prosess, og AI-verktøy gjør det verre ved å la neste render alltid føles som om den kan være den som fikser ting. Noen signaler på at du er ferdig:

Du har lyttet til to ulike renders og kan genuint ikke si hvilken som er bedre. Det er en myntkast, ikke en kvalitetsforskjell.
Du justerer innstillinger som hørtes fine ut tre iterasjoner siden og nå føles feil. Det er lyttertretthet, ikke forbedring.
Noen andre lyttet til det og svarte uten forbehold. Hvis det første de sier er «men...» har du mer arbeid å gjøre. Hvis de bare sier «det er bra», er det bra.
Du prøver å få det til å høres ut som originalen. Det er ikke lenger et cover.
Det du er misfornøyd med er noe du ikke kunne fikse selv med en perfekt render — et strukturelt valg i kildematerialet, ikke et utføringsproblem i outputen din.

Stopp der. Eksporter det.

Et cover er et kjærlighetsbrev til en sang, ikke et etterligningsverk. De beste sier noe om hvorfor den sangen betyr noe — hvorfor det er verdt å returnere til, hvorfor det høres annerledes ut gjennom et annet sett med erfaringer eller en annen musikalsk kontekst. Før du rendrer et nytt take, spør om versjonen din har et synspunkt ennå. Hvis den har det, er du sannsynligvis nærmere ferdig enn du tror. Hvis den ikke har det, vil ingen verktøyinnstilling legge det til for deg. Den delen er fortsatt din å bringe. For inspirasjon til hva et ferdig prosjekt kan se ut som, sjekk AI-musikk-biblioteket for å høre hvordan andre har nærmet seg transformasjoner, eller utforsk prissiden for å se hvilken plan som gir deg nok renders til å iterere ordentlig.

Slik lager du AI-cover-sanger som ikke bare høres ut som en remix

Før du starter: lisensieringsspørsmålet

Steg 1: velg en referanse som har rom til å puste

Steg 2: skriv en stilbeskrivelse, ikke bare en sjanger

Steg 3: last opp referansen og sett de riktige kontrollene

Steg 4: render parallelle takes og lytt på ulike høyttalere

Steg 5: oppdage AI-tegn og fikse dem med en re-render eller manuell redigering

En merknad om vokal: det uhyggelige dalen er høyere enn miksen

Når du skal stoppe

Fortsett å lese

Slik lager du AI-musikk som ikke høres ut som AI-musikk

Slik bruker du tekst-til-tale slik at det slutter å høres ut som en robot som leser lekser

AI-cover vs. AI-original — de ærlige avveiningene

Det neste sporet ditt er én gratis prompt unna