AISongGen logoAISongGen

Com fer versions IA que no somin simplement com un remix

Tria la referència adequada, el brief d'estil adequat i el moment adequat per parar. Una guia pràctica per fer una versió que aguanti.

8 min de lectura

Una versió que funciona és una interpretació artística diferenciada de la cançó d'algú altre: angle diferent, èmfasi emocional diferent, potser un gènere completament diferent. Quan funciona, sents l'esquelet de l'original i alguna cosa nova al mateix temps. Una versió que no funciona és simplement la mateixa cançó amb una mezcla més borrosa i una veu que sona vagament errònia. La diferència entre les dues rarament és l'eina que has fet servir. Són les decisions que has pres abans de prémer renderitzar.

Els generadors de versions IA han fet genuïnament fàcil agafar una peça musical i reconstruir-la en una veu, estil o arranjament diferent. Però un accés més fàcil al procés no millora automàticament la sortida. Encara necessites saber quines cançons val la pena versionar, com escriure un brief d'estil que doni a l'model alguna cosa real amb què treballar, i quan deixar d'ajustar i declarar-la acabada. Aquesta guia repassa tot això, pas a pas.

Abans de començar: la qüestió de les llicències

Aquesta és la part que la majoria dels tutorials s'escapen, de manera que la hem de tractar primer. Si estàs fent una versió d'una cançó que no posseeixes, aquesta cançó quasi amb tota certesa té drets d'autor. Publicar una versió generada per IA d'una pista protegida per drets d'autor en una plataforma de streaming o monetitzar-la a YouTube és una obra derivada, i fer-ho sense una llicència o l'autorització de drets mecànics et situa en una zona grisa que pot convertir-se en una reclamació de drets o una retirada. Les normes varien per país, però «jo no vaig mostrejar l'àudio original» no et fa automàticament segur: una melodia o una lletra recognoscible continua estant protegida.

El terreny més segur: versiona el teu propi material, versiona cançons amb una llicència Creative Commons que permeti els derivats, o versiona composicions que hagin passat al domini públic (als EUA, això generalment significa obres els drets d'autor de les quals han caducat; consulta-ho per a la peça específica). Si vols versionar alguna cosa contemporània i publicar-la comercialment, investiga els serveis que gestionen les llicències mecàniques. Per a l'ús personal i no monetitzat, el risc és menor, però val la pena saber on et trobes abans d'invertir hores en un projecte.

Pas 1: tria una referència que tingui espai per respirar

No totes les cançons funcionen com a versió. Les que tendeixen a sobreviure al procés són estructuralment simples: una línia melòdica clara, un nombre manejable de canvis d'acord, poca dependència de la textura de producció per al seu impacte emocional. Les balades acústiques, les cançons folk de tres acords i el soft pop despullat són candidats naturals. Una bona melodia pot sostenir-se a través d'instrumentacions molt diferents. Una gran cançó construïda sobre la simplicitat generalment sonarà interessant en quasi qualsevol estil.

Les cançons que resisteixen la versió són les que la producció original ÉS la cançó. Bohemian Rhapsody no és realment una melodia: és un mur d'arranjaments interactius, capes vocals i canvis dinàmics inseparables de l'experiència. El rock de mescla d'estadi de la dècada del 2010 (reverberació densa, guitarres en capes, tot comprimit) té el mateix problema. Pots despojar aquelles cançons fins als seus ossos, però el que obtens sovint sona tan diferent de l'original que es perd la connexió. Això no sempre és dolent: de vegades una deconstrucció radical és interessant, però és un problema creatiu molt més difícil del que la majoria de la gent espera quan comença.

Pregunta't: si algú interpretés aquesta cançó acústicament en un cantó de carrer, continuaria sent recognoscible? Et seguiria emocionant? Si la resposta és sí, probablement és un bon candidat. Si la resposta és «només si imiten perfectament la versió d'estudi», potser aquella cançó no està llesta per a una versió.

Pas 2: escriu un brief d'estil, no només un gènere

«Fes-la jazz» no li diu res útil al model. El jazz és Coltrane i també és el piano a la barra de l'hotel i també és bossa nova i també és bebop. Un brief d'un sol mot de gènere quasi sempre produeix una sortida genèrica, perquè el model ha d'endevinar-ho tot: tempo, pes de la instrumentació, aproximació vocal, densitat de producció. L'endevinació sol ser correcta d'una manera tècnicament correcta i estèticament oblidable.

Un bon brief d'estil estreny el món emocional i sònic fins a alguna cosa específica. En lloc del gènere, descriu la sala, l'hora de la nit, el sentiment. Com més específic i visual sigui el brief, més probable és que el model prengui decisions que s'ajuntin en una interpretació real en lloc d'una mitjana barrejada de tot el gènere.

Versió de bar de piano a la matinada, a les 4 de la matinada, energia d'últim torn. La veu hauria de sentir-se quasi parlada: baixa, sense pressa, com si el cantant simplement estigués pensant en veu alta. Bateria amb escombres molt al fons de la mezcla, quasi inaudible. Sense cordes. El piano hauria de sonar lleugerament desafinat, del tipus que trobaríes en un vell saló d'hotel. Mantingues-la per sota dels 3 minuts.

Aquest brief li diu al model en què emfatitzar i en què no. Li dóna un punt de vista. El teu brief no ha de ser tan llarg, però ha de tenir un punt de vista.

Pas 3: puja la referència i estableix els controls adequats

Un cop tens el teu àudio de referència i el teu brief d'estil, el procés de renderització real és bastant senzill, però algunes configuracions importen més que d'altres. El generador de versions d'aisonggen pren un fitxer d'àudio de referència i un brief d'estil i et permet ajustar el caràcter de la veu, la ponderació del gènere i la densitat del arranjament abans de renderitzar. El mateix flux de treball general s'aplica a la majoria d'eines actuals.

Una cosa que cal comprovar abans de renderitzar: si l'eina separa la VOCAL de referència de la CANÇÓ de referència. Alguns generadors et permeten pujar la cançó completa com a referència estructural mentre puges una vocal aïllada separada (o selecciones un caràcter de veu) per a la veu de sortida. Aquesta és una diferència de capacitat significativa entre eines: si pots especificar la veu per separat, pots canviar qui canta mentre mantens l'esquelet melòdic i harmònic de l'original intacte. Aquesta combinació normalment produeix les versions més convincents.

Si ets nou en això, comença amb el generador de versions i escriu el teu brief d'estil abans de tocar cap altra configuració. El brief fa més feina que qualsevol lliscador.

Pas 4: renderitza preses en paral·lel i escolta en altaveus diferents

No renderitzis una vegada i et comprometes. Renderitza tres o quatre preses amb petites variacions en el brief o el caràcter de la veu, després escolta-les totes abans de decidir. La generació de versions IA té prou aleatorietat en la sortida com perquè dues renderitzacions amb configuracions idèntiques puguin produir resultats notablement diferents. Aprofita-ho.

La prova que importa més: com sona al teu telèfon, a través del auricular, en una sala sorollosa? Les versions IA solen sonar polides amb monitors d'estudi o bons auriculars i després s'esfondren completament amb altaveus de telèfon. Això es deu al fet que la majoria de l'àudio generat per IA es mescla per a la claredat a ample de banda complet: els greus porten una gran part de la riquesa, i quan perds els greus en un altaveu petit, una qualitat buida o antinatural en la veu o els instruments es fa evident. La presa que supera la prova del telèfon és quasi sempre la presa correcta, fins i tot si sonava lleugerament menys impressionant en els monitors.

Prova-la també en altaveus de portàtil sense mirar la pantalla. Els teus ulls t'empenyeran cap a la presa que sembla que hauria de sonar millor. Les teves oïdes en un sistema de reproducció degradat et diran la veritat.

Pas 5: detecta les marques de la IA i corregeix-les amb una nova renderització o una edició manual

Les versions IA actuals tenen patrons de fallada consistents. Un cop saps en què fixar-te, pots detectar-los abans de publicar i decidir si tornar a renderitzar o corregir-los manualment en un DAW.

  • Consonants hiperarticulardes. La veu cop cada T, D i P amb més força del que ho faria un cantant humà. Els cantants reals difuminen les consonants al final de les frases; els models IA sovint les aguditzen.
  • Vibrat que no s'esmorteeix. El vibrat humà s'accelera i s'alenteix naturalment depenent de la respiració i la posició de la frase. El vibrat generat per IA sovint es bloca en una taxa constant i s'hi queda, la qual cosa sona mecànica en les notes sostingudes.
  • Cops de bateria massa nets. La bateria en directe té petites inconsistències de temps i cops fantasma. Si la bateria de la teva versió sona com si estigués programada en una graella, probablement ho estava, i es nota.
  • Finals de frase que es tallen en lloc d'alliberar-se. Els cantants s'apaguen de manera natural. Les vocals IA de vegades simplement s'aturen, o s'apaguen d'una manera que no coincideix amb com funciona realment la respiració.
  • Correcció de to massa ajustada. Si cada nota aterra exactament en el to, sense lliscament, sense micro-inflexió, sense blue note en cap lloc, la veu sona corregida en lloc de cantada.

La majoria d'aquests problemes es poden solucionar amb una nova renderització usant un brief revisat (p. ex., «consonants més relaxades, deixa que les frases respirin al final») o amb un processament manual lleuger posteriorment.

Una nota sobre les vocals: la vall inquietant és més sorollosa que la mezcla

El motiu pel qual la majoria de versions IA no acaben d'arribar no és la instrumentació: és la veu. Els instruments poden ser imperfectes i continuar sentint-se bé. Un voicing de piano lleugerament desafinat es llegeix com a caràcter. Però una veu lleugerament errònia es llegeix com a pertorbadora. El sistema auditiu humà és extremadament sensible a l'autenticitat vocal; tenim un conjunt evolucionat complet d'eines de reconeixement de patrons per detectar la parla i el cant humà real davant el simulat. Si la veu de la teva versió no funciona, cap quantitat de poliment de producció la rescatarà. No passis tres iteracions ajustant la reverberació i l'EQ d'una vocal que no funciona. Prova primer un caràcter de veu diferent, torna a renderitzar i mira si el problema desapareix. La veu és la decisió.

Quan parar

Aquesta és la part més difícil de qualsevol procés creatiu iteratiu, i les eines IA ho empitjoren perquè la propera renderització sempre sembla que podria ser la que ho arregla. Alguns senyals que has acabat:

  • Has escoltat dues renderitzacions diferents i genuïnament no pots dir quina és millor. Això és una moneda a l'aire, no una diferència de qualitat.
  • Estàs ajustant configuracions que sonaven bé tres iteracions enrere i ara semblen malament. Això és fatiga de l'escoltant, no millora.
  • Algú altre ho ha escoltat i ha respost sense qualificadors. Si el primer que diuen és «però...», tens més feina a fer. Si simplement diuen «és bo», és bo.
  • Estàs intentant que soni com l'original. Això ja no és una versió.
  • El que et té insatisfet és alguna cosa que no podries arreglar ni amb una renderització perfecta: una elecció estructural en el material font, no un problema d'execució en la teva sortida.

Para aquí. Exporta-la.

Una versió és una carta d'amor a una cançó, no una còpia. Les millors diuen alguna cosa sobre per què importa aquella cançó: per què val la pena tornar-hi, per què sona diferent a través d'un conjunt d'experiències diferent o un context musical diferent. Abans de renderitzar una altra presa, pregunta't si la teva versió ja té un punt de vista. Si el té, probablement estàs més a prop d'acabar del que creus. Si no el té, cap configuració d'eina n'afegirà un per tu. Aquesta part encara és la teva aportació. Per inspirar-te sobre com pot ser un projecte acabat, consulta la biblioteca de música IA per sentir com han abordat les transformacions altres usuaris, o explora la pàgina de preus per veure quin pla et dona prou renderitzacions per iterar adequadament.

La teva pròxima cançó és a un prompt gratuït

Obre l'estudi, escriu l'ambient i sent una cançó acabada en 30 segons. Comença gratis, publica lliure de royalties i sense targeta de crèdit.