La part difícil de fer música IA no és prémer el botó. La part difícil és saber el que has de posar abans de prémer-lo, llegir el que retorna amb certa perspectiva i decidir si continuar o parar. La majoria de la gent que anomena «genèrica» la música IA no s'equivoca: simplement va parar massa aviat en el procés, o va començar sense prou claredat sobre el que intentava fer.
Aquesta és una guia del procés que he executat centenars de vegades. Tracta la generació com a iteració, no com una transacció de màquina expenedora. Quan funciona, la sortida no sembla escrita per una màquina. Quan falla, sabràs exactament quina decisió tornar a visitar.
Decideix quin tipus de cançó vols realment
Abans d'obrir cap eina, queda't amb una pregunta: de quina experiència viu aquesta cançó? No «quin gènere» ni «quina vibració»: això ve després. Comença per la perspectiva, després el lloc, després el centre de gravetat emocional.
Un marc senzill per a això:
Un [QUI] fent [QUÈ], el moment just abans d'un [PUNT D'INFLEXIÓ]. L'emoció de fons és [SENTIMENT], no [SENTIMENT SUPERFICIAL]. Mantingues-la [UNA PARAULA DE TO].
La distinció entre el sentiment superficial i el sentiment de fons no és un exercici d'escriptura: és una instrucció per al generador. Una cançó sobre el «dol» sona d'una manera; una cançó sobre la irritació específica d'ésser incapaç de plorar en un funeral sona com un disc completament diferent. L'especificitat arriba a la generació d'una manera que les etiquetes de gènere simplement no poden.
Mentre encara penses sobre paper, decideix la durada. Una pista de dos minuts i una de quatre minuts requereixen decisions estructurals diferents, i el generador s'esgarrarà sense un objectiu. Tria'n un abans de continuar.
Pas 1: escriu un indicador que nomeni una postura, no una textura
La majoria dels primers indicadors descriuen el so: «beat lo-fi, tecles càlides, melancòlic». Això descriu com hauria de sentir-se la pista per a un oient tres passos allunyat de l'emoció. Una postura descriu el que l'intèrpret fa amb el seu cos i la seva atenció.
Compara'n dues:
- Indicador de textura: «R&B lent, falsetto suau, entrada a la nit, anyorança.»
- Indicador de postura: «Algú llegint missatges antics que es va prometre que esborrarà. Continua llegint. La veu és silenciosa, com si no volgués que ningú ho escoltés.»
Tots dos apunten a un destí emocional similar. L'indicador de postura li dóna a l'model alguna cosa per interpretar. L'indicador de textura li dóna una referència sònica i res més. Els resultats no són equivalents.
Mantingues els indicadors de postura en tres o quatre frases. El sostre és menor del que creus: a partir de cinc frases, el model comença a fer la mitjana de les instruccions en lloc de construir sobre elles.
Pas 2: tria un generador que et permeti comparar preses
Els generadors de presa única fan la iteració lenta d'una manera específica i molesta: obtens un resultat, és quasi correcte, tornes a generar amb un petit retoc, i la nova presa aterra en una direcció completament diferent perquè no hi havia cap àncora compartida. Acaes perseguint la presa original que era «quasi bé» durant sis cicles.
Executar variants en paral·lel resol això. El generador de música d'aisonggen renderitza cinc preses simultàniament des del mateix indicador, de manera que pots comparar-les una al costat de l'altra abans de comprometre't amb una direcció. Si dues de les cinc estan en el territori correcte, ja t'has saltat la major part del bucle de regeneració.
Una nota justa: cinc preses costen més crèdits que una. Si tens un pressupost de crèdits molt ajustat, executa dues preses en lloc de cinc i tracta-ne una com a referència. La qüestió és tenir almenys una comparació, no pas tenir-ne cinc.
Pas 3: escriu o coescriu primer les teves lletres
L'àrea de lletres del generador és un camp de text petit, i el model que hi ha darrere té una forta tendència a mantenir el que li dones: el recompte de línies original, l'esquema de rimes original, fins i tot el patró de síl·labes original. Si escrius les lletres en aquell camp i decideixes posteriorment que vols afegir un pont, lluitaràs amb el model en cada regeneració.
Esborra les lletres per separat abans d'enganxar-les. L'Estudi de Lletres et dona prou espai per veure realment el que estàs escrivint. Pots revisar un vers complet, provar un ganxo de tornada diferent, moure el pre-estribillo abans que es converteixi en estructural, tot abans de lliurar res al generador.
Primer les lletres també et permet comprovar una cosa que el generador no pot: si la lletra té un ritme de parla natural que un cantant pot aterrar realment. Llegeix el teu estribillo en veu alta. Si et topes, el model també ho farà.
Si estàs construint la lletra de manera interactiva paral·lelament a la música, primer l'indicador i les lletres refinades en segon lloc, aquest flux de treball també és vàlid. La clau és que l'edició de la lletra succeeixi en algun lloc amb un espai d'edició real, no en el camp de text del generador.
Pas 4: tria els teus controls d'estil amb intenció
Les etiquetes de gènere són llavors, no contractes. «Folk indie» no bloca la sortida en cap estil de producció específic: inclina el model cap a un grup de sons associats amb aquesta etiqueta, que és un punt de partida, no una garantia. Si vols entendre com el model interpreta realment aquestes etiquetes abans de comprometre't, la guia sobre les etiquetes de gènere val deu minuts del teu temps.
El que restringeix realment la sortida de manera més fiable:
- El to, nomenat amb precisió. «Agredolç» i «resignat» arriben de manera diferent fins i tot amb la mateixa etiqueta de gènere.
- Escena o entorn. «Aparcament buit a mitjanit» li dona al tècnic de mezcla (el model, aquí) una referència visual per a la reverberació i l'espai.
- Gènere vocal i registre. La majoria dels generadors accepten instruccions explícites aquí, i el predeterminat no sempre és el correcte per a la teva lletra.
Estableix el BPM si el coneixes. No un rang: un nombre. «Al voltant de 90» li dona al model massa marge. «88 BPM» li dona un rellotge. El mateix amb la durada de la pista: escriu la durada objectiu de manera explícita en lloc de deixar-la al valor predeterminat.
Pas 5: renderitza, després escolta en el pitjor altaveu que tinguis
Les pistes generades per IA tenen un mode de fallada conegut: sonen millor als auriculars del que mereixen. El camp estèreo sovint és ample, els greus estan controlats, la mezcla és neta d'una manera que només es revela com a artificial quan l'escoltes en alguna cosa implacable.
Després de la primera renderització, passa al teu altaveu de telèfon. O al d'un portàtil integrat. O, si en tens accés, a un sistema estèreo de cotxe amb les finestres baixades. Aquests altaveus col·lapsen el camp estèreo, exposen el fang de baix-mig i fan sortir la duresa en la zona de mig-agut. Si la pista continua sonant com una pista —no necessàriament bona, però coherent— llavors tens alguna cosa sobre la qual val la pena treballar.
Si s'esfondra en fang, no sempre és un senyal per tornar a generar. És un senyal per examinar els teus controls d'estil. Una etiqueta de gènere pesada en greus més un entorn de sala càlida més un BPM lent produirà sovint una pista que no viatja. Ajusta una variable, no les tres.
Pas 6: versionar, tornar a renderitzar o parar
Saber quan parar és l'habilitat que separa les persones que llancen de les que tenen quatre-cents esborranys desats i res en una llista de reproducció.
Tres senyals que una presa està llesta:
- El estribillo tira de debò. Sents l'arribada abans de pensar-ho. Si has de raonar-te per convèncer-te que el estribillo funciona, no funciona.
- La vocal se situa en el groove. El cantant sembla que canta aquesta cançó, no que demostra que pot arribar a aquelles notes. Les vocals IA sovint hiperarticulardes les consonants: una bona presa no ho fa.
- No queden marques d'IA que notem a la tercera escolta. Patrons de bateria massa metronòmicament nets. Transicions d'acords sense cap variació de velocitat. Una nota sostinguda que mai no respira. Aquestes són les marques. Una sol ser acceptable. Tres és massa.
Si la presa supera dues de les tres, para i anomena-la esborrany. Si supera les tres, para i anomena-la llesta.
Tornar a renderitzar té sentit quan un paràmetre específic és erroni i pots nomenar-lo. «La vocal és massa brillant per a la lletra» és una instrucció de nova renderització. «Alguna cosa no acaba de funcionar» no ho és: és un problema d'escolta, no un problema de generació, i més preses no ho solucionaran.
Errors habituals
- Indicador massa curt. Una frase no és un indicador; és una etiqueta de gènere amb embolcall de frase. Tres frases és el mínim per a un resultat amb algun caràcter.
- Indicador massa llarg. Vuit frases de construcció de món detallada li donen al model massa restriccions per satisfer simultàniament. Farà la seva mitjana i no produirà res en particular.
- Canviar d'eina a mig de la iteració. Cada generador té un model intern diferent, i «el mateix indicador» produeix resultats estructuralment diferents entre eines. Si canvies a mig de la sessió, resets la línia de base de comparació i perds l'historial d'iteració. Tria una eina per pista i queda-t'hi.
- Tornar a generar amb les mateixes entrades i esperar un resultat diferent. La variació en les sortides per a indicadors idèntics és real però limitada. Si tres preses consecutives estan totes equivocades de la mateixa manera, l'indicador és el problema, no la llavor aleatòria.
- Ignorar el desajust vocal. El timbre, el registre i l'energia vocals implicats per la teva lletra han d'alinear-se amb la veu que tria el model. Una lletra escrita per a un baix rauc lliurada per un tenor lleuger és un error de repartiment, i cap quantitat de nova renderització arregla el repartiment.
Després de la primera pista que funciona
Descarrega les stems si l'eina les ofereix. Fins i tot si no tens previst mesclar, tenir la vocal i la instrumental separades significa que pots refer la veu més endavant o passar l'instrumental a un cantant real sense partir de zero.
Desa l'indicador exactament com era quan va funcionar. No la versió per la qual has iterat: la versió final. Copia-la en un fitxer de notes, un full de càlcul, qualsevol lloc que no sigui dins de l'eina. La majoria d'eines no conserven els indicadors entre sessions d'una manera que puguis cercar fàcilment. La biblioteca de música d'aisonggen desa automàticament el teu historial de generació i els indicadors que han produït cada pista, la qual cosa redueix el que has de gestionar tu mateix, però encara val la pena conservar la teva pròpia còpia dels indicadors que han produït els teus millors resultats.
Registra dues coses per a cada pista que funcioni: la combinació d'etiqueta de gènere-to que has usat, i qualsevol frase de postura que sembla generativa. Al llarg de deu o quinze pistes, emergen patrons: trobaràs les combinacions d'etiquetes que s'adapten al teu rang creatiu i les formulacions que produeixen fiablement alguna cosa que val la pena conservar. Aquest registre és més valuós que qualsevol guia, inclosa aquesta.
Si vols veure com altres persones usen el generador abans de comprometre't amb el teu propi flux de treball, la pàgina de ressenyes mostra com els usuaris reals aborden gèneres i casos d'ús diferents.
L'objectiu no és generar música. Generar música és la part fàcil ara: qualsevol pot prémer el botó. L'objectiu és escriure cançons. Cançons que tinguin una perspectiva, un centre emocional específic, una estructura que es guanyi el seu final. La IA és la capa de producció: s'ocupa de l'arranjament, la mezcla, la veu. Encara has de fer l'escriptura tu. Com més d'això aportes a l'indicador, menys en sents l'absència en la sortida.