Lo difícil de hacer música con IA no es pulsar el botón. Lo difícil es saber qué introducir antes de pulsarlo, leer lo que sale con algún discernimiento y decidir si seguir o parar. La mayoría de las personas que llaman «genérica» a la música con IA no se equivocan — simplemente pararon demasiado pronto en el proceso, o empezaron sin tener suficiente claridad sobre lo que realmente querían hacer.
Este es un recorrido por el proceso que he ejecutado varias cientos de veces. Trata la generación como iteración, no como una transacción de máquina expendedora. Cuando funciona, el resultado no suena como si lo hubiera escrito una máquina. Cuando falla, sabrás exactamente qué decisión revisar.
Decide qué tipo de canción quieres realmente
Antes de abrir cualquier herramienta, siéntate con una pregunta: ¿dentro de la experiencia de quién vive esta canción? No «qué género» ni «qué ambiente» — esos vienen después. Empieza con la perspectiva, luego el lugar, luego el centro de gravedad emocional.
Un marco simple para esto:
Un/a [QUIÉN] haciendo [QUÉ], el momento justo antes de [PUNTO DE INFLEXIÓN]. La emoción subyacente es [SENTIMIENTO], no [SENTIMIENTO SUPERFICIAL]. Mantenlo [UNA PALABRA TONAL].
La distinción entre el sentimiento superficial y el sentimiento subyacente no es un ejercicio de escritura — es una instrucción para el generador. Una canción sobre «el duelo» suena de una manera; una canción sobre la irritación específica de ser incapaz de llorar en un funeral suena como un disco completamente diferente. La especificidad viaja hacia la generación de maneras que las etiquetas de género simplemente no pueden.
Mientras todavía estás pensando en papel, decide la duración. Una pista de dos minutos y una de cuatro minutos requieren diferentes elecciones estructurales, y el generador se desviará sin un objetivo. Elige uno antes de avanzar.
Paso 1: escribe un prompt que nombre una postura, no una textura
La mayoría de los primeros prompts describen sonido: «beat lo-fi, teclas cálidas, melancólico». Eso describe cómo debería sentirse la pista para un oyente a tres pasos de la emoción. Una postura describe lo que el intérprete está haciendo con su cuerpo y su atención.
Compara estos dos:
- Prompt de textura: «R&B lento, falsete suave, noche tardía, añoranza.»
- Prompt de postura: «Alguien leyendo mensajes antiguos que prometió que borraría. Sigue leyendo. La voz es callada, como si no quisiera que nadie la escuchara.»
Ambos apuntan a un destino emocional similar. El prompt de postura le da al modelo algo que interpretar. El prompt de textura le da una referencia sonora y nada más. Los resultados no son equivalentes.
Mantén los prompts de postura en tres o cuatro oraciones. El techo es más bajo de lo que crees — después de unas cinco oraciones el modelo comienza a promediar las instrucciones en lugar de construir sobre ellas.
Paso 2: elige un generador que te permita comparar tomas
Los generadores de toma única hacen que la iteración sea lenta de una manera específica y frustrante: obtienes un resultado, está casi bien, regeneras con un pequeño ajuste y la nueva toma aterriza en una dirección completamente diferente porque no había un anclaje compartido. Acabas persiguiendo la toma original que era «casi perfecta» durante seis ciclos.
Ejecutar variantes paralelas resuelve esto. El generador de música de aisonggen renderiza cinco tomas simultáneamente desde el mismo prompt, para que puedas compararlas lado a lado antes de comprometerte con una dirección. Si dos de las cinco están en el territorio correcto, ya has saltado la mayor parte del bucle de regeneración.
Una nota justa: cinco tomas cuestan más créditos que una. Si tienes un presupuesto de créditos muy ajustado, ejecuta dos tomas en lugar de cinco y trata una como tu referencia. El objetivo es tener al menos una comparación, no tener cinco.
Paso 3: escribe o co-escribe tus letras primero
El área de letras del generador es un campo de texto pequeño, y el modelo que funciona detrás tiene una fuerte tendencia a mantener lo que le des — el recuento de líneas original, el esquema de rima original, incluso el patrón silábico original. Si escribes letras dentro de ese campo y decides más tarde que quieres añadir un puente, lucharás con el modelo en cada regenerado.
Elabora las letras por separado antes de pegarlas. El Estudio de Letras te da suficiente espacio para ver realmente lo que estás escribiendo. Puedes revisar una estrofa completa, probar un estribillo diferente, mover el pre-estribillo antes de que se vuelva estructural — todo antes de entregarle nada al generador.
Empezar por las letras también te permite comprobar algo que el generador no puede: si la letra tiene un ritmo de habla natural que un cantante pueda realmente ejecutar. Lee tu estribillo en voz alta. Si tropiezas, el modelo también lo hará.
Si estás construyendo la letra de forma interactiva junto con la música — primero el prompt, luego las letras refinadas — ese flujo de trabajo también es válido. Lo clave es que la edición de la letra ocurra en algún lugar con espacio de edición real, no en el cuadro de texto del generador.
Paso 4: elige tus controles de estilo con intención
Las etiquetas de género son semillas, no contratos. «Indie folk» no bloquea el resultado en ningún estilo de producción específico — sesga al modelo hacia un conjunto de sonidos asociados con esa etiqueta, que es un punto de partida, no una garantía. Si quieres entender cómo el modelo interpreta realmente estas etiquetas antes de comprometerte, la guía sobre etiquetas de género vale diez minutos de tu tiempo.
Lo que realmente restringe el resultado de forma más fiable:
- Estado de ánimo, nombrado con precisión. «Agridulce» y «resignado» aterrizan de manera diferente incluso dentro de la misma etiqueta de género.
- Escena o entorno. «Aparcamiento vacío a medianoche» le da al ingeniero de mezclas (el modelo, en este caso) una referencia visual para la reverberación y el espacio.
- Género y registro vocal. La mayoría de los generadores aceptan instrucciones explícitas aquí, y el valor predeterminado no siempre es el correcto para tu letra.
Establece el BPM si lo conoces. No un rango — un número. «Alrededor de 90» le da demasiado margen al modelo. «88 BPM» le da un reloj. Lo mismo con la duración de la pista: escribe la duración objetivo explícitamente en lugar de dejarlo al valor predeterminado.
Paso 5: renderiza y luego escucha en el peor altavoz que tengas
Las pistas generadas con IA tienen un modo de fallo conocido: suenan mejor en auriculares de lo que merecen. El campo estéreo a menudo es ancho, los graves están controlados, la mezcla está limpia de una manera que solo se revela como artificial cuando la escuchas en algo implacable.
Después del primer renderizado, cambia al altavoz de tu teléfono. O al incorporado en el portátil. O, si tienes acceso a uno, al sistema de audio del coche con las ventanillas bajadas. Estos altavoces colapsan el campo estéreo, exponen el barro en los medios-graves y sacan la aspereza en el rango de medios-altos. Si la pista todavía suena como una pista — no necesariamente bien, pero coherente — entonces tienes algo con lo que trabajar.
Si se convierte en papilla, esa no es siempre una señal para regenerar. Es una señal para mirar tus controles de estilo. Una etiqueta de género con graves pesados más un ajuste de sala cálida más un BPM lento a menudo producirá una pista que no viaja. Ajusta una variable, no las tres.
Paso 6: versionar, re-renderizar o parar
Saber cuándo parar es la habilidad que separa a las personas que publican de las que tienen cuatrocientas versiones guardadas y nada en una playlist.
Tres señales de que una toma está terminada:
- El estribillo realmente engancha. Sientes la llegada antes de pensarla. Si tienes que razonar para ti mismo por qué funciona el estribillo, no funciona.
- La voz encaja en el bolsillo. El cantante suena como si estuviera cantando esta canción, no demostrando que puede alcanzar estas notas. Las voces de IA a menudo sobrearticulan las consonantes — una buena toma no lo hace.
- No quedan «tics de IA» que notes a la tercera escucha. Patrones de batería demasiado metrónomicamente limpios. Transiciones de acordes que carecen de cualquier variación de velocidad. Una nota sostenida que nunca respira. Estos son los tics. Uno de ellos a menudo es aceptable. Tres son demasiados.
Si la toma cumple dos de los tres, para y llámala borrador. Si cumples los tres, para y llámala terminada.
Re-renderizar tiene sentido cuando un parámetro específico está mal y puedes nombrarlo. «La voz es demasiado brillante para la letra» es una instrucción de re-renderizado. «Algo se siente raro» no — ese es un problema de escucha, no un problema de generación, y más tomas no lo arreglarán.
Errores comunes
- Prompt demasiado corto. Una sola oración no es un prompt; es una etiqueta de género con una envoltura de oración. Tres oraciones es el mínimo para un resultado con algún carácter.
- Prompt demasiado largo. Ocho oraciones de construcción detallada del mundo le dan al modelo demasiadas restricciones para satisfacer simultáneamente. Las promediará y no producirá nada en particular.
- Cambiar de herramienta a mitad de la iteración. Cada generador tiene un modelo interno diferente, y «el mismo prompt» produce resultados estructuralmente diferentes entre herramientas. Si cambias a mitad de sesión, restableces tu línea base de comparación y pierdes el historial de iteración. Elige una herramienta por pista y quédate ahí.
- Regenerar con las mismas entradas y esperar un resultado diferente. La variación en los resultados para prompts idénticos es real pero acotada. Si tres tomas consecutivas están todas mal de la misma manera, el prompt es el problema, no la semilla aleatoria.
- Ignorar el desajuste vocal. El timbre, el registro y la energía vocal implícitos por tu letra tienen que alinearse con la voz que elige el modelo. Una letra escrita para un barítono ronco entregada por un tenor ligero es un error de casting, y ninguna cantidad de re-renderizado arregla el casting.
Después de la primera pista que funciona
Descarga los stems si la herramienta los ofrece. Incluso si no planeas mezclarlos, tener la vocal y el instrumental separados significa que puedes re-voicearlos más tarde, o entregar el instrumental a un cantante real sin empezar desde cero.
Guarda el prompt exactamente como estaba cuando funcionó. No la versión por la que iteraste — la versión final. Cópiala en un archivo de notas, una hoja de cálculo, en cualquier lugar que no sea dentro de la herramienta misma. La mayoría de las herramientas no persisten los prompts entre sesiones de una forma que puedas buscar fácilmente. La biblioteca de música de aisonggen guarda automáticamente tu historial de generación y los prompts que produjeron cada pista, lo que reduce la cantidad que necesitas gestionar tú mismo, pero aun así vale la pena conservar tu propia copia de los prompts que produjeron tus mejores resultados.
Registra dos cosas de cada pista que funcione: la combinación de etiqueta de género-estado de ánimo que usaste, y cualquier frase de postura que se sintiera generativa. A lo largo de diez o quince pistas, emergen patrones — encontrarás las combinaciones de etiquetas que encajan con tu rango creativo y las formulaciones que producen de forma fiable algo que vale la pena conservar. Ese registro es más valioso que cualquier guía, incluida esta.
Si quieres ver cómo otras personas están usando el generador antes de comprometerte con tu propio flujo de trabajo, la página de reseñas muestra cómo los usuarios reales abordan diferentes géneros y casos de uso.
El objetivo no es generar música. Generar música es la parte fácil ahora — cualquiera puede pulsar el botón. El objetivo es escribir canciones. Canciones que tengan una perspectiva, un centro emocional específico, una estructura que se gane su final. La IA es la capa de producción: maneja el arreglo, la mezcla, la voz. Tú todavía tienes que hacer la escritura. Cuanto más de eso traigas al prompt, menos de ello escucharás como ausente en el resultado.