AISongGen logoAISongGen

Por qué la segunda toma casi siempre es mejor

La primera generación muestrea la media de tu prompt. La segunda muestrea tu reacción a la primera.

4 min de lectura

La primera toma es la mejor conjetura del modelo. La segunda toma es la tuya.

Cuando pulsas regenerar, ya no estás pidiendo «una canción sobre conducir de noche». Estás pidiendo «una canción sobre conducir de noche, pero más lenta que la anterior, con un estribillo que no caiga sobre el primer tiempo». Aunque no cambies nada en el prompt, tu oído ya ha hecho la edición, y la siguiente generación hereda esa edición a través de los pequeños ajustes que haces en género, tempo, mood o el borrador de la letra.

El sesgo de la primera toma

A los modelos les gusta darte la media de lo que tu prompt permite. Si tu prompt admite diez tempos, te van a dar el mediano. Si admite tres moods, te van a dar el más predecible. La primera toma rara vez está mal, pero rara vez sorprende, porque la sorpresa vive en los bordes del prompt y el modelo está entrenado para tirar al centro.

Usa la toma uno como una pregunta

Trata la primera generación como una pregunta, no como una respuesta. La pregunta es: «¿Está aquí donde yo quería que estuviera la canción?». Casi siempre la respuesta es «cerca, pero…», y ese pero es la información más útil de toda la sesión. Edita un parámetro que ataque el pero y vuelve a generar.

Para a las tres

Tres tomas suelen bastar. A la cuarta ya no estás afinando la canción; estás apostando a que el modelo te entregue algo mejor que lo que ya tienes. No lo va a hacer, porque el prompt no ha cambiado. Si la tercera toma no está donde la quieres, lo que necesita cirugía es el prompt, no otra tirada de dados.

Tu próxima pista está a un prompt gratis

Abre el estudio, escribe el ambiente y oye una canción terminada en 30 segundos. Empezar gratis, publicar libre de regalías, sin tarjeta.