Por qué la segunda toma casi siempre es mejor

La primera toma es la mejor conjetura del modelo. La segunda toma es la tuya.

Cuando pulsas regenerar, ya no estás pidiendo «una canción sobre conducir de noche». Estás pidiendo «una canción sobre conducir de noche, pero más lenta que la anterior, con un estribillo que no caiga sobre el primer tiempo». Aunque no cambies nada en el prompt, tu oído ya ha hecho la edición, y la siguiente generación hereda esa edición a través de los pequeños ajustes que haces en género, tempo, mood o el borrador de la letra.

El sesgo de la primera toma

A los modelos les gusta darte la media de lo que tu prompt permite. Si tu prompt admite diez tempos, te van a dar el mediano. Si admite tres moods, te van a dar el más predecible. La primera toma rara vez está mal, pero rara vez sorprende, porque la sorpresa vive en los bordes del prompt y el modelo está entrenado para tirar al centro.

Usa la toma uno como una pregunta

Trata la primera generación como una pregunta, no como una respuesta. La pregunta es: «¿Está aquí donde yo quería que estuviera la canción?». Casi siempre la respuesta es «cerca, pero…», y ese pero es la información más útil de toda la sesión. Edita un parámetro que ataque el pero y vuelve a generar.

Para a las tres

Tres tomas suelen bastar. A la cuarta ya no estás afinando la canción; estás apostando a que el modelo te entregue algo mejor que lo que ya tienes. No lo va a hacer, porque el prompt no ha cambiado. Si la tercera toma no está donde la quieres, lo que necesita cirugía es el prompt, no otra tirada de dados.

Por qué la segunda toma casi siempre es mejor

El sesgo de la primera toma

Usa la toma uno como una pregunta

Para a las tres

Sigue leyendo

Cómo hacer música con IA que no suene a música hecha con IA

Cómo hacer versiones con IA que no suenen simplemente a un remix

Cómo usar el texto a voz para que deje de sonar como un robot leyendo deberes

Tu próxima pista está a un prompt gratis