AISongGen logoAISongGen

Perché la seconda take è quasi sempre migliore

La prima generazione campiona la media del tuo prompt. La seconda generazione campiona la tua reazione alla prima.

4 min di lettura

La prima take è la migliore ipotesi del modello. La seconda take è la tua.

Quando premi rigenera, non stai più chiedendo "una canzone su guidate notturne". Stai chiedendo "una canzone su guidate notturne, ma più lenta dell'ultima, con un ritornello che non atterra sul battere". Anche se non cambi nulla nel prompt, il tuo orecchio ha già fatto l'editing — e la generazione successiva eredita quell'editing attraverso i piccoli aggiustamenti che fai a genere, tempo, mood o alla bozza del testo.

Il bias della prima take

Ai modelli piace darti la media di ciò che il tuo prompt consente. Se il tuo prompt consente dieci tempi, ottieni la mediana. Se consente tre mood, ottieni il più prevedibile. La prima take è raramente sbagliata, ma è anche raramente sorprendente, perché la sorpresa sta ai bordi del prompt e il modello è addestrato a puntare al centro.

Usa la prima take come una domanda

Tratta la prima generazione come una domanda, non come una risposta. La domanda è: "È qui che volevo che fosse la canzone?" Quasi sempre la risposta è "vicino, ma —" e quel ma è l'informazione più utile dell'intera sessione. Modifica un parametro che affronta il ma, e rigenera.

Fermati a tre

Tre take di solito bastano. Alla quarta non stai più rifinendo la canzone; stai scommettendo che il modello ti consegni qualcosa di meglio di ciò che hai già. Non lo farà, perché il prompt non è cambiato. Se la terza take non è dove vuoi, è il prompt che ha bisogno di intervento, non un altro lancio di dadi.

La tua prossima traccia è a un prompt gratuito di distanza

Apri lo studio, scrivi la vibe, ascolta una canzone finita in 30 secondi. Gratis per iniziare, royalty-free da pubblicare, nessuna carta richiesta.