La prima take è la migliore ipotesi del modello. La seconda take è la tua.
Quando premi rigenera, non stai più chiedendo "una canzone su guidate notturne". Stai chiedendo "una canzone su guidate notturne, ma più lenta dell'ultima, con un ritornello che non atterra sul battere". Anche se non cambi nulla nel prompt, il tuo orecchio ha già fatto l'editing — e la generazione successiva eredita quell'editing attraverso i piccoli aggiustamenti che fai a genere, tempo, mood o alla bozza del testo.
Il bias della prima take
Ai modelli piace darti la media di ciò che il tuo prompt consente. Se il tuo prompt consente dieci tempi, ottieni la mediana. Se consente tre mood, ottieni il più prevedibile. La prima take è raramente sbagliata, ma è anche raramente sorprendente, perché la sorpresa sta ai bordi del prompt e il modello è addestrato a puntare al centro.
Usa la prima take come una domanda
Tratta la prima generazione come una domanda, non come una risposta. La domanda è: "È qui che volevo che fosse la canzone?" Quasi sempre la risposta è "vicino, ma —" e quel ma è l'informazione più utile dell'intera sessione. Modifica un parametro che affronta il ma, e rigenera.
Fermati a tre
Tre take di solito bastano. Alla quarta non stai più rifinendo la canzone; stai scommettendo che il modello ti consegni qualcosa di meglio di ciò che hai già. Non lo farà, perché il prompt non è cambiato. Se la terza take non è dove vuoi, è il prompt che ha bisogno di intervento, non un altro lancio di dadi.