Perché la seconda take è quasi sempre migliore

La prima take è la migliore ipotesi del modello. La seconda take è la tua.

Quando premi rigenera, non stai più chiedendo "una canzone su guidate notturne". Stai chiedendo "una canzone su guidate notturne, ma più lenta dell'ultima, con un ritornello che non atterra sul battere". Anche se non cambi nulla nel prompt, il tuo orecchio ha già fatto l'editing — e la generazione successiva eredita quell'editing attraverso i piccoli aggiustamenti che fai a genere, tempo, mood o alla bozza del testo.

Il bias della prima take

Ai modelli piace darti la media di ciò che il tuo prompt consente. Se il tuo prompt consente dieci tempi, ottieni la mediana. Se consente tre mood, ottieni il più prevedibile. La prima take è raramente sbagliata, ma è anche raramente sorprendente, perché la sorpresa sta ai bordi del prompt e il modello è addestrato a puntare al centro.

Usa la prima take come una domanda

Tratta la prima generazione come una domanda, non come una risposta. La domanda è: "È qui che volevo che fosse la canzone?" Quasi sempre la risposta è "vicino, ma —" e quel ma è l'informazione più utile dell'intera sessione. Modifica un parametro che affronta il ma, e rigenera.

Fermati a tre

Tre take di solito bastano. Alla quarta non stai più rifinendo la canzone; stai scommettendo che il modello ti consegni qualcosa di meglio di ciò che hai già. Non lo farà, perché il prompt non è cambiato. Se la terza take non è dove vuoi, è il prompt che ha bisogno di intervento, non un altro lancio di dadi.

Perché la seconda take è quasi sempre migliore

Il bias della prima take

Usa la prima take come una domanda

Fermati a tre

Continua a leggere

Come fare musica AI che non suoni come musica AI

Come fare cover AI che non suonino solo come un remix

Come usare il text-to-speech senza che sembri un robot che legge i compiti

La tua prossima traccia è a un prompt gratuito di distanza