Der erste Take ist die beste Schätzung des Modells. Der zweite Take ist deine.
Wenn du auf Regenerieren drückst, fragst du nicht mehr nach „einem Song über nächtliche Autofahrten". Du fragst nach „einem Song über nächtliche Autofahrten, aber langsamer als der letzte, mit einem Refrain, der nicht auf der Eins landet". Selbst wenn du nichts am Prompt änderst, hat dein Ohr die Edits schon gemacht — und die nächste Generierung erbt diesen Edit über die kleinen Anpassungen, die du an Genre, Tempo, Stimmung oder dem Lyrics-Entwurf vornimmst.
Der Bias des ersten Takes
Modelle geben dir gerne den Durchschnitt dessen, was dein Prompt erlaubt. Wenn dein Prompt zehn Tempi erlaubt, kriegst du den Median. Wenn er drei Stimmungen erlaubt, kriegst du die vorhersehbarste. Der erste Take ist selten falsch, aber er ist auch selten überraschend, weil Überraschung an den Rändern des Prompts wohnt und das Modell darauf trainiert ist, zur Mitte zu laufen.
Nutz Take eins als Frage
Behandle die erste Generierung als Frage, nicht als Antwort. Die Frage lautet: „Ist das, wo ich den Song haben wollte?" Fast immer ist die Antwort „nah dran, aber —" und das aber ist die nützlichste Information der ganzen Session. Bearbeite einen Parameter, der das aber adressiert, und generiere neu.
Stopp bei drei
Drei Takes reichen meistens. Beim vierten Take verfeinerst du den Song nicht mehr; du wettest darauf, dass das Modell dir etwas Besseres reicht als das, was du schon hast. Wird es nicht, weil der Prompt sich nicht verändert hat. Wenn Take drei nicht da ist, wo du ihn willst, braucht der Prompt eine Operation, kein weiterer Würfelwurf.