En kort prompt ber modellen gissa allt. En lång prompt begraver den enda rad som spelade roll. Mellanläget — sex eller sju meningar som namnger ett perspektiv, en scen och en känsla — är där genereringarna slutar låta som bakgrundsmusik och börjar bära vikt.
Förankra perspektivet först
Före instrument, före tempo, namnge vem som sjunger och till vem. "En nybliven förälder klockan tre på natten som pratar med en sovande baby" ger låttext- generatorn en hållning att falla in i; "varm akustisk indie" ger den en textur men inget mål. Texturen följer hållningen när väl hållningen finns.
Sätt sedan en scen
En enda bild — köksbänken, tågfönstret, hallen, ett hotell parkeringshus — drar en generisk stämning in i en specifik. Du behöver inte förklara scenen; bara räck över en. Modellen kommer fylla hörnen på sätt du inte hade tänkt på, och det är den delen som gör att resultatet känns funnet snarare än beställt.
Spara produktionsanteckningarna till sist
Genre, tempo och instrumentering hör hemma i slutet av prompten, efter att modellen redan vet vad låten handlar om. Om du leder med "120 BPM, distad bas, kvinnlig sång" har låttextlagret ingenstans att växa från. Led med scenen och hållningen, så skärper produktions anteckningarna det som redan finns istället för att ersätta det.
En startmall
En [VEM] på [VAR], som tänker på [VAD]. Refrängen vänder när de inser [VRIDNING]. Stämning är [TVÅ ADJEKTIV]. Produktion: [GENRE], [TEMPO], [EN PRODUKTIONSDETALJ].
Det här är inte en formel att kopiera ordagrant — det är en checklista för de fem beslut som måste finnas i prompten innan modellen kan göra sitt jobb. Hoppa över ett enda och resultatet kommer kännas underbestämt på ett sätt som ingen mängd omgenerering kan fixa.