Et kort prompt ber modellen gjette alt. Et langt prompt begraver den eneste linja som betydde noe. Mellomlandet — seks eller sju setninger som navngir et perspektiv, en scene og en følelse — er der genereringene slutter å høres ut som bakgrunnsmusikk og begynner å bære vekt.
Forankre perspektivet først
Før instrumenter, før tempo, navngi hvem som synger og til hvem. «En nybakt forelder klokka 03 som snakker til en sovende baby» gir tekst- generatoren en holdning å falle inn i; «varm akustisk indie» gir den en tekstur, men ingen retning. Teksturen følger holdningen når holdningen finnes.
Plasser så en scene
Ett enkelt bilde — kjøkkenbenk, togvindu, korridor, hotellparkerings- plass — trekker en generisk stemning inn i en konkret én. Du trenger ikke å forklare scenen; bare overlever én. Modellen vil fylle ut hjørnene på måter du ikke ville ha tenkt på, og det er den delen som får resultatet til å føles funnet snarere enn bestilt.
Spar produksjonsnotatene til slutt
Sjanger, tempo og instrumentering hører hjemme på slutten av promptet, etter at modellen allerede vet hva sangen handler om. Hvis du leder med «120 BPM, forvrengt bass, kvinnelig vokal», har tekst-laget ingen steder å vokse fra. Led med scenen og holdningen, og produksjonsnotatene spisser det som allerede er der i stedet for å erstatte det.
En startmal
En [HVEM] på [HVOR], som tenker på [HVA]. Refrenget snur når de skjønner [VENDING]. Stemningen er [TO ADJEKTIV]. Produksjon: [SJANGER], [TEMPO], [ÉN PRODUKSJONSDETALJ].
Dette er ikke en formel å kopiere ordrett — det er en sjekkliste for de fem avgjørelsene som må ligge i promptet før modellen kan gjøre jobben sin. Hopp over én av dem og resultatet vil føles underbestemt på en måte ingen mengde regenerering kan fikse.