Un prompt court demande au modèle de tout deviner. Un prompt long ensevelit la seule ligne qui comptait. Le juste milieu — six ou sept phrases qui nomment un point de vue, une scène et une émotion — est l'endroit où les générations cessent de sonner comme une musique de fond et commencent à porter du poids.
Ancrez d'abord le point de vue
Avant les instruments, avant le tempo, nommez qui chante et à qui. « Un jeune parent à 3 h du matin parlant à un bébé endormi » donne au générateur de paroles une posture où s'installer ; « indie acoustique chaleureux » lui donne une texture mais aucune visée. La texture suit la posture une fois que la posture existe.
Puis posez une scène
Une seule image — plan de cuisine, fenêtre de train, couloir, parking d'hôtel — fait passer une ambiance générique à une ambiance spécifique. Vous n'avez pas besoin d'expliquer la scène ; tendez-la simplement. Le modèle remplira les recoins de manières auxquelles vous n'auriez pas pensé, et c'est cette part qui fait que le résultat semble trouvé plutôt que commandé.
Gardez les notes de production pour la fin
Le genre, le tempo et l'instrumentation se placent à la fin du prompt, une fois que le modèle sait déjà de quoi parle la chanson. Si vous commencez par « 120 BPM, basse saturée, voix féminine », la couche des paroles n'a aucun sol où pousser. Commencez par la scène et la posture, et les notes de production viennent affiner ce qui est déjà là plutôt que le remplacer.
Un modèle de départ
Un·e [QUI] sur [OÙ], pensant à [QUOI]. Le refrain bascule quand il·elle réalise [TWIST]. Ambiance : [DEUX ADJECTIFS]. Production : [GENRE], [TEMPO], [UN DÉTAIL DE PRODUCTION].
Ce n'est pas une formule à recopier mot pour mot — c'est une check-list des cinq décisions qui doivent figurer dans le prompt avant que le modèle puisse faire son travail. Sautez-en une seule et le résultat semblera sous-déterminé d'une manière qu'aucune régénération ne pourra corriger.