Короткий промпт просить модель угадати все. Довгий промпт ховає той єдиний рядок, який мав значення. Серединне поле — шість-сім речень, які називають перспективу, сцену й відчуття, — це там, де генерації перестають звучати як фонова музика й починають нести вагу.
Спершу зафіксуйте перспективу
До інструментів, до темпу — назвіть, хто співає і кому. «Новоспечений батько о 3-й ночі говорить до сонного немовляти» дає генератору тексту поставу, у яку йому впасти; «теплий акустичний inde» дає йому фактуру, але не ціль. Фактура йде слідом за позою, щойно поза існує.
Потім помістіть сцену
Один образ — кухонна стільниця, вікно потяга, коридор, паркінг біля готелю — витягує загальний настрій у конкретний. Не треба пояснювати сцену; просто передайте її. Модель заповнить кутки способами, які Вам не спали б на думку, і саме ця частина робить результат відчуттям знайденого, а не замовленого.
Продакшн-нотатки залиште наостанок
Жанр, темп, інструментал стоять у кінці промпту, після того, як модель уже знає, про що пісня. Якщо Ви починаєте з «120 BPM, перевантажений бас, жіночий вокал», текстовому шару немає звідки рости. Починайте зі сцени й пози, і продакшн-нотатки підгострюватимуть те, що вже є, замість того щоб його заміняти.
Стартовий шаблон
[ХТО] на [ДЕ], думає про [ЩО]. Приспів повертає, коли він/вона усвідомлює [ПОВОРОТ]. Настрій — [ДВА ПРИКМЕТНИКИ]. Продакшн: [ЖАНР], [ТЕМП], [ОДНА ПРОДАКШН-ДЕТАЛЬ].
Це не формула, яку треба копіювати дослівно, — це чек-лист тих п’яти рішень, які мають бути в промпті, перш ніж модель зможе зробити свою роботу. Пропустіть будь-яке з них — і результат відчуватиметься недовизначеним так, що ніяка кількість регенерацій цього не виправить.