Як створювати AI-музику, що не звучить як AI-музика

Найважче у створенні AI-музики — не натиснути кнопку. Найважче — знати, що туди вкласти перед натисканням, читати результат з певним розпізнаванням і вирішувати, чи продовжувати, чи зупинитися. Більшість людей, які називають AI-музику «банальною», не помиляються — вони просто зупинилися надто рано в процесі або почали без достатньої ясності щодо того, що насправді намагалися створити.

Це керівництво описує процес, який я пройшов кілька сотень разів. Воно розглядає генерацію як ітерацію, а не як транзакцію з автоматом. Коли це спрацьовує, результат не звучить як написаний машиною. Коли не спрацьовує — ви точно знаєте, яке рішення переглянути.

Визначтеся, яку саме пісню ви хочете

Перш ніж відкривати будь-який інструмент, зосередьтеся на одному запитанні: чий досвід живе всередині цієї пісні? Не «який жанр» і не «яка атмосфера» — це прийде пізніше. Почніть із перспективи, потім місця, потім емоційного центру тяжіння.

Простий шаблон для цього:

[ХТО] робить [ЩО], мить прямо перед [ПЕРЕЛОМНИМ МОМЕНТОМ]. Емоція всередині — [ПОЧУТТЯ], а не [ПОВЕРХНЕВЕ ПОЧУТТЯ]. Тримайте [ОДНЕ ТОНАЛЬНЕ СЛОВО].

Різниця між поверхневим почуттям і глибинним — не вправа з письма, а інструкція для генератора. Пісня про «горе» звучить по-одному; пісня про специфічне роздратування від нездатності заплакати на похороні звучить як абсолютно інший запис. Ця конкретність проникає в генерацію там, де теги жанрів просто не можуть.

Поки ви ще думаєте на папері, визначтеся з довжиною. Дво- і чотирихвилинний трек вимагають різних структурних рішень, і генератор дрейфуватиме без мети. Оберіть одне перед тим, як рухатися далі.

Крок 1: напишіть промпт, що називає позицію, а не текстуру

Більшість перших промптів описують звук: «lo-fi біт, теплі клавіші, меланхолійний». Це описує, яким трек має відчуватися для слухача, що стоїть на три кроки від емоції. Позиція описує, що виконавець робить своїм тілом і увагою.

Порівняйте два варіанти:

Текстурний промпт: «Повільний R&B, ніжне фальсetto, пізня ніч, туга».
Позиційний промпт: «Хтось перечитує старі повідомлення, які пообіцяв собі видалити. Продовжує читати. Вокал тихий, наче не хоче, щоб хтось почув».

Обидва вказують на схожу емоційну мету. Позиційний промпт дає моделі щось для виконання. Текстурний промпт дає їй звукове посилання і більше нічого. Результати не є еквівалентними.

Тримайте позиційні промпти до трьох-чотирьох речень. Стеля нижча, ніж ви думаєте — після приблизно п'яти речень модель починає усереднювати вказівки, а не будувати на них.

Крок 2: оберіть генератор, що дозволяє порівнювати варіанти

Генератори з одним варіантом роблять ітерацію повільною специфічним, дратівливим чином: ви отримуєте результат, він майже правильний, ви регенеруєте з незначним налаштуванням, і новий варіант потрапляє в абсолютно інший напрямок, бо не було спільного якоря. Ви закінчуєте, гонячись за оригінальним варіантом, що був «майже те» протягом шести циклів.

Запуск паралельних варіантів вирішує це. Музичний генератор aisonggen одночасно рендерить п'ять варіантів з одного промпту, тому ви можете порівняти їх поруч перед тим, як визначитися з напрямком. Якщо два з п'яти в правильній зоні, ви вже пропустили більшість циклу регенерації.

Чесна примітка: п'ять варіантів коштують більше кредитів, ніж один. Якщо у вас дуже обмежений бюджет кредитів, запустіть два замість п'яти і використовуйте один як референс. Суть у тому, щоб мати хоча б одне порівняння, а не обов'язково п'ять.

Крок 3: спочатку напишіть або спільно напишіть текст

Поле для тексту в генераторі — невелике текстове поле, і модель за ним має сильну схильність зберігати все, що ви їй даєте — оригінальну кількість рядків, оригінальну схему рим, навіть оригінальну схему складів. Якщо ви пишете текст у цьому полі і пізніше вирішуєте додати бридж, ви будете боротися з моделлю при кожній регенерації.

Чернеть текст окремо, перш ніж вставляти його. Lyric Studio дає вам достатньо простору, щоб насправді бачити, що ви пишете. Ви можете переробити повний куплет, спробувати інший гачок приспіву, перемістити пре-хорус, перш ніж він стане структурним — усе це до того, як щось передавати генератору.

Текст-спочатку також дозволяє перевірити одну річ, яку генератор не може: чи має текст природний мовний ритм, яким виконавець може скористатися. Прочитайте приспів вголос. Якщо спотикаєтеся — модель теж спотикнеться.

Якщо ви будуєте текст інтерактивно поряд з музикою — спочатку промпт, потім доробляєте текст — цей робочий процес теж дійсний. Головне, щоб редагування тексту відбувалося десь із реальним простором для редагування, а не в текстовому полі генератора.

Крок 4: обирайте засоби керування стилем із наміром

Теги жанру — це насіння, а не контракти. «Інді-фолк» не замикає результат у жодному конкретному стилі продакшну — він схиляє модель до кластеру звуків, пов'язаних із цим ярликом, що є відправною точкою, а не гарантією. Якщо ви хочете зрозуміти, як модель насправді інтерпретує ці теги перед тим, як брати зобов'язання, керівництво щодо тегів жанрів варте десяти хвилин вашого часу.

Що насправді надійніше обмежує результат:

Настрій, названий точно. «Гіркий» і «покірний» по-різному звучать навіть у межах одного тегу жанру.
Сцена або обстановка. «Порожня парковка опівночі» дає звукорежисеру (моделі тут) візуальний референс для реверберації і простору.
Стать і регістр вокалу. Більшість генераторів приймають явні вказівки тут, і стандартний варіант не завжди правильний для вашого тексту.

Встановіть BPM, якщо знаєте його. Не діапазон — число. «Приблизно 90» дає моделі занадто багато простору. «88 BPM» дає їй годинник. Те ж з довжиною треку: пишіть цільову тривалість явно, а не залишайте на стандартне значення.

Крок 5: відрендеріть, потім прослухайте на найгіршому динаміку, що у вас є

Треки, згенеровані AI, мають відомий збій: вони звучать краще в навушниках, ніж заслуговують. Стереополе часто широке, низькі частоти контрольовані, мікс чистий у спосіб, який виявляється штучним лише тоді, коли чуєш це через щось невибачливе.

Після першого рендеру переходьте до динаміку телефону. Або до вбудованого ноутбука. Або, якщо є доступ, до автомобільної стереосистеми з відчиненими вікнами. Ці динаміки руйнують стереополе, виявляють муляку в низьких середніх і поверхню різкість у верхньому середньому діапазоні. Якщо трек все ще звучить як трек — не обов'язково добре, але зв'язно — тоді у вас є щось варте роботи.

Якщо він перетворюється на кашу, це не завжди знак регенерувати. Це знак подивитися на ваші засоби керування стилем. Тег жанру з акцентом на низькі частоти плюс налаштування теплої кімнати плюс повільний BPM часто дасть трек, що не подорожує. Налаштуйте одну змінну, не всі три.

Крок 6: обкладинка, повторний рендер або зупинка

Знати, коли зупинитися — це навичка, яка відокремлює людей, що публікують, від людей, у яких чотириста збережених чернеток і нічого у плейлисті.

Три сигнали, що варіант готовий:

Приспів справді притягує. Ви відчуваєте прибуття до того, як подумаєте про нього. Якщо ви мусите переконувати себе, чому приспів працює — він не працює.
Вокал потрапляє в кишеню. Виконавець звучить так, наче він співає цю пісню, а не демонструє, що може взяти ці ноти. AI-вокал часто надмірно артикулює приголосні — хороший варіант цього не робить.
Не залишилося AI-маркерів, які ви помічаєте при третьому прослуховуванні. Барабанні патерни, занадто метрономно чисті. Переходи акордів без жодних змін гучності. Витримана нота, яка ніколи не дихає. Це маркери. Один часто прийнятний. Три — занадто багато.

Якщо варіант проходить два з трьох, зупиніться і назвіть це чернеткою. Якщо всі три — зупиніться і назвіть це готовим.

Повторний рендер має сенс, коли один конкретний параметр неправильний і ви можете його назвати. «Вокал занадто яскравий для тексту» — це вказівка для повторного рендеру. «Щось відчувається не так» — ні: це проблема прослуховування, а не проблема генерації, і більше варіантів її не виправлять.

Поширені помилки

Надто короткий промпт. Одне речення — не промпт; це тег жанру з оберткою речення. Три речення — мінімум для результату з хоча б якимось характером.
Надто довгий промпт. Вісім речень детального побудови світу дають моделі занадто багато обмежень для одночасного задоволення. Вона усередниться і нічого конкретного не виробить.
Перемикання інструментів під час ітерації. Кожен генератор має різну внутрішню модель, і «той самий промпт» дає структурно різні результати в різних інструментах. Якщо переключитися в середині сесії, ви скидаєте базовий рівень порівняння і втрачаєте історію ітерацій. Оберіть один інструмент на трек і тримайтеся його.
Регенерація з тими самими вхідними даними в очікуванні іншого результату. Варіація в результатах для ідентичних промптів реальна, але обмежена. Якщо три послідовні варіанти однаково неправильні, проблема в промпті, а не у випадковому зерні.
Ігнорування невідповідності вокалу. Тембр, регістр і енергія вокалу, що маються на увазі у вашому тексті, мають збігатися з голосом, який обирає модель. Текст, написаний для хрипкого баритона, у виконанні легкого тенора — помилка кастингу, яку ніяка кількість повторних рендерів не виправить.

Після першого треку, що спрацював

Завантажте стеми, якщо інструмент їх пропонує. Навіть якщо ви не плануєте мікшувати, наявність окремого вокалу та інструменталу означає, що пізніше ви можете перезаписати вокал або передати інструментал живому виконавцю, не починаючи з нуля.

Збережіть промпт точно таким, яким він був, коли спрацював. Не версію, через яку ви ітерували — фінальну версію. Скопіюйте її у файл нотаток, таблицю, будь-куди, де не всередині самого інструменту. Більшість інструментів не зберігають промпти між сесіями у формі, яку можна легко шукати. Музична бібліотека aisonggen автоматично зберігає вашу історію генерацій і промпти, що дали кожен трек, що зменшує, скільки вам потрібно управляти самостійно, але все одно варто зберігати власну копію промптів, що дали ваші найкращі результати.

Записуйте дві речі для кожного треку, що спрацював: комбінацію тегів жанру-настрою, яку ви використали, і будь-яку позиційну фразу, що здалася генеративною. Через десять-п'ятнадцять треків з'являються паттерни — ви знайдете комбінації тегів, що відповідають вашому творчому діапазону, і формулювання, що надійно дають щось варте збереження. Цей журнал цінніший за будь-яке керівництво, включаючи це.

Якщо ви хочете побачити, як інші люди використовують генератор, перш ніж вибудовувати власний робочий процес, сторінка відгуків показує, як реальні користувачі підходять до різних жанрів і сценаріїв використання.

Мета — не генерувати музику. Генерувати музику тепер легко — будь-хто може натиснути кнопку. Мета — писати пісні. Пісні, що мають перспективу, специфічний емоційний центр, структуру, яка заслуговує свого закінчення. AI — це шар продакшну: він обробляє аранжування, мікс, голос. Писати все одно маєте ви. Чим більше цього ви вносите в промпт, тим менше цього ви чуєте як відсутнє в результаті.

Як створювати AI-музику, що не звучить як AI-музика

Визначтеся, яку саме пісню ви хочете

Крок 1: напишіть промпт, що називає позицію, а не текстуру

Крок 2: оберіть генератор, що дозволяє порівнювати варіанти

Крок 3: спочатку напишіть або спільно напишіть текст

Крок 4: обирайте засоби керування стилем із наміром

Крок 5: відрендеріть, потім прослухайте на найгіршому динаміку, що у вас є

Крок 6: обкладинка, повторний рендер або зупинка

Поширені помилки

Після першого треку, що спрацював

Читайте далі

Як зробити AI кавер-версії, що не просто звучать як ремікс

Як використовувати text-to-speech так, щоб він перестав звучати як робот, що читає домашнє завдання

Промпти для написання пісень, які справді рухають трек

Ваш наступний трек — за один безкоштовний промпт