Как создавать AI-музыку, которая не звучит как AI-музыка

Сложная часть создания AI-музыки — не нажать кнопку. Сложная часть — знать, что вложить перед нажатием, читать то, что получается, с каким-либо разбором и решать — продолжать или остановиться. Большинство людей, называющих AI-музыку «безликой», не ошибаются — они просто останавливаются слишком рано в процессе или начинают без достаточной ясности о том, что реально пытаются сделать.

Это руководство по процессу, через который я прошёл несколько сотен раз. Оно рассматривает генерацию как итерацию, а не как транзакцию с торговым автоматом. Когда это работает, вывод не звучит как написанный машиной. Когда не получается, знаешь ровно, какое решение пересмотреть.

Реши, какую именно песню ты хочешь

Перед открытием любого инструмента побудь с одним вопросом: внутри чьего опыта живёт эта песня? Не «какой жанр» и не «какой вайб» — это потом. Начни с перспективы, затем с места, затем с эмоционального центра тяжести.

Простая рамка для этого:

[КТО] делает [ЧТО], момент прямо перед [ПОВОРОТНЫМ ПУНКТОМ]. Эмоция в основе — [ОЩУЩЕНИЕ], а не [ПОВЕРХНОСТНОЕ ОЩУЩЕНИЕ]. Держи в одном тональном слове.

Различие между поверхностным ощущением и ощущением в основе — не литературное упражнение, а инструкция генератору. Песня о «скорби» звучит одним образом; песня о специфическом раздражении от неспособности плакать на похоронах звучит как совершенно другая запись. Конкретика проникает в генерацию способами, которыми жанровые теги просто не могут.

Пока ещё думаешь на бумаге, определись с длиной. Двухминутный трек и четырёхминутный требуют разных структурных выборов, и генератор будет дрейфовать без цели. Выбери одну до движения дальше.

Шаг 1: напиши промпт, называющий позу, а не текстуру

Большинство первых промптов описывают звук: «lo-fi-бит, тёплые клавиши, меланхолично». Это описывает ощущение трека для слушателя в трёх шагах от эмоции. Поза описывает, что исполнитель делает своим телом и вниманием.

Сравни эти два варианта:

Текстурный промпт: «Медленный R&B, мягкое фальцето, поздняя ночь, тоска.»
Позный промпт: «Кто-то читает старые сообщения, которые обещал себе удалить. Продолжает читать. Вокал тихий, как будто не хочет, чтобы кто-то услышал.»

Оба указывают на схожий эмоциональный пункт назначения. Позный промпт даёт модели что-то для исполнения. Текстурный промпт даёт ей звуковой референс и ничего больше. Результаты не эквивалентны.

Держи позные промпты до трёх-четырёх предложений. Потолок ниже, чем кажется, — после примерно пяти предложений модель начинает усреднять по инструкциям, а не строить на них.

Шаг 2: выбери генератор, позволяющий сравнивать варианты

Одновариантные генераторы делают итерацию медленной конкретным, раздражающим способом: получаешь результат, он почти правильный, перегенерируешь с крошечным изменением — и новый вариант уходит в совершенно другом направлении, потому что не было общего якоря. Кончаешь гонясь за оригинальным вариантом, который был «почти то», шесть циклов.

Запуск параллельных вариантов решает это. Музыкальный генератор aisonggen рендерит пять вариантов одновременно из одного промпта, так что можно сравнить их рядом до выбора направления. Если два из пяти в нужной территории — уже пропустил большую часть цикла перегенерации.

Справедливая оговорка: пять вариантов стоят больше кредитов, чем один. При очень ограниченном кредитном бюджете запускай два варианта вместо пяти и считай один референсным. Смысл — иметь хотя бы одно сравнение, а не пять.

Шаг 3: напиши или co-напиши тексты сначала

Область текстов генератора — маленькое текстовое поле, и модель, работающая за ним, имеет сильное предпочтение сохранять то, что ты дал ей: оригинальное количество строк, оригинальную схему рифм, даже оригинальный паттерн слогов. Если пишешь тексты в этом поле и потом решаешь добавить бридж, будешь бороться с моделью при каждой перегенерации.

Напиши тексты отдельно перед вставкой. Lyric Studio даёт достаточно пространства, чтобы реально видеть, что пишешь. Можно пересмотреть полный куплет, попробовать другой хук для припева, переместить пре-хорус до того, как он становится структурным — всё до передачи чего-либо генератору.

Тексты-первыми также позволяют проверить одно, что генератор не может: имеет ли текст естественный речевой ритм, который певец реально может исполнить. Прочитай припев вслух. Если спотыкаешься — модель тоже будет.

Если создаёшь текст интерактивно вместе с музыкой — сначала промпт, потом доработка текстов — этот рабочий процесс тоже допустим. Главное, чтобы редактирование текста происходило где-то с реальным пространством для редактирования, а не в текстовом поле генератора.

Шаг 4: выбирай стилевые параметры осознанно

Жанровые теги — семена, а не контракты. «Инди-фолк» не фиксирует вывод в каком-то конкретном производственном стиле — он смещает модель к кластеру звуков, связанных с этим лейблом, что является отправной точкой, а не гарантией. Если хочешь понять, как модель реально интерпретирует эти теги перед принятием обязательств, руководство по жанровым тегам стоит десяти минут твоего времени.

Что реально надёжнее ограничивает вывод:

Настроение, названное точно. «Горько-сладко» и «смиренно» ложатся по-разному даже в рамках одного жанрового тега.
Сцена или окружение. «Пустая парковка в полночь» даёт звукорежиссёру (здесь — модели) визуальный референс для реверберации и пространства.
Пол и регистр вокала. Большинство генераторов принимают явные инструкции здесь, и дефолт не всегда правильный для твоего текста.

Задавай BPM, если знаешь. Не диапазон — число. «Около 90» даёт модели слишком много пространства. «88 BPM» даёт ей часы. То же с длиной трека: пиши целевую продолжительность явно, а не оставляй на дефолт.

Шаг 5: сделай рендер, потом слушай на худшей колонке, которая у тебя есть

У AI-генерируемых треков есть известный провальный режим: на наушниках они звучат лучше, чем заслуживают. Стереополе часто широко, низкие частоты управляемы, микс чист способом, который раскрывает себя как искусственный только на чём-то безжалостном.

После первого рендеринга перейди на телефонный динамик. Или встроенный в ноутбук. Или, если доступно, автомагнитолу с опущенными окнами. Эти колонки схлопывают стереополе, обнажают грязь в низко-средних частотах и поднимают на поверхность резкость в верхних средних. Если трек всё ещё звучит как трек — не обязательно хорошо, но связно — значит, есть что-то, с чем можно работать.

Если разваливается в кашу — это не всегда сигнал к перегенерации. Это сигнал посмотреть на стилевые параметры. Жанровый тег с тяжёлыми низами плюс настройка тёплой комнаты плюс медленный BPM часто дадут трек, который не путешествует. Скорректируй одну переменную, не все три.

Шаг 6: кавер, перерендер или остановка

Знать, когда остановиться — навык, отделяющий тех, кто выпускает, от тех, у кого четыреста сохранённых набросков и ничего в плейлисте.

Три сигнала о том, что вариант готов:

Припев реально тянет. Ощущаешь приход до того, как думаешь о нём. Если приходится убеждать себя, почему припев работает — он не работает.
Вокал сидит в кармане. Певец звучит как поющий эту песню, а не демонстрирующий способность взять эти ноты. AI-вокал часто чрезмерно артикулирует согласные — хороший вариант этого не делает.
После третьего прослушивания больше нет AI-следов, на которые обращаешь внимание. Барабанные паттерны слишком метрономически чистые. Смены аккордов без вариации динамики. Выдержанная нота, которая никогда не дышит. Это следы. Один часто приемлем. Три — слишком много.

Если вариант проходит два из трёх — останови и назови черновиком. Если все три — останови и назови готовым.

Перерендер имеет смысл, когда один конкретный параметр неправильный и можно его назвать. «Вокал слишком яркий для текста» — инструкция к перерендерингу. «Что-то ощущается не так» — нет: это проблема прослушивания, а не генерации, и больше вариантов не исправят её.

Типичные ошибки

Промпт слишком короткий. Одно предложение — не промпт, а жанровый тег в обёртке предложения. Три предложения — минимум для результата с каким-либо характером.
Промпт слишком длинный. Восемь предложений детального мирострого даёт модели слишком много ограничений для одновременного выполнения. Она усредняет их и производит ничего конкретного.
Смена инструментов в середине итерации. Каждый генератор имеет разную внутреннюю модель, и «тот же промпт» даёт структурно разные результаты в разных инструментах. При смене в середине сессии сбрасываешь базу сравнения и теряешь историю итерации. Выбери один инструмент на трек и придерживайся его.
Перегенерация с теми же входными данными и ожидание другого результата. Вариативность выводов для идентичных промптов реальна, но ограничена. Если три последовательных варианта неправильны в одном и том же — проблема в промпте, а не в случайном зерне.
Игнорирование несоответствия вокала. Тембр вокала, регистр и энергия, подразумеваемые твоим текстом, должны согласовываться с голосом, который выбирает модель. Текст, написанный для хриплого баритона, поданный лёгким тенором — ошибка кастинга, и никакой перерендеринг не исправит кастинг.

После первого работающего трека

Скачай стемы, если инструмент предлагает. Даже без планов на сведение — наличие вокала и инструментала по отдельности позволяет позже переозвучить или передать инструментал реальному певцу без начала с нуля.

Сохрани промпт точно таким, каким он был, когда сработал. Не версию, через которую итерировал, — финальную версию. Скопируй в файл заметок, таблицу, куда угодно, кроме самого инструмента. Большинство инструментов не сохраняют промпты между сессиями в форме, по которой легко искать. Музыкальная библиотека aisonggen автосохраняет историю генерации и промпты, создавшие каждый трек, что уменьшает необходимость управлять этим самостоятельно, но всё равно стоит хранить собственную копию промптов, давших лучшие результаты.

Записывай для каждого работающего трека два параметра: использованную комбинацию жанр-настроение и любую позную фразу, ощущавшуюся продуктивной. Через десять-пятнадцать треков проявятся паттерны — найдёшь комбинации тегов, вписывающиеся в твой творческий диапазон, и формулировки, надёжно дающие что-то стоящее хранения. Этот журнал ценнее любого руководства, включая это.

Если хочешь увидеть, как другие используют генератор до принятия обязательств по собственному рабочему процессу, страница отзывов показывает, как реальные пользователи подходят к разным жанрам и сценариям.

Цель — не генерировать музыку. Генерация музыки теперь лёгкая часть — любой может нажать кнопку. Цель — писать песни. Песни с перспективой, конкретным эмоциональным центром, структурой, заслуживающей своего финала. AI — производственный слой: он обрабатывает аранжировку, микс, голос. Написание по-прежнему нужно делать тебе. Чем больше ты его вносишь в промпт, тем меньше слышишь его отсутствия в выводе.

Как создавать AI-музыку, которая не звучит как AI-музыка

Реши, какую именно песню ты хочешь

Шаг 1: напиши промпт, называющий позу, а не текстуру

Шаг 2: выбери генератор, позволяющий сравнивать варианты

Шаг 3: напиши или co-напиши тексты сначала

Шаг 4: выбирай стилевые параметры осознанно

Шаг 5: сделай рендер, потом слушай на худшей колонке, которая у тебя есть

Шаг 6: кавер, перерендер или остановка

Типичные ошибки

После первого работающего трека

Читать дальше

Как делать AI-кавер-версии, которые не просто звучат как ремикс

Как использовать синтез речи, чтобы он перестал звучать как робот, читающий домашнее задание

Промпты для сонграйтинга, которые реально двигают трек

Ваш следующий трек — в одном бесплатном промпте