Lyria 2 от Google DeepMind — поистине впечатляющая работа от одной из самых серьёзных команд по аудиоисследованиям на планете. Если вы слышали демо, вы уже знаете: инструментальная точность исключительная — текстурированная, динамически живая, с музыкальностью, которую многие коммерческие генераторы всё ещё не достигли на нижних и средних уровнях аранжировки. Это реально.
Трение — в другом. Доступ к Lyria 2 — это не форма регистрации и кредитная карта: это лист ожидания, интеграция с партнёром или экспериментальная поверхность внутри существующего продукта. Для многих независимых создателей и небольших команд «впечатляет, когда можно добраться» — не рабочий ответ при наличии дедлайна на этой неделе. И даже получив доступ, слой потребительского продукта неравномерен в точках распространения: вывод в форме песни, рабочие процессы с полными текстами и длинная вокальная производительность имеют разную степень зрелости в зависимости от используемой поверхности. Этот разрыв имеет практическое значение.
Эта статья честно рассматривает, что представляет Lyria 2, где она в настоящее время не подходит для повседневной производственной работы, и пять генераторов, сегодня выпускающих полные песни — с явно обозначенными компромиссами.
Что представляет Lyria 2
Lyria 2 строится на линии, начавшейся с MusicLM — знаковой статьи Google начала 2023 года, продемонстрировавшей генерацию музыки по тексту на уровне качества, сигнализировавшем о том, что исследования догнали амбиции. Lyria появилась как основа YouTube Dream Track, где несколько артистов позволили синтезировать свои голоса в короткие клипы. Lyria 2 существенно расширяет модель: более высокое качество семплирования, улучшенные многоязычные возможности и более глубокое понимание инструментальной аранжировки.
Многоязычный аспект заслуживает особого внимания. Многие коммерческие генераторы музыки обучались преимущественно на корпусах на английском языке, поэтому генерация вокала на других языках часто шаткая или стилистически странная. Масштаб и ресурсы данных Google означают, что Lyria 2 обрабатывает более широкий диапазон фонемных наборов и музыкальных традиций с большей достоверностью. Для исследователей, создающих многоязычные аудиопайплайны, это чрезвычайно важно.
Инструментальная генерация — область, где модель, пожалуй, наиболее чётко показывает свой потолок. Плотные оркестровые текстуры, жанрово-точное поведение ритм-секции и микродинамика, делающая продакшен-трек «настоящим», а не синтетическим — это области, где демо Lyria 2 стабильно выступают на уровне или около вершины поля. Если вам нужен тридцатисекундный инструментал для исследовательского прототипа или контролируемого эксперимента, качество вывода сложно критиковать.
Где Lyria 2 ещё не подходит
Ограничения структурные, а не случайные, и их стоит называть чётко, а не замалчивать.
Зрелость потребительского приложения. Нет опыта «зайди на lyria2.google.com, зарегистрируйся, начни генерировать». Маршруты доступа по состоянию на начало 2026 года включают эксперименты с AI Studio, интеграции с партнёрами и устаревшие поверхности Dream Track — ни одна из которых не даёт вам последовательную, многофункциональную среду создания музыки. Если вы строите проект, зависящий от повторяемого доступа к инструменту, модель распространения Lyria 2 вносит риск.
Рабочие процессы с полными текстами. Вывод в форме песни — то есть трек с куплетом, пре-хором, припевом, бриджем и аутро, отображённым на тексты, которые вы реально написали, — менее зрел, чем то, что создали выделенные потребительские продукты, ориентированные на песни. Lyria 2 превосходит в кондиционированной генерации из коротких промптов; она не была разработана прежде всего для выполнения структурированного листа текстов в течение четырёх минут с последовательным характером и энергией. Инструменты, описанные ниже, были специально созданы для этого сценария.
Вокальная производительность в длинной форме. Короткая вокальная генерация — область наибольшей силы модели. Длинные треки склонны показывать большую дисперсию в естественности вокала, тайминге фразировки и расположении дыхания. Коммерческие генераторы, ежедневно обрабатывающие тысячи завершений полных песен, специально настраивались для этого режима отказа. Lyria 2 ещё не имела этого цикла обратной связи.
Предсказуемый доступ и прозрачное ценообразование. Независимому создателю или небольшой студии нужно знать, сколько стоит генерация, будет ли завтра квота и каковы варианты при достижении лимита. Lyria 2 не имеет опубликованного ценового уровня, прямо отвечающего на эти вопросы.
Пять альтернатив, выпускающих песни сегодня
Suno
Suno была среди первых потребительских генераторов, сделавших полные песни — вокал, инструменталы, продакшн — по-настоящему пригодными для использования немузыкантами. Модель v4, в частности, заметно продвинула естественность вокала: произношение чище, вибрато более контролируемое, и эмоциональный контур текста более последовательно передаётся, чем в ранних версиях.
Интерфейс разработан для быстрой итерации. Описываете настроение, вставляете или пишете тексты, выбираете стилевой тег и получаете несколько вариантов менее чем за минуту. Генерация обложки включена, а функции общего доступа зрелые. Для создателей, желающих быстро перейти от идеи к ссылке для общего доступа, скорость итерации Suno сложно превзойти.
Слабость — предсказуемость на конкретных жанровых ограничениях. Если вам нужно что-то, аутентично сидящее в узком поджанре — скажем, классический соул с конкретной гармонизацией меди — вывод может дрейфовать к более усреднённой версии стиля. Модель оптимизирует более широкую привлекательность, а не строгую точность на краях жанра.
Udio
Дифференциация Udio — в детальном слое продакшна. Модель склонна генерировать треки, где микс-решения — размещение ревербератора, ширина стерео, воздушная высокая частота — кажутся более преднамеренными, чем у многих конкурентов. Если вы слушаете вывод на приличных колонках или наушниках и задаётесь вопросом «ощущается ли это реальным треком?», Udio часто выигрывает по этому конкретному вопросу.
Пайплайн «тексты к песне» требует немного больше ручного инженеринга промптов, чем у некоторых генераторов, но контроль, который он даёт взамен, значителен. Можно управлять энергией, тайминием дропа и производственной плотностью через конструкцию промпта способами, ощущающимися как отзывчивые, а не случайные.
Доступ осуществляется по подписке с чётким ценообразованием по уровням. Скорость генерации умеренная — не такая быстрая, как у некоторых, но последовательность вывода, как правило, выше за попытку.
aisonggen
Генератор музыки aisonggen — полноценный потребительский продукт, созданный именно для рабочего процесса, где Lyria 2 оставляет пробел: структурированное создание песен с текстами под вашим контролем, реальный производственный интерфейс и предсказуемый доступ. Умный режим берёт на себя тяжёлую работу, когда у вас грубая идея и вы хотите, чтобы система заполнила жанр, темп и решения аранжировки; режим Tailored даёт прямые контроли, когда вы знаете, что хотите.
Каждый прогон генерации создаёт пять параллельных вариантов, то есть вы сравниваете варианты, а не обязуетесь выбирать один. Lyric Studio — отдельный инструмент в том же продукте для работы с полным текстом до генерации: поддерживает структуру куплет/припев/бридж и включает функции расширения и сжатия для подгонки строк к целевой длине. Генератор обложек обрабатывает произведения искусства без переключения на отдельный сервис. Цены опубликованы чётко, стоимость кредитов за генерацию видна до начала.
Честное замечание: aisonggen обучен в масштабе сосредоточенного коммерческого продукта, а не передовой исследовательской лаборатории с вычислительными ресурсами Google. На верхнем крае вокального натурализма — в момент, когда голос перестаёт звучать сгенерированным и начинает звучать как запись — Suno и Udio иногда всё ещё имеют преимущество по данному промпту, особенно для англоязычного попа и R&B, где эти модели провели наибольшую тонкую настройку. Для большинства жанров и большинства сценариев использования разрыв не слышен для случайного слушателя. Для специалистов, оценивающих абсолютный потолок, стоит напрямую протестировать свой конкретный жанр.
Mureka
Mureka позиционирует себя в профессиональном и смежном с синхронным лицензированием сегменте рынка. Модель обучена с особым вниманием к сценариям коммерческого размещения — треки, которые должны сидеть под диалогом, соответствовать визуальному темпу или избегать частотных столкновений с закадровым голосом. Если вы создаёте музыку для видеоконтента, а не для музыкально-ориентированного прослушивания, вывод Mureka часто более немедленно готов к производству для этого контекста.
Интерфейс более структурирован, чем у потребительских генераторов в первую очередь, что может ощущаться как накладные расходы при желании быстрых результатов, но по-настоящему полезно при создании библиотеки лицензируемых активов. Экспорт стемов — получение отдельных файлов для ударных, баса, мелодии и вокала — это функция, которую Mureka поддерживает на уровне, которого многие конкуренты не предлагают.
Компромисс состоит в том, что вокальная выразительность для чисто музыкально-ориентированного прослушивания менее приоритизирована, чем в Suno или Udio. Модель оптимизирована для чистого, предсказуемого, лицензируемого вывода, а не для эмоциональных пиковых моментов.
Stable Audio
Stable Audio от Stability AI занимает другой философский подход: модель создана с сильным пониманием данных обучения, чистых от авторских прав, что значительно важно для профессиональных сценариев использования, где права на музыку — часть разговора. Если вы создаёте контент для бренда, агентства или платформы с жёсткими политиками аудиолицензирования, линия обучения Stable Audio — значимый дифференциатор.
Текущая версия особенно хорошо обрабатывает инструментальную генерацию — может создавать жанрово-точный продакшн для широкого диапазона электронных и акустических стилей. Полная вокальная генерация с текстами менее зрела, чем инструментальная работа, поэтому Stable Audio наиболее силен, когда вам нужны музыкальные подложки, андерскор или инструменталы, а не полные песни с ведущим вокалом.
Открытая природа весов некоторых моделей Stable Audio также означает, что самостоятельно размещённые или API-интегрированные рабочие процессы являются вариантом для команд с инженерными возможностями, что необычно в этом пространстве.
Как выбирать по вашему дедлайну
- Нужно опубликовать что-то на этой неделе — Suno или aisonggen. У обоих есть мгновенное создание аккаунта, опубликованные цены и они могут создавать треки для общего доступа менее чем за пять минут из промпта. Без листов ожидания, без накладных расходов на интеграцию.
- Можно потратить неделю на оценку — запустите один и тот же промпт через Suno, Udio и aisonggen и прослушайте вывод относительно вашего конкретного жанра и структуры текстов. Правильный ответ варьируется по сценарию использования больше, чем по универсальному рейтингу качества.
- Приоритизация абсолютного вокального натурализма превыше всего — Suno и Udio в настоящее время наиболее сильны по этому параметру для англоязычного попа и основных жанров. Тестируйте оба на вашем конкретном стиле перед принятием обязательств.
- Нужна музыка для видео, бренда или синхронного лицензирования — Mureka или Stable Audio. Оба созданы с учётом рабочих процессов коммерческого размещения и имеют более чёткие ответы на вопросы прав, которые поднимает профессиональное использование.
- Создание более длинного производственного рабочего процесса с текстами, обложками и общим доступом — интегрированный набор инструментов aisonggen (генератор музыки, Lyric Studio, генератор обложек и текст-в-речь) означает меньше переключений контекста во время полной производственной сессии.
Простой план тестирования
- Напишите четырёхстрочный припев в любом жанре, который вам важен. Используйте реальные тексты с конкретной эмоциональной целью — не заполнитель. Это ваш постоянный ввод.
- Запустите через три генератора из вашего шорт-листа. Сохраняйте все другие переменные (описание стиля, намёк на темп) идентичными во всех прогонах.
- Прослушайте в наушниках, не глядя, какой инструмент создал каждый трек. Оцените каждый по: ощущается ли вокал естественным, соответствует ли продакшн жанру, соответствует ли энергия эмоциональному намерению текста.
- Запустите вторую генерацию вашего лучшего исполнителя с немного другим стилевым тегом. Если вывод сдвигается в полезном направлении, модель реагирует на ваши контроли; если она звучит в основном так же, вы нашли её потолок для вашего сценария использования.
- Убедитесь, что ваш выбранный инструмент имеет ценовой уровень и модель использования, соответствующую вашему объёму — стоимость за генерацию, ежемесячные ограничения и что происходит при их превышении, это всё то, что вы хотите подтвердить, прежде чем интегрировать инструмент в серьёзный проект.
Lyria 2, вероятно, будет иметь большее значение как потребительский продукт со временем. У Google достаточно исследовательской глубины и дистрибьюторской инфраструктуры, чтобы закрыть разрывы продуктового слоя. Но «будет иметь значение когда-нибудь» и «правильный инструмент для проекта следующей недели» — разные вопросы, и пять инструментов выше — честный ответ на второй вопрос прямо сейчас. Тестируйте на своём реальном контенте, а не на демо-тестах, и выбирайте тот, который решает вашу конкретную проблему.