Lyria 2 do Google DeepMind é um trabalho genuinamente impressionante de uma das equipes de pesquisa de áudio mais sérias do planeta. Se você ouviu demonstrações, já sabe que a fidelidade instrumental é excepcional — texturizada, dinamicamente viva, com uma musicalidade que muitos geradores comerciais ainda não alcançaram nas camadas baixas e médias de arranjo. Isso é real.
O atrito está em outro lugar. O acesso ao Lyria 2 não é um formulário de cadastro e um cartão de crédito — é uma lista de espera, uma integração de parceiros ou uma superfície experimental dentro de um produto existente. Para muitos criadores solo e pequenas equipes, "impressionante quando você consegue acessar" não é uma resposta viável quando você tem um prazo nesta semana. E mesmo quando você obtém acesso, a camada de produto voltada ao consumidor é inconsistente entre os pontos de distribuição: saída em forma de música, fluxos de trabalho com letra completa e performance vocal de longa duração têm diferentes níveis de maturidade dependendo de qual superfície você está usando. Essa lacuna importa na prática.
Este artigo analisa honestamente o que o Lyria 2 representa, onde ele atualmente fica aquém para o trabalho de produção cotidiano, e cinco geradores que entregam músicas completas agora — com as trocas tornadas explícitas.
O que o Lyria 2 representa
Lyria 2 se baseia em uma linhagem que começou com MusicLM, o artigo marcante do Google de início de 2023 que demonstrou geração de música condicionada por texto em um nível de qualidade que sinalizou que a pesquisa havia alcançado a ambição. O próprio Lyria estreou primeiro como o núcleo que alimentava o experimento Dream Track do YouTube, onde um punhado de artistas deixou suas vozes serem sintetizadas em clipes curtos. Lyria 2 estende o modelo substancialmente: maior qualidade de amostra, melhor capacidade multilíngue e uma compreensão mais forte de arranjo instrumental.
O ângulo multilíngue vale ser notado especificamente. Muitos geradores musicais comerciais foram treinados predominantemente em corpus em inglês, então a geração vocal em outros idiomas frequentemente é instável ou estilisticamente estranha. A escala e os recursos de dados do Google significam que o Lyria 2 lida com uma gama mais ampla de conjuntos de fonemas e tradições musicais com mais credibilidade. Para pesquisadores construindo pipelines de áudio multilíngues, isso importa enormemente.
A geração instrumental é onde o modelo possivelmente mostra seu teto mais claramente. Texturas orquestrais densas, comportamento da seção rítmica preciso por gênero e micro-dinâmicas que fazem uma faixa produzida parecer "real" em vez de sintética — estas são áreas onde as demonstrações do Lyria 2 consistentemente performam no topo ou próximo do topo do campo. Se você precisa de um instrumental de trinta segundos para um protótipo de pesquisa ou um experimento controlado, é difícil criticar a qualidade da saída.
Onde o Lyria 2 ainda não é adequado
As limitações são estruturais, não incidentais, e vale nomeá-las claramente em vez de glossar sobre elas.
Maturidade do aplicativo voltado ao consumidor. Não há experiência de "vá para lyria2.google.com, cadastre-se, comece a gerar". As rotas de acesso no início de 2026 incluem experimentos do AI Studio, integrações de parceiros e superfícies legadas do Dream Track — nenhuma das quais oferece um ambiente de criação musical consistente e completo. Se você está construindo um projeto que depende de acesso repetível a uma ferramenta, o modelo de distribuição do Lyria 2 introduz risco.
Fluxos de trabalho com letra completa. A saída em forma de música — uma faixa com estrofe, pré-refrão, refrão, ponte e saída mapeados para letras que você realmente escreveu — é menos madura do que o que produtos comerciais focados em músicas construíram. O Lyria 2 se destaca na geração condicionada a partir de prompts curtos; não foi projetado principalmente para executar uma folha de letra estruturada em quatro minutos com caráter e energia consistentes. As ferramentas descritas abaixo foram construídas especificamente para esse caso de uso.
Performance vocal em longa duração. A geração vocal de curta duração é onde o modelo é mais forte. As faixas de longa duração tendem a mostrar mais variância na naturalidade vocal, no tempo de fraseado e no posicionamento das respirações. Os geradores comerciais que executam milhares de completações de músicas completas diariamente ajustaram especificamente para esse modo de falha. O Lyria 2 ainda não teve esse loop de feedback.
Acesso previsível e preço transparente. Um criador solo ou pequeno estúdio precisa saber o que uma geração custa, se terá cota amanhã e quais são suas opções quando atinge um limite. O Lyria 2 não tem um nível de preço publicado que responda a essas perguntas de forma direta.
Cinco alternativas que entregam músicas hoje
Suno
Suno estava entre os primeiros geradores de nível consumidor a tornar músicas completas — vocais, instrumentação, produção — genuinamente utilizáveis por não músicos. O modelo v4 em particular impulsionou a naturalidade vocal visivelmente para frente: a pronúncia é mais limpa, o vibrato é mais controlado, e o contorno emocional de uma letra tende a aterrissar de forma mais consistente do que versões anteriores.
A interface é projetada em torno de iteração rápida. Você descreve um humor, cola ou escreve letra, escolhe uma tag de estilo e obtém múltiplas completações em menos de um minuto. A geração de arte de capa está incluída, e os recursos de compartilhamento são maduros. Para criadores que querem passar rapidamente de ideia a um link compartilhável, a velocidade de iteração do Suno é difícil de superar.
A fraqueza é a previsibilidade em restrições específicas de gênero. Se você precisa de algo que se encaixe autenticamente em um subgênero estreito — digamos, soul clássico com uma voz de metais específica — a saída pode derivar para uma versão mais média do estilo. O modelo otimiza para amplo apelo mais do que para precisão estrita nas margens de um gênero.
Udio
A diferenciação do Udio está na camada de detalhes da produção. O modelo tende a gerar faixas onde as decisões de mixagem — posicionamento de reverberação, largura estéreo, ar de alta frequência — parecem mais intencionais do que muitos concorrentes. Se você está ouvindo a saída em bons alto-falantes ou fones de ouvido e perguntando "isso parece uma faixa real?", o Udio frequentemente vence nessa pergunta específica.
O pipeline de letra para música requer um pouco mais de engenharia de prompt manual do que alguns geradores, mas o controle que oferece em troca é significativo. Você pode direcionar a energia, o tempo do drop e a densidade de produção por meio da construção do prompt de maneiras que parecem responsivas em vez de aleatórias.
O acesso está disponível via assinatura com preços claros por nível. A velocidade de geração é moderada — não tão rápida quanto alguns, mas a consistência da saída tende a ser mais alta por tentativa.
aisonggen
O gerador de música do aisonggen é um produto de consumo completo construído exatamente para o fluxo de trabalho onde o Lyria 2 deixa uma lacuna: criação de música estruturada com letras que você controla, uma interface de produção real e acesso previsível. O modo inteligente cuida do trabalho pesado quando você tem uma ideia aproximada e quer que o sistema preencha decisões de gênero, andamento e arranjo; o modo personalizado oferece controles diretos quando você sabe o que quer.
Cada execução de geração produz cinco variantes paralelas, o que significa que você está comparando opções em vez de se comprometer com uma única saída. O Lyric Studio é uma ferramenta separada dentro do mesmo produto para trabalhar com uma letra completa antes da geração — suporta estrutura de verso/refrão/ponte e inclui uma função Expandir e Condensar para ajustar linhas a um comprimento alvo. O gerador de capa cuida da arte sem mudar para um serviço separado. O preço é publicado de forma clara com custos de crédito por geração visíveis antes de você começar.
A nota honesta: o aisonggen é treinado na escala de um produto comercial focado, não de um laboratório de pesquisa de fronteira com os recursos de computação do Google. Na borda superior do naturalismo vocal — o momento em que uma voz para de soar gerada e começa a soar como uma gravação — Suno e Udio às vezes ainda têm a vantagem em um determinado prompt, particularmente para pop e R&B em inglês, onde esses modelos fizeram o maior ajuste fino. Para a maioria dos gêneros e a maioria dos casos de uso, a lacuna não é audível para um ouvinte casual. Para especialistas avaliando o teto absoluto, vale a pena testar seu gênero específico diretamente.
Mureka
Mureka se posiciona no segmento de licenciamento profissional e de sincronização do mercado. O modelo é treinado com atenção especial aos casos de uso de licenciamento comercial — faixas onde a composição precisa ficar abaixo do diálogo, corresponder a um ritmo visual ou evitar choques de frequência com narração. Se você está criando música para conteúdo de vídeo em vez de escuta prioritariamente musical, a saída do Mureka é frequentemente mais imediatamente pronta para produção nesse contexto.
A interface é mais estruturada do que geradores de primeiro consumidor, o que pode parecer sobrecarga se você quiser resultados rápidos, mas é genuinamente útil se você está construindo uma biblioteca de ativos licenciáveis. A exportação de stems — obter arquivos separados para bateria, baixo, melodia e vocais — é um recurso que o Mureka suporta que muitos concorrentes não oferecem no mesmo nível.
A troca é que a expressividade vocal para escuta puramente musical é menos priorizada do que em Suno ou Udio. O modelo é otimizado para saída limpa, previsível e licenciável em vez de momentos de pico emocional.
Stable Audio
Stable Audio, da Stability AI, adota uma abordagem filosófica diferente: o modelo é construído com forte consciência dos dados de treinamento livres de direitos autorais, o que importa significativamente para casos de uso profissionais onde os direitos musicais fazem parte da conversa. Se você está criando conteúdo para uma marca, uma agência ou uma plataforma com políticas rígidas de licenciamento de áudio, a linhagem de treinamento do Stable Audio é um diferenciador significativo.
A versão atual lida particularmente bem com a geração instrumental — pode produzir produção precisa de gênero para uma ampla gama de estilos eletrônicos e acústicos. A geração vocal completa com letra é menos madura do que o trabalho instrumental, então o Stable Audio é mais forte quando você precisa de leitos musicais, sublinhado ou instrumentais em vez de músicas completas com vocais principais.
A natureza de pesos abertos de alguns modelos do Stable Audio também significa que fluxos de trabalho auto-hospedados ou integrados via API são uma opção para equipes com capacidade de engenharia, o que é incomum neste espaço.
Como escolher pelo seu cronograma
- Precisa publicar algo nesta semana — Suno ou aisonggen. Ambos têm criação de conta instantânea, preço publicado e podem produzir faixas compartilháveis em menos de cinco minutos a partir de um prompt. Sem listas de espera, sem sobrecarga de integração.
- Pode passar uma semana avaliando — execute o mesmo prompt pelo Suno, Udio e aisonggen e ouça a saída contra seu gênero específico e estrutura de letra. A resposta certa varia mais por caso de uso do que por uma classificação de qualidade universal.
- Priorizando naturalismo vocal absoluto acima de tudo — Suno e Udio são atualmente os mais fortes nessa dimensão para pop em inglês e gêneros mainstream. Teste ambos no seu estilo específico antes de se comprometer.
- Precisa de música para vídeo, marca ou licenciamento de sincronização — Mureka ou Stable Audio. Ambos são construídos com fluxos de trabalho de licenciamento comercial em mente e têm respostas mais claras para as questões de direitos que o uso profissional levanta.
- Construindo um fluxo de trabalho de produção mais longo com letras, capas e compartilhamento — o conjunto de ferramentas integradas do aisonggen (gerador de música, Lyric Studio, gerador de capa e texto para fala) significa menos trocas de contexto durante uma sessão de produção completa.
Um plano de teste simples
- Escreva um refrão de quatro linhas em qualquer gênero que você se importa. Use letras reais com um alvo emocional específico — não um espaço reservado. Esta é a sua entrada consistente.
- Execute-o por três geradores da sua lista de opções. Mantenha todas as outras variáveis (descrição de estilo, dica de andamento) idênticas entre as execuções.
- Ouça com fones de ouvido sem olhar qual ferramenta produziu cada faixa. Pontue cada uma em: o vocal parece natural, a produção se encaixa no gênero, a energia corresponde à intenção emocional da letra.
- Execute uma segunda geração do seu melhor desempenho com uma tag de estilo levemente diferente. Se a saída mudar em uma direção útil, o modelo responde aos seus controles; se parecer basicamente igual, você encontrou seu teto para o seu caso de uso.
- Verifique se a ferramenta escolhida tem um nível de preço e modelo de uso que se encaixa no seu volume — custo por geração, limites mensais e o que acontece quando você os excede são todos itens que você quer confirmados antes de integrar uma ferramenta em um projeto sério.
Lyria 2 provavelmente importará mais como produto de consumo ao longo do tempo. O Google tem a profundidade de pesquisa e a infraestrutura de distribuição para fechar as lacunas da camada de produto. Mas "vai importar eventualmente" e "é a ferramenta certa para o projeto da próxima semana" são perguntas diferentes, e as cinco ferramentas acima são a resposta honesta para a segunda agora. Teste contra o seu conteúdo real, não demonstrações de benchmark, e escolha aquela que resolve o seu problema específico.