AISongGen logoAISongGen

Les millors alternatives a Lyria 2 — cinc eines quan necessites un producte, no una demostració de recerca

Lyria 2 és una recerca impressionant, però l'accés i la sortida en forma de cançó són irregulars. Cinc generadors que avui lliuren cançons completes, amb les compensacions explicitades.

7 min de lectura

Lyria 2 de Google DeepMind és un treball genuïnament impressionant provinent d'un dels equips de recerca d'àudio més seriosos del planeta. Si has sentit les demostracions, ja saps que la fidelitat instrumental és excepcional —texturada, dinàmicament viva, amb una musicalitat que molts generadors comercials encara no han igualat en els nivells baixos i mitjans de l'arranjament. Això és real.

La fricció és en un altre lloc. L'accés a Lyria 2 no és un formulari d'inscripció i una targeta de crèdit —és una llista d'espera, una integració de soci o una superfície experimental dins d'un producte existent. Per a molts creadors autònoms i equips petits, «impressionant quan hi pots accedir» no és una resposta practicable quan tens un termini aquesta setmana. I fins i tot quan aconsegueixes accés, la capa de producte orientada al consumidor és irregular entre els punts de distribució: la sortida en forma de cançó, els fluxos de treball de lletra completa i l'actuació vocal de llarga durada tenen diferents nivells de maduresa depenent de la superfície que uses. Aquella bretxa importa en la pràctica.

Aquest article examina honestament el que representa Lyria 2, on es queda curta actualment per al treball de producció quotidià, i cinc generadors que avui lliuren cançons completes —amb les compensacions explicitades.

El que representa Lyria 2

Lyria 2 construeix sobre un llinatge que va començar amb MusicLM, l'article de referència de Google a principis de 2023 que va demostrar la generació de música condicionada per text a un nivell de qualitat que indicava que la recerca havia assolit l'ambició. El propi Lyria va arribar primer com a columna vertebral que alimentava l'experiment Dream Track de YouTube, on uns quants artistes van deixar que les seves veus fossin sintetitzades en clips curts. Lyria 2 amplia el model substancialment: qualitat de mostra superior, millor capacitat multilingüe i una comprensió més sòlida de l'arranjament instrumental.

L'angle multilingüe val la pena esmentar-lo específicament. Molts generadors de música comercials es van entrenar predominantment en corpus en anglès, de manera que la generació vocal en altres idiomes sovint és inestable o estilísticament estranya. L'escala i els recursos de dades de Google signifiquen que Lyria 2 gestiona una gamma més àmplia de conjunts de fonemes i tradicions musicals amb més credibilitat. Per als investigadors que construeixen pipelines d'àudio multilingüe, això importa enormement.

La generació instrumental és on el model demostra el seu sostre de manera més clara. Textures orquestrals denses, comportament de secció rítmica precís en gènere i microdinàmiques que fan que una pista produïda se senti «real» en lloc de sintètica —aquestes són àrees on les demostracions de Lyria 2 consistentment renden al nivell superior o proper a ell. Si necessites trenta segons d'instrumental per a un prototip de recerca o un experiment controlat, és difícil trobar defectes en la qualitat de sortida.

On Lyria 2 encara no és l'opció adequada

Les limitacions són estructurals, no incidentals, i val la pena denominar-les clarament en lloc de glossar-les.

Maduresa de l'aplicació orientada al consumidor. No hi ha cap experiència de «vés a lyria2.google.com, registra't, comença a generar». Les rutes d'accés a principis de 2026 inclouen experiments d'AI Studio, integracions de socis i superfícies legacy de Dream Track —cap de les quals et dona un entorn de creació musical consistent i amb totes les funcions. Si estàs construint un projecte que depèn d'un accés repetible a una eina, el model de distribució de Lyria 2 introdueix risc.

Fluxos de treball de lletra completa. La sortida en forma de cançó —és a dir, una pista amb vers, pre-estribillo, estribillo, pont i outro mapeats a la lletra que realment has escrit— és menys madura que el que els productes comercials centrats en cançons han construït. Lyria 2 excel·leix en la generació condicionada a partir de prompts curts; no va ser principalment dissenyada per executar un full de lletra estructurada en quatre minuts amb caràcter i energia consistents. Les eines descrites a continuació van ser construïdes específicament per a aquell cas d'ús.

Actuació vocal en format llarg. La generació vocal de format curt és on el model és més fort. Les pistes de llarga durada tendeixen a mostrar una major variança en la naturalitat vocal, el tempo de fraseig i la col·locació de la respiració. Els generadors comercials que executen milers de cançons completes diàriament han ajustat específicament per a aquest mode de fallada. Lyria 2 encara no ha tingut aquell bucle de retroalimentació.

Accés predictible i preus transparents. Un creador autònom o un estudi petit necessita saber el cost d'una generació, si tindrà quota demà i quines opcions té quan arriba a un límit. Lyria 2 no té un nivell de preus publicat que respongui a aquestes preguntes de manera directa.

Cinc alternatives que avui lliuren cançons

Suno

Suno va ser entre els primers generadors de qualitat de consumidor que van fer que les cançons completes —vocals, instrumentació, producció— se sentissin genuïnament utilitzables per part de no músics. El model v4 en particular va avançar notablement en la naturalitat vocal: la pronunciació és més neta, el vibrato és més controlat i el contorn emocional d'una lletra tendeix a aterrar de manera més consistent que les versions anteriors.

La interfície està dissenyada al voltant de la iteració ràpida. Describes un estat d'ànim, enganxes o escrius lletra, tries una etiqueta d'estil i obtens múltiples finalitzacions en menys d'un minut. La generació d'il·lustracions de portada està inclosa, i les funcions de compartició són madures. Per als creadors que volen passar ràpidament d'una idea a un enllaç per compartir, la velocitat d'iteració de Suno és difícil de superar.

El punt feble és la predictibilitat en restriccions de gènere específiques. Si necessites alguna cosa que s'assenti autènticament en un subgènere estret —digues, soul clàssic amb una vocalització de metall específica— la sortida pot derivar cap a una versió més promig de l'estil. El model s'optimitza per a l'atractiu ampli més que per a la precisió estricta als límits d'un gènere.

Udio

La diferenciació d'Udio es troba a la capa de detall de la producció. El model tendeix a generar pistes on les decisions de barreja —col·locació de la reverberació, amplada estèreo, aire d'alta freqüència— se senten més intencionals que les de molts competidors. Si estàs escoltant la sortida en altaveus o auriculars decents i preguntes «se sent com una pista real?», Udio sovint guanya en aquella pregunta específica.

El pipeline de lletra a cançó requereix una mica més d'enginyeria manual de prompts que alguns generadors, però el control que et dóna a canvi és significatiu. Pots dirigir l'energia, el timing del drop i la densitat de la producció a través de la construcció de prompts de maneres que se senten receptives en lloc d'aleatòries.

L'accés està disponible via subscripció amb preus de nivell clars. La velocitat de generació és moderada —no tan ràpida com algunes, però la consistència de sortida tendeix a ser superior per intent.

aisonggen

El generador de música d'aisonggen és un producte complet de consumidor construït exactament per al flux de treball on Lyria 2 deixa una bretxa: creació estructurada de cançons amb lletra que controles, una interfície de producció real i accés predictible. El mode intel·ligent s'encarrega de la feina pesada quan tens una idea aproximada i vols que el sistema ompli les decisions de gènere, tempo i arranjament; el mode personalitzat et dona controls directes quan saps el que vols.

Cada execució de generació produeix cinc variants en paral·lel, cosa que significa que compares opcions en lloc de comprometre't amb una sola sortida. L'Estudi de Lletra és una eina separada dins del mateix producte per treballar una lletra completa abans de la generació —admet l'estructura vers/estribillo/pont i inclou una funció d'Ampliar i Condensar per ajustar les línies a una longitud objectiu. El generador de portades gestiona les il·lustracions sense canviar a un servei separat. Els preus es publiquen clarament amb els costos de crèdit per generació visibles abans de començar.

La nota honesta: aisonggen s'entrena a l'escala d'un producte comercial centrat, no d'un laboratori de recerca de frontera amb els recursos de càlcul de Google. A l'extrem superior del naturalisme vocal —el moment en que una veu deixa de sonar generada i comença a sonar com una gravació— Suno i Udio de vegades continuen portant avantatge en un prompt donat, particularment per al pop i R&B en anglès on aquells models han fet el major ajustament fi. Per a la majoria de gèneres i la majoria de casos d'ús, la bretxa no és audible per a un oient casual. Per als especialistes que avaluen el sostre absolut, val la pena provar el teu gènere específic directament.

Mureka

Mureka es posiciona en el segment professional i de llicències de sincronització del mercat. El model s'entrena amb particular atenció als casos d'ús de col·locació comercial —pistes on la composició ha d'asseure's sota el diàleg, coincideix amb un tempo visual, o evita els xocs de freqüència amb la veu en off. Si estàs creant música per a contingut de vídeo en lloc d'escolta centrada en la música, la sortida de Mureka sovint és més immediatament llesta per a la producció en aquell context.

La interfície és més estructurada que els generadors de primer el consumidor, cosa que pot semblar una sobrecàrrega si vols resultats ràpids però és genuïnament útil si estàs construint una biblioteca d'actius que es poden llicenciar. L'exportació de pistes separades —obtenir fitxers separats per a bateria, baix, melodia i vocals— és una funció que Mureka admet i que molts competidors no ofereixen al mateix nivell.

La compensació és que l'expressivitat vocal per a l'escolta centrada purament en la música és menys prioritzada que a Suno o Udio. El model s'optimitza per a una sortida neta, predictible i que es pot llicenciar en lloc dels moments de pic emocional.

Stable Audio

Stable Audio, de Stability AI, adopta un enfocament filosòfic diferent: el model es construeix amb una forta consciència de les dades d'entrenament netes de drets d'autor, cosa que importa significativament per als casos d'ús professional on els drets de la música formen part de la conversa. Si estàs creant contingut per a una marca, una agència o una plataforma amb polítiques estrictes de llicències d'àudio, el llinatge d'entrenament de Stable Audio és un diferenciador significatiu.

La versió actual gestiona la generació instrumental particularment bé —pot produir producció precisa en gènere per a una àmplia gamma d'estils electrònics i acústics. La generació vocal completa amb lletra és menys madura que el treball instrumental, de manera que Stable Audio és més fort quan necessites llit de música, música de fons o instrumentals en lloc de cançons completes amb vocals principals.

La naturalesa de pesos oberts d'alguns models de Stable Audio també significa que els fluxos de treball allotjats per si mateixos o integrats per API són una opció per als equips amb capacitat d'enginyeria, cosa que és inusual en aquest espai.

Com triar per línia de temps

  • Necessites publicar alguna cosa aquesta setmana — Suno o aisonggen. Tots dos tenen creació de compte instantani, preus publicats i poden produir pistes per compartir en menys de cinc minuts a partir d'un prompt. Sense llistes d'espera, sense sobrecàrrega d'integració.
  • Pots passar una setmana avaluant — executa el mateix prompt a través de Suno, Udio i aisonggen i escolta la sortida respecte al teu gènere específic i estructura lírica. La resposta correcta varia més per cas d'ús que per una classificació de qualitat universal.
  • Prioritzant el naturalisme vocal absolut per sobre de tot — Suno i Udio són actualment els més forts en aquesta dimensió per al pop en anglès i els gèneres principals. Prova tots dos en el teu estil específic abans de comprometre't.
  • Necessites música per a vídeo, marca o llicències de sincronització — Mureka o Stable Audio. Tots dos estan construïts amb fluxos de treball de col·locació comercial en ment i tenen respostes més netes a les qüestions de drets que planteja l'ús professional.
  • Construint un flux de treball de producció més llarg amb lletra, portades i compartició — el conjunt d'eines integrat d'aisonggen (generador de música, Estudi de Lletra, generador de portades i text a veu) significa menys canvis de context durant una sessió de producció completa.

Un pla de prova senzill

  1. Escriu un estribillo de quatre línies en qualsevol gènere que t'importi. Usa lletra real amb un objectiu emocional específic —no un text de substitució. Aquesta és la teva entrada consistent.
  2. Executa-la a través de tres generadors de la teva llista curta. Mantén totes les altres variables (descripció d'estil, suggeriment de tempo) idèntiques entre les execucions.
  3. Escolta amb auriculars sense mirar quina eina ha produït cada pista. Puntua cada una sobre: la veu se sent natural, la producció encaixa en el gènere, l'energia coincideix amb la intenció emocional de la lletra.
  4. Executa una segona generació del teu intèrpret millor amb una etiqueta d'estil lleugerament diferent. Si la sortida es desplaça en una direcció útil, el model és receptiu als teus controls; si sona bàsicament igual, has trobat el seu sostre per al teu cas d'ús.
  5. Comprova que l'eina triada té un nivell de preus i un model d'ús que s'adeqüa al teu volum —el cost per generació, els límits mensuals i el que passa quan els superes són tots coses que vols confirmades abans d'integrar una eina en un projecte seriós.

Lyria 2 probablement importarà més com a producte de consumidor amb el temps. Google té la profunditat de recerca i la infraestructura de distribució per tancar les bretxes de la capa de producte. Però «importarà eventualment» i «és l'eina adequada per al projecte de la setmana vinent» són preguntes diferents, i les cinc eines anteriors són la resposta honesta a la segona ara mateix. Prova el teu contingut real, no les demostracions de referència, i tria la que resol el teu problema específic.

La teva pròxima cançó és a un prompt gratuït

Obre l'estudi, escriu l'ambient i sent una cançó acabada en 30 segons. Comença gratis, publica lliure de royalties i sense targeta de crèdit.