Obre Riffusion, escriu un prompt com «jazz lo-fi amb pluja i trompeta llunyana», prem generar, i surt alguna cosa genuïnament interessant. Una textura humida i difuminada que sona com si s'hagués gravat en un lavabo de cafè el 1973. La reprodueixes dues vegades, assentint, i llavors t'adones: dura 28 segons, no hi ha vers ni estribillo i no tens idea de si pots posar-la en un projecte comercial. Aquell és l'experiència de Riffusion en un paràgraf.
Res d'això és una crítica al que el projecte es va proposar fer. Riffusion va començar com un experiment de codi obert —generant àudio executant la difusió sobre imatges d'espectrograma, tractant el so com un problema d'espai latent visual. Era genuïnament nou. Però «genuïnament nou» i «eina que puc usar per acabar una cançó avui» són requisits diferents. Si necessites una pista de quatre minuts amb una estructura adequada, vocals intel·ligibles i una llicència clara, Riffusion no és el punt de partida adequat. Aquest article cobreix cinc alternatives que sí que ho són, i explica com triar entre elles.
El que Riffusion fa genuïnament bé
Abans de repassar les alternatives, val la pena ser precís sobre on Riffusion ainda guanya un lloc en un flux de treball.
La textura i l'atmosfera són les seves sortides més fortes. Si necessites un llit ambient, un brunzit industrial o alguna cosa que soni com dos gèneres col·lisionant en ple vol, la generació basada en espectrograma de Riffusion pot produir resultats que semblen menys «pop d'IA polit» i més «gravació de camp més síntesi». Aquell és un diferenciador real per als dissenyadors de so, editors de tràilers i productors experimentals.
Els bucles curts és on brillen estructuralment. Quan no necessites una cançó —necessites un bucle de vuit compassos per asseure's sota una veu en off, o una textura per posar en capes darrere d'una introducció de podcast— la longitud de la sortida deixa de ser una restricció i es converteix en una característica. Els clips són prou curts per inspeccionar-los ràpidament i rebutjar-los sense molt cost.
Les mescles de gènere que serien incòmodes en un generador més estructurat són rutinàries a Riffusion. «Bossa nova però a través d'un casset trencat» no és un prompt estrany allà. L'enfocament de difusió del model produeix mescles que els generadors entrenats per a vocals de vegades simplifica en excés en una etiqueta de gènere o l'altra.
On Riffusion queda curta
La bretxa apareix en el moment que vols una cançó en lloc d'una textura.
L'estructura de cançó completa és la restricció més òbvia. Els clips de Riffusion no segueixen de manera fiable l'arquitectura vers-estribillo-pont. Obtens fragments de sensació, no cançons amb arcs dramàtics. Estendre clips usant les funcions de bucle de l'eina ajuda una mica, però les transicions entre seccions rarament aterren amb el tipus de canvi dinàmic que fa que un oient senti que la cançó es mou.
La coherència vocal es degrada ràpidament. Riffusion pot generar alguna cosa que sembla aproximadament com el cant, però els fonemes sovint estan borrosos o ficticis. No pots controlar una línia de melodia, un ganxo líric o fins i tot si els vocals es mantenen en to durant un clip de 90 segons. Per a qualsevol projecte on la lletra importa —rap, pop, R&B, cantautor— això és descalificador per si sol.
La longitud és un sostre ferm. La plataforma no genera pistes de quatre minuts de manera nativa. Existeixen solucions alternatives, però requereixen costura manual i introdueixen costures audibles que minven el resultat final.
El control de prompts és vague per disseny. L'enfocament de l'espectrograma és inherentment menys fidel als prompts que els models entrenats més directament sobre metadades i estructura de cançons. Pots coaccionar una direcció però rarament especificar-ne una. Això fa que la iteració sigui lenta: estàs reduint un espai de probabilitat en lloc d'ajustar un paràmetre.
L'exportació de pistes separades no està disponible. No pots extreure la capa vocal de l'instrumental, cosa que importa si vols remesclar, tornar a afinar o simplement usar la base sola.
La llicència d'ús comercial ha estat històricament poc clara. Els orígens de codi obert i els termes del producte allotjat no es resolen òbviament en «pots monetitzar això». Per a l'ús professional, aquella ambigüitat té un cost real.
Cinc alternatives que gestionen la feina de cançó completa
Suno
Suno és el punt de referència per a cançons generades per IA amb estructura real. Produeix pistes que segueixen les formes de cançó de pop i hip-hop recognoscibles —intro, vers, estribillo, pont, outro— amb vocals que frasegen melòdicament i es mantenen aproximadament en to. La integració de lletra és la més forta d'aquesta categoria: el que escrius al prompt aterra a l'àudio de forma recognoscible.
El seu punt feble és la uniformitat a escala. Les sortides de Suno tendeixen a sonar com Suno. La paleta tonal, el perfil de la reverberació, la manera en que s'eleva l'estribillo —aquells patrons es repeteixen entre prompts. Per a una o dues cançons, la qualitat és alta. Per a un catàleg, l'empremta digital es fa òbvia. El model també té una tolerància limitada per a les sol·licituds genuïnament estranyes o que desafien el gènere; tendeix a resoldre l'ambigüitat cap als seus estils de producció més entrenats.
El preu és basat en l'ús amb un nivell gratuït que et dona un grapat de pistes abans d'arribar als límits. La llicència comercial està disponible en plans de pagament. Per a la majoria de les persones que volen una cançó completa i escoltable ràpidament, Suno és la primera eina a provar —especialment per als gèneres amb vocals al davant.
Udio
Udio aborda el mateix problema de cançó completa des d'un angle lleugerament diferent. On Suno prioritza la coherència melòdica, Udio produeix sortides que de vegades se senten més instrumentalment detallades —la programació de la bateria, la vocalització dels acords i l'arranjament de producció solen variar més de pista a pista.
La qualitat vocal és competitiva amb Suno en preses fortes, però la variança és superior. Obtens algunes preses que són genuïnament impressionants i algunes que tenen la sensació vidriosa, a mitja frase, que marca un vocal d'IA que lluita amb el fraseig. El sistema de prompts recompensa l'especificitat: dir-li el BPM, la tonalitat, la dècada de producció i la instrumentació específica produeix resultats més ajustats que les referències d'estil vagues.
Udio admet sortides més llargues que Riffusion i permet certa personalització estructural. Val la pena provar-la en paral·lel amb Suno en qualsevol projecte —prompts diferents afavoreixen motors diferents, i el que Udio renderitza per a una balada soul pot superar la presa de Suno en el mateix encàrrec.
aisonggen
La característica distintiva d'aisonggen és la generació en paral·lel: el generador de música renderitza cinc variants d'un sol prompt simultàniament, de manera que estàs comparant preses en lloc d'esperar una, rebutjar-la i tornar a començar. Per als projectes on la restricció bloquejant és el bucle d'iteració —no el sostre de qualitat— aquella estructura importa més del que sembla.
El fraseig vocal en les preses individuals més fortes és competitiu però no consistentment per davant de les millors sortides de Suno. El marc honest és: aisonggen no guanya en qualitat vocal de pic, però redueix el nombre de cicles de regenerar i esperar que cremes per arribar a una presa acceptable. Cinc sortides simultànies et permeten triar la que té la millor execució de l'estribillo fins i tot si tres de les altres han fallat.
Més enllà de la generació, aisonggen té una superfície separada de l'Estudi de Lletra on pots escriure i editar la lletra abans de comprometre't amb un renderitzat, cosa que ajuda si vols controlar el que realment diuen els vocals en lloc de deixar que el model improvisi. També hi ha un generador de versions que re-renderitza una pista existent en un estil diferent —útil si tens una presa que t'agrada principalment però vols escoltar-la amb una producció diferent.
El preu comença amb un nivell gratuït; la pàgina de preus cobreix els límits del pla en detall. Si l'estàs avaluant juntament amb altres eines, la pàgina de ressenyes té comparacions d'usuaris específicament respecte a Suno i Udio.
Mureka
Mureka és una opció menys visible que produeix una qualitat de sortida que competeix al capdamunt de la categoria en certs tipus de prompts, particularment per a pistes amb una complexitat real d'arranjament instrumental. On Suno i Udio de vegades col·lapsen un arranjament multi-instrument en una barreja homogènia, les sortides de Mureka poden preservar la separació espacial dels instruments d'una manera que es manté amb auriculars.
La compensació és que la superfície del producte és menys polida. La interfície de prompts és menys indulgent amb les entrades informals, i la velocitat de generació és més lenta que Suno. Per a l'ús professional on la qualitat de l'arranjament supera la velocitat d'iteració, és un compromís raonable. Per als projectes informals on vols quelcom escoltable ràpidament, no és la primera eina a recórrer.
Els termes de llicència comercial de Mureka són més clars que els de Riffusion, cosa que importa per a la música que va al vídeo, la publicitat o la distribució. El nivell gratuït és limitat però funcional per a l'avaluació.
Stable Audio
Stable Audio (de Stability AI) ocupa un terreny intermedi entre l'enfocament de primera la textura de Riffusion i l'enfocament de primera la cançó de Suno. Genera àudio a major fidelitat que Riffusion i admet clips més llargs —fins a tres minuts en algunes configuracions— mentre dóna un control més precís sobre la durada i l'estil que la majoria dels generadors.
La sortida s'inclina cap a l'instrumental. La generació vocal no és el punt fort de Stable Audio, de manera que s'adeqüa millor a les pistes de suport, les composicions instrumentals i el disseny de so que a les cançons acabades amb vocals cantades. Per als productors que volen un arranjament instrumental renderitzat per posar-hi els seus propis vocals, és una opció forta. Per a qualsevol persona que necessiti que la IA gestioni també els vocals, Suno o Udio són més adequades.
El model es beneficia de la mateixa filosofia de pesos oberts que fonamenta Riffusion —hi ha una versió orientada a la recerca disponible per als usuaris tècnics que volen executar-la localment o ajustar-la finament— però el producte allotjat és accessible sense cap configuració tècnica.
Com triar — tres preguntes
- Quant de temps ha de tenir la sortida i quanta estructura necessita? Si necessites qualsevol cosa de més de dos minuts amb una estructura vers-estribillo recognoscible, Riffusion queda descartada. Suno o aisonggen són el camí més ràpid cap a una cançó adequadament modelada. Si necessites una pista de suport instrumental de menys de dos minuts sense preocupar-te pels vocals, Stable Audio o Udio val la pena provar-les.
- Què requereix la teva situació de llicència? Si la sortida va a un projecte comercial —vídeo, publicitat, llançament en streaming— necessites claredat sobre els termes abans de comprometre't. La llicència de Riffusion és la menys resolta. Suno, Udio i aisonggen tots tenen termes comercials explícits en plans de pagament. Comprova el nivell específic que estàs en; les sortides de nivell gratuït sovint porten restriccions diferents que les de pagament.
- Quant control necessites sobre la sortida? Si necessites especificar lletra, direcció melòdica o detalls de producció, usa una eina que accepti entrades estructurades. L'Estudi de Lletra d'aisonggen i el mode personalitzat de Suno estan tots dos dissenyats per a aquell tipus de control direccional. Si ets feliç iterant des d'un prompt d'estil i triant la millor presa, qualsevol de les cinc eines anteriors pot donar suport a aquell flux de treball —i l'enfocament de renderitzat en paral·lel d'aisonggen fa que el pas de tria sigui més ràpid.
Un pla de prova de 20 minuts
- Tria un prompt que representi el teu cas d'ús real. No provis amb «cançó de pop animada» —prova amb el que realment necessitaries lliurar. Si el teu projecte és instrumentals de hip-hop lo-fi a 85 BPM, aquell és el prompt. Els prompts de prova artificials produeixen resultats artificials.
- Executa el mateix prompt en almenys dues eines simultàniament. La generació triga aproximadament de 30 a 90 segons depenent de la plataforma i la cua. Envia'l als dos abans de revisar cap dels dos.
- Avalua primer la dimensió que t'importa més. Si els vocals són crítics, escolta únicament l'actuació vocal en la teva primera passada i ignora la qualitat de la producció. Si l'arranjament és crític, escolta primer amb aquella oïda. Barrejar les avaluacions dilueix el senyal.
- Executa de tres a cinc variacions en l'eina que ha rendit millor. Una bona sortida podria ser variança. Cinc sortides en el mateix encàrrec et donen una idea més clara de la fiabilitat real de l'eina en el teu tipus de prompt.
- Comprova la sortida en el dispositiu de reproducció que usarà la teva audiència. L'àudio generat per IA de vegades sona excel·lent en monitors d'estudi i prim en auriculars, o a l'inrevés. Si la teva audiència fa streaming des de telèfons, és allà on has d'escoltar abans de comprometre't amb una eina.
Riffusion recompensa l'exploració. És l'eina adequada quan vols descobrir alguna cosa que no podries haver descrit per endavant. Però si estàs partint d'un encàrrec clar —una estructura específica, un conjunt de lletra, un gènere que ha d'aterrar per a una audiència real— les eines anteriors són més probables que t'hi portin en una sessió en lloc d'una setmana.
Si estàs avaluant aisonggen específicament, el generador de música és la manera més ràpida d'executar la teva primera prova, i la sortida de variants en paral·lel significa que el teu pla de 20 minuts cobreix més terreny en el mateix temps del rellotge.